LifeSciBench vs BioMysteryBench
| 维度 | LifeSciBench(OpenAI) | BioMysteryBench(Anthropic) |
|---|---|---|
| 考什么 | 科研协作/工作流:证据处理、推理、转化、沟通 | 从 raw data 端到端自主分析 → 客观生物学结论 |
| 题目形态 | 文字请求 + 上下文 + 附件,自由作答 | 给原始/最小处理的真实测序数据 + 一个能装工具的环境 |
| 评分 | rubric 评过程:理由、注意事项、格式都计分(19,020 条);看"专家会不会采纳" | 只看最终答案(method-agnostic),对客观 ground-truth,部分经 PCR 等正交验证 |
| 规模 | 750 题、7 工作流 × 7 领域 | 99 题(76 专家可解 + 23 专家也解不出) |
| Agent 程度 | 较低——读材料给判断(GPT-Rosalind 另配插件补执行层) | 高——模型真的在终端跑工具、装软件、下基因组 |
| 夺冠模型 | GPT-Rosalind(整体 36.1%) | Claude(Sonnet 4.6 起与专家持平) |
| 回答的问题 | "AI 能不能产出专家可复核的交付物?" | "AI 能不能独立跑出分析结论?能不能拿来验收我的 pipeline?" |
一句话:LifeSciBench 考"过程/协作",BioMysteryBench 考"结果/自主分析"。把两者放在一起,恰好覆盖一个基因组团队工作链的两半。
BioMysteryBench 的同款深度解读在 biomysterybench.sinogenomics.com ↗。
它对应的是"交付那半"
一个典型的基因组项目链路 = 原始组学分析(跑 pipeline)→ 解读机制 → 写出可复核的交付报告。这两套基准各管一半:
分析那半 ↔ BioMysteryBench
从原始数据到结论、跑工具、得客观答案——和你在集群上跑 scRNA/bulk/变异 pipeline 是同一件事。它能回答"哪类分析能托付给 AT"以及"能不能用带标准答案的真数据验收我的流程"。
交付那半 ↔ LifeSciBench
把证据组织成"专家会采纳"的判断与报告——对应你写交付/解读文档、做转化结论、给客户/评审解释。LifeSciBench 的强项区(科学沟通、转化)正是这一段。
哪些活现在能交给 AI,哪些要守住
✓ 可以放手(AI 已相对强)
- 证据梳理:从论文/图/表里抽取、调和、审计证据;
- 科学沟通:把结论写成面向专家/客户、有据可循的解释(71.1%);
- 转化判断:把临床前/组学证据连到下游意义(57.7%);
- 初稿与中间产物:109 道"通过率低但 rubric 高"的题说明——模型的半成品判断常可用,作为人工的起点很省事。
✕ 守住(AI 仍易错,要人+pipeline)
- 精确数值:numeric 仅 14.8%——表达量、差异统计、定量结果别让模型自己算或"复核";
- 序列/结构/构建:24–27%——位点、引物、HDR 供体、siRNA 这类要精确到能直接用的输出,错一点全链返工;
- 从大附件精确抽取:带附件从 45% 掉到 28%——复杂图表/大序列文件里的关键数字,要人核;
- 原则:凡进报告的数字,源头都要可追溯到原始数据,AI 不充当"计算器"或"终判"。
provenance(溯源)正在成为基础工程能力
两套基准、以及 GPT-Rosalind 的两个插件,反复强调同一件事:保留 artifacts 与 provenance、产出可审计、可复核的交付物。NGS Analysis 插件给的是"可审计的运行信封(MultiQC、Salmon 矩阵、provenance、caveats)",LifeSciBench 评分则把"专家会不会采纳"写进 rubric。
对生信团队的落地启示很直接——产品/交付的重心,从"答得像专家"转向"交付物能被专家复核":
- 给每个结论/图表挂上数据来源标注(哪份原始数据、哪步分析产出、什么参数);
- 把 pipeline 跑成可审计的运行记录(QC 报告 + 版本 + 参数 + 注意事项),而不只是最终图;
- 把"AI 不得自行计算数值、所有数字须可追溯"写进交付自查清单。
这些不是为了追时髦,而是 LifeSciBench/BioMysteryBench 同时指向的、AI 时代科研工具链的基础工程能力。