方法与构成 · LifeSciBench 深度解读

750

专家任务

类科研工作流

79%

任务需多步推理（均 4 步）

1,062

个附件 · 53% 任务必读

任务长什么样

每道题，像科学家交给合作者的一次请求

官方对任务形态的定义是：一段科学提示（prompt）+ 任何相关上下文或材料（artifacts）+ 一段自由回答。专家撰写的 rubric 评估的，是模型能不能针对这个具体问题给出正确答案，并带着科学家期望的细节、理由、注意事项和格式。

很多任务还要求模型处理不确定性、并对支撑数据文件做推理，而不能只依赖题面文字——这正是它区别于"知识问答"的地方。

分类法 · 维度一

七类科研工作流

OpenAI 调研了一线科学家"在应用研究中最常用的工作流"，归并成这七类。LifeSciBench 的 750 道题就铺在这七类之上。

1证据处理
Evidence Handling

官方定义：从论文、图、表格和实验记录中抽取、调和并审计科学证据。即把散落、可能互相矛盾的证据梳理成可靠依据。

2分析
Analysis

对真实科学/实验数据做分析、质控、建模与校正，得到与决策相关的结论。这是模型最吃力的工作流之一（见成绩页）。

3设计、优化与预测
Design, Optimization & Prediction

实验/分子设计、多参数先导优化、对潜力或性质的预测。要求精确、可直接使用的输出（如 CRISPR/HDR 供体设计、siRNA 设计），是当前最难的一档。

4科学推理
Scientific Reasoning

在证据之上做领域内的判断与权衡，尤其是在信息不完整、需要在不确定中下结论的场景。

5验证与运营
Validation & Operations

评估方案/结果是否站得住、排查实验故障、判断监管与操作约束——把"实验室和合规的现实"纳入考量。

6转化
Translation

药物研发"从实验台到临床（bench-to-bedside）"的环节：把临床前证据连到临床意义上。模型在这一类进步很快。

7科学沟通
Scientific Communication

把证据组织成面向专家、有说服力的解释与结论。模型当前的相对强项（但该子集样本仅 n=9，需谨慎解读）。

一个口径上的小提醒

LifeSciBench 发布页明确是七类工作流（转化与科学沟通分开）。而 GPT-Rosalind 发布页在概述时把它们写成"六个工作流领域"，将转化与科学沟通合并表述。两处指的是同一套任务，只是粒度不同——本站以 LifeSciBench 发布页的七类为准。第 2、3、4、5、6、7 类的中文释义为本站据官方语境的归纳，仅第 1 类（证据处理）为官方原文定义。

分类法 · 维度二

七个生物学领域

另一条轴是七个生物学领域，由具备药物发现经验的博士科学家覆盖。官方公告强调的是"工作流"这条轴，并未逐一列出七个领域的名称，因此本站不臆造清单。

从官方放出的样例与专家点评可以看出领域跨度之大——例如一条专家点评称某题"整合了结构生物学、药物化学、受体药理学与配体作用机制"；公开的证据处理样例则落在 基因治疗 / 临床监管（杜氏肌营养不良的 AAV9 micro-dystrophin 项目，见实测样例）。可将其理解为覆盖从分子、基因、通路到活体系统的多个尺度。

数据集构造

真实、要读材料、且多步

🪜

多步

79% 的任务需要多步推理或决策，平均 4 步/题。

📎

1,062 个附件

图、PDF、表格、序列文件、结构/化学文件、网页引用。53% 的任务要求解读或综合至少一个附件。

👩‍🔬

173 位出题人

来自不同生科学科，均有博士训练 + 生物科技/药企经验。

出题与质控

一道题被接受前，过了多少关

修订轮次不设上限，改到合格为止；被接受的任务平均经历 6 轮自助式自动复核；
并完成至少 2 轮专家评审；
评审锚点要么是可验证的正确答案，要么是强专家共识，且相关领域评审者之间一致率 ≥ 90%。

这套流程要保证被接受的题目"科学上站得住、清楚到能打分、且能代表应用研究"。

评分机制

19,020 条 rubric：为什么不能只看最终答案

每题配一份高度细化的、任务专属的 rubric，把"期望的回答"拆成具体的科学主张、计算、决策、理由等。全基准共 19,020 条评分标准，平均每题 25 条，同时评估"科学正确性"与"对研究决策的有用性"。

结论对 ≠ 满分

一份回答可能达到了正确的高层结论，但如果漏掉了一个关键 assay 限制、或没有主动点出一个影响重大的生物学细节，仍会被判为不完整。

没解出 ≠ 零分

一份只解了一半的回答，里头可能包含高质量的推理。细颗粒的 rubric 能给这部分部分分。

所以 LifeSciBench 评的不只是"最终答案准不准"，而是模型有没有用一条科学上有效、且对运营有用的路径抵达答案。这也对应了它的两把尺子——Pass rate 与 Score。

独立验收

453 位"没参与出题"的专家，怎么打分

为验证基准本身的质量，OpenAI 找了 453 位未参与撰写的评审者独立评估。其中 97% 拥有博士或同等学位，平均 12 年领域经验、14 篇同行评审论文，88% 至少获得过一项奖励或会士头衔。

验收维度	强烈同意	总体同意
真实世界相关性这道题是否反映真实的生科工作？	90.4%	98.3%
科学推理 / 领域技能是否考查并评分了正确的推理与领域能力？	86.4%	98.1%
科学扎实度题目是否有据、可答、锚定在证据/共识上？	77.1%	96.5%
整体有用性总体看，这是不是一道好的生科评测题？	79.1%	96.6%

每个维度的总体一致率都 超过 96%。一位评审者的评语点出了好题的精髓："它不是简单测模型能不能回忆信息，而是测它能不能从当下展示给它的证据里做推理。"

← 首页下一页：模型成绩 →