方法与构成

它是怎么搭出来的

LifeSciBench 的可信度来自它的工程:题目取自科学家最常用的工作流,由 173 位博士级科学家撰写、经多轮自动与专家复核,再由 453 位未参与出题的专家独立验收。这一页把这套构造拆开讲。

750
专家任务
7
类科研工作流
79%
任务需多步推理(均 4 步)
1,062
个附件 · 53% 任务必读
任务长什么样

每道题,像科学家交给合作者的一次请求

官方对任务形态的定义是:一段科学提示(prompt)+ 任何相关上下文或材料(artifacts)+ 一段自由回答。专家撰写的 rubric 评估的,是模型能不能针对这个具体问题给出正确答案,并带着科学家期望的细节、理由、注意事项和格式。

很多任务还要求模型处理不确定性、并对支撑数据文件做推理,而不能只依赖题面文字——这正是它区别于"知识问答"的地方。

分类法 · 维度一

七类科研工作流

OpenAI 调研了一线科学家"在应用研究中最常用的工作流",归并成这七类。LifeSciBench 的 750 道题就铺在这七类之上。

1证据处理
Evidence Handling
官方定义:从论文、图、表格和实验记录中抽取、调和并审计科学证据。即把散落、可能互相矛盾的证据梳理成可靠依据。
2分析
Analysis
对真实科学/实验数据做分析、质控、建模与校正,得到与决策相关的结论。这是模型最吃力的工作流之一(见成绩页)。
3设计、优化与预测
Design, Optimization & Prediction
实验/分子设计、多参数先导优化、对潜力或性质的预测。要求精确、可直接使用的输出(如 CRISPR/HDR 供体设计、siRNA 设计),是当前最难的一档。
4科学推理
Scientific Reasoning
在证据之上做领域内的判断与权衡,尤其是在信息不完整、需要在不确定中下结论的场景。
5验证与运营
Validation & Operations
评估方案/结果是否站得住、排查实验故障、判断监管与操作约束——把"实验室和合规的现实"纳入考量。
6转化
Translation
药物研发"从实验台到临床(bench-to-bedside)"的环节:把临床前证据连到临床意义上。模型在这一类进步很快。
7科学沟通
Scientific Communication
把证据组织成面向专家、有说服力的解释与结论。模型当前的相对强项(但该子集样本仅 n=9,需谨慎解读)。
一个口径上的小提醒

LifeSciBench 发布页明确是七类工作流(转化与科学沟通分开)。而 GPT-Rosalind 发布页在概述时把它们写成"六个工作流领域",将转化与科学沟通合并表述。两处指的是同一套任务,只是粒度不同——本站以 LifeSciBench 发布页的七类为准。第 2、3、4、5、6、7 类的中文释义为本站据官方语境的归纳,仅第 1 类(证据处理)为官方原文定义。

分类法 · 维度二

七个生物学领域

另一条轴是七个生物学领域,由具备药物发现经验的博士科学家覆盖。官方公告强调的是"工作流"这条轴,并未逐一列出七个领域的名称,因此本站不臆造清单。

从官方放出的样例与专家点评可以看出领域跨度之大——例如一条专家点评称某题"整合了结构生物学、药物化学、受体药理学与配体作用机制";公开的证据处理样例则落在 基因治疗 / 临床监管(杜氏肌营养不良的 AAV9 micro-dystrophin 项目,见实测样例)。可将其理解为覆盖从分子、基因、通路到活体系统的多个尺度。

数据集构造

真实、要读材料、且多步

🪜

多步

79% 的任务需要多步推理或决策,平均 4 步/题

📎

1,062 个附件

图、PDF、表格、序列文件、结构/化学文件、网页引用。53% 的任务要求解读或综合至少一个附件。

👩‍🔬

173 位出题人

来自不同生科学科,均有博士训练 + 生物科技/药企经验。

出题与质控

一道题被接受前,过了多少关

  • 修订轮次不设上限,改到合格为止;被接受的任务平均经历 6 轮自助式自动复核;
  • 并完成至少 2 轮专家评审;
  • 评审锚点要么是可验证的正确答案,要么是强专家共识,且相关领域评审者之间一致率 ≥ 90%

这套流程要保证被接受的题目"科学上站得住、清楚到能打分、且能代表应用研究"。

评分机制

19,020 条 rubric:为什么不能只看最终答案

每题配一份高度细化的、任务专属的 rubric,把"期望的回答"拆成具体的科学主张、计算、决策、理由等。全基准共 19,020 条评分标准,平均每题 25 条,同时评估"科学正确性"与"对研究决策的有用性"。

结论对 ≠ 满分

一份回答可能达到了正确的高层结论,但如果漏掉了一个关键 assay 限制、或没有主动点出一个影响重大的生物学细节,仍会被判为不完整。

没解出 ≠ 零分

一份只解了一半的回答,里头可能包含高质量的推理。细颗粒的 rubric 能给这部分部分分

所以 LifeSciBench 评的不只是"最终答案准不准",而是模型有没有用一条科学上有效、且对运营有用的路径抵达答案。这也对应了它的两把尺子——Pass rate 与 Score

独立验收

453 位"没参与出题"的专家,怎么打分

为验证基准本身的质量,OpenAI 找了 453 位未参与撰写的评审者独立评估。其中 97% 拥有博士或同等学位,平均 12 年领域经验、14 篇同行评审论文,88% 至少获得过一项奖励或会士头衔。

验收维度强烈同意总体同意
真实世界相关性
这道题是否反映真实的生科工作?
90.4%98.3%
科学推理 / 领域技能
是否考查并评分了正确的推理与领域能力?
86.4%98.1%
科学扎实度
题目是否有据、可答、锚定在证据/共识上?
77.1%96.5%
整体有用性
总体看,这是不是一道好的生科评测题?
79.1%96.6%

每个维度的总体一致率都 超过 96%。一位评审者的评语点出了好题的精髓:"它不是简单测模型能不能回忆信息,而是测它能不能从当下展示给它的证据里做推理。"