每道题,像科学家交给合作者的一次请求
官方对任务形态的定义是:一段科学提示(prompt)+ 任何相关上下文或材料(artifacts)+ 一段自由回答。专家撰写的 rubric 评估的,是模型能不能针对这个具体问题给出正确答案,并带着科学家期望的细节、理由、注意事项和格式。
很多任务还要求模型处理不确定性、并对支撑数据文件做推理,而不能只依赖题面文字——这正是它区别于"知识问答"的地方。
七类科研工作流
OpenAI 调研了一线科学家"在应用研究中最常用的工作流",归并成这七类。LifeSciBench 的 750 道题就铺在这七类之上。
Evidence Handling
Analysis
Design, Optimization & Prediction
Scientific Reasoning
Validation & Operations
Translation
Scientific Communication
LifeSciBench 发布页明确是七类工作流(转化与科学沟通分开)。而 GPT-Rosalind 发布页在概述时把它们写成"六个工作流领域",将转化与科学沟通合并表述。两处指的是同一套任务,只是粒度不同——本站以 LifeSciBench 发布页的七类为准。第 2、3、4、5、6、7 类的中文释义为本站据官方语境的归纳,仅第 1 类(证据处理)为官方原文定义。
七个生物学领域
另一条轴是七个生物学领域,由具备药物发现经验的博士科学家覆盖。官方公告强调的是"工作流"这条轴,并未逐一列出七个领域的名称,因此本站不臆造清单。
从官方放出的样例与专家点评可以看出领域跨度之大——例如一条专家点评称某题"整合了结构生物学、药物化学、受体药理学与配体作用机制";公开的证据处理样例则落在 基因治疗 / 临床监管(杜氏肌营养不良的 AAV9 micro-dystrophin 项目,见实测样例)。可将其理解为覆盖从分子、基因、通路到活体系统的多个尺度。
真实、要读材料、且多步
多步
79% 的任务需要多步推理或决策,平均 4 步/题。
1,062 个附件
图、PDF、表格、序列文件、结构/化学文件、网页引用。53% 的任务要求解读或综合至少一个附件。
173 位出题人
来自不同生科学科,均有博士训练 + 生物科技/药企经验。
一道题被接受前,过了多少关
- 修订轮次不设上限,改到合格为止;被接受的任务平均经历 6 轮自助式自动复核;
- 并完成至少 2 轮专家评审;
- 评审锚点要么是可验证的正确答案,要么是强专家共识,且相关领域评审者之间一致率 ≥ 90%。
这套流程要保证被接受的题目"科学上站得住、清楚到能打分、且能代表应用研究"。
19,020 条 rubric:为什么不能只看最终答案
每题配一份高度细化的、任务专属的 rubric,把"期望的回答"拆成具体的科学主张、计算、决策、理由等。全基准共 19,020 条评分标准,平均每题 25 条,同时评估"科学正确性"与"对研究决策的有用性"。
结论对 ≠ 满分
一份回答可能达到了正确的高层结论,但如果漏掉了一个关键 assay 限制、或没有主动点出一个影响重大的生物学细节,仍会被判为不完整。
没解出 ≠ 零分
一份只解了一半的回答,里头可能包含高质量的推理。细颗粒的 rubric 能给这部分部分分。
所以 LifeSciBench 评的不只是"最终答案准不准",而是模型有没有用一条科学上有效、且对运营有用的路径抵达答案。这也对应了它的两把尺子——Pass rate 与 Score。
453 位"没参与出题"的专家,怎么打分
为验证基准本身的质量,OpenAI 找了 453 位未参与撰写的评审者独立评估。其中 97% 拥有博士或同等学位,平均 12 年领域经验、14 篇同行评审论文,88% 至少获得过一项奖励或会士头衔。
| 验收维度 | 强烈同意 | 总体同意 |
|---|---|---|
| 真实世界相关性 这道题是否反映真实的生科工作? | 90.4% | 98.3% |
| 科学推理 / 领域技能 是否考查并评分了正确的推理与领域能力? | 86.4% | 98.1% |
| 科学扎实度 题目是否有据、可答、锚定在证据/共识上? | 77.1% | 96.5% |
| 整体有用性 总体看,这是不是一道好的生科评测题? | 79.1% | 96.6% |
每个维度的总体一致率都 超过 96%。一位评审者的评语点出了好题的精髓:"它不是简单测模型能不能回忆信息,而是测它能不能从当下展示给它的证据里做推理。"