OpenAI · 2026-06-17 · 生命科学科研基准

LifeSciBench:把 AI 放进
真实科研协作里去考

不是考生物知识问答,而是把模型当成一位有博士功底的科研合作者:给它一段真实研究请求、必要上下文和原始附件,看它能不能交出一个专家愿意采纳的判断——结论、理由、注意事项、限制条件一样都不能少。由 173 位科学家出题、453 位专家独立验收,共 750 道专家真题。

750
专家撰写的任务
7 × 7
工作流 × 生物学领域
19,020
条 rubric 评分标准
173 / 453
出题科学家 / 验收专家
一句话定性

一套"专家出题、专家评分"的真实科研协作考卷

LifeSciBench 是 OpenAI 于 2026 年 6 月 17 日发布的生命科学基准,定位为"扎根于真实科研工作的、专家撰写并专家复核的评测"。它要回答的问题是:AI 系统能不能真正支撑现实中的科研工作——而不只是答对生物题。

和传统生物基准差在哪

过去的生命科学评测大多考单点知识、结构化问答或孤立的预测任务,答案干净、好对。但真实科研是另一回事:研究者要解读不完整的证据、调和互相矛盾的结果、设计困难的实验、排查实验故障、评估转化风险、在不确定中决定下一步。LifeSciBench 专门去测这些"说不清但真实"的能力。

设计要点

四个让它"像真科研"的设计

🧑‍🔬

题目像一次同事委托

每道题 = 一段科学问题 + 相关上下文/附件 + 自由作答。出题人都是有博士训练、且在生物科技/药企做过药物发现的科学家。

📎

要会读"材料"

全集含 1,062 个附件:图、PDF、表格、序列文件、结构/化学文件、网页引用。53% 的任务必须解读或综合至少一个附件,不能只看题面文字。

🪜

多步推理

79% 的任务需要多步推理或决策,平均每题 4 步。不是一问一答,而是把证据、约束、判断串成一次可复核的研究动作。

📋

评分看"过程对不对"

每题配专家 rubric,拆成具体主张、计算、决策、理由、限制与格式要求——共 19,020 条、平均每题 25 条。结论对、但漏掉关键 assay 限制,照样判不完整。

两把尺子

Pass rate 与 Score:一个看"做成没有",一个看"做到几分"

Pass rate(通过率)

模型在某任务上达到 任务级 70% 成功阈值 的任务占比。是个"全有或全无"的硬指标——要点没凑齐就算没过。官方报告的 exact pass rate 用的就是它。

Score(得分)

按 rubric 逐条给的 平均奖励,即使整题没做成,单条要点也能拿部分分。用来捕捉"方向对、推理有质量,但没完全解出"的中间状态。

两者都重要:一份科学回答可以"部分正确、部分有用",却没满足一份完整答案的全部要求。模型成绩页会用这两把尺子拆开看 GPT-Rosalind 的强项与短板。

一图速览结论

AI 现在强在"沟通与判断",弱在"精确与附件"

✓ 已显早期实力

  • 科学沟通 71.1%、转化判断 57.7%(GPT-Rosalind)
  • 需要"专家可用/可执行"输出:44.7%
  • 需要处理不确定性与注意事项:44.8%
  • 共同点:证据边界清晰 + 要求结构化科学判断

✕ 仍明显吃力

  • 数值任务 仅 14.8%;序列/结构输出 24.0%;构建生成 27.3%
  • 带附件/URL 从纯文本的 45.1% 掉到 28.1%
  • 设计优化 30.7%、分析 30.3% 是最难工作流
  • 共同点:要从复杂图表/大序列里精确抽取并整合

看完整成绩拆解 →

这个站讲什么

六页深读