OpenAI · 2026-06-17 · 生命科学科研基准

LifeSciBench：把 AI 放进
真实科研协作里去考

不是考生物知识问答，而是把模型当成一位有博士功底的科研合作者：给它一段真实研究请求、必要上下文和原始附件，看它能不能交出一个专家愿意采纳的判断——结论、理由、注意事项、限制条件一样都不能少。由 173 位科学家出题、453 位专家独立验收，共 750 道专家真题。

看它怎么构成的 → 直接看模型成绩

750

专家撰写的任务

7 × 7

工作流 × 生物学领域

19,020

条 rubric 评分标准

173 / 453

出题科学家 / 验收专家

一句话定性

一套"专家出题、专家评分"的真实科研协作考卷

LifeSciBench 是 OpenAI 于 2026 年 6 月 17 日发布的生命科学基准，定位为"扎根于真实科研工作的、专家撰写并专家复核的评测"。它要回答的问题是：AI 系统能不能真正支撑现实中的科研工作——而不只是答对生物题。

和传统生物基准差在哪

过去的生命科学评测大多考单点知识、结构化问答或孤立的预测任务，答案干净、好对。但真实科研是另一回事：研究者要解读不完整的证据、调和互相矛盾的结果、设计困难的实验、排查实验故障、评估转化风险、在不确定中决定下一步。LifeSciBench 专门去测这些"说不清但真实"的能力。

设计要点

四个让它"像真科研"的设计

🧑‍🔬

题目像一次同事委托

每道题 = 一段科学问题 + 相关上下文/附件 + 自由作答。出题人都是有博士训练、且在生物科技/药企做过药物发现的科学家。

📎

要会读"材料"

全集含 1,062 个附件：图、PDF、表格、序列文件、结构/化学文件、网页引用。53% 的任务必须解读或综合至少一个附件，不能只看题面文字。

🪜

多步推理

79% 的任务需要多步推理或决策，平均每题 4 步。不是一问一答，而是把证据、约束、判断串成一次可复核的研究动作。

📋

评分看"过程对不对"

每题配专家 rubric，拆成具体主张、计算、决策、理由、限制与格式要求——共 19,020 条、平均每题 25 条。结论对、但漏掉关键 assay 限制，照样判不完整。

两把尺子

Pass rate 与 Score：一个看"做成没有"，一个看"做到几分"

Pass rate（通过率）

模型在某任务上达到 任务级 70% 成功阈值 的任务占比。是个"全有或全无"的硬指标——要点没凑齐就算没过。官方报告的 exact pass rate 用的就是它。

Score（得分）

按 rubric 逐条给的 平均奖励，即使整题没做成，单条要点也能拿部分分。用来捕捉"方向对、推理有质量，但没完全解出"的中间状态。

两者都重要：一份科学回答可以"部分正确、部分有用"，却没满足一份完整答案的全部要求。模型成绩页会用这两把尺子拆开看 GPT-Rosalind 的强项与短板。

一图速览结论

AI 现在强在"沟通与判断"，弱在"精确与附件"

✓ 已显早期实力

科学沟通 71.1%、转化判断 57.7%（GPT-Rosalind）
需要"专家可用/可执行"输出：44.7%
需要处理不确定性与注意事项：44.8%
共同点：证据边界清晰 + 要求结构化科学判断

✕ 仍明显吃力

数值任务 仅 14.8%；序列/结构输出 24.0%；构建生成 27.3%
带附件/URL 从纯文本的 45.1% 掉到 28.1%
设计优化 30.7%、分析 30.3% 是最难工作流
共同点：要从复杂图表/大序列里精确抽取并整合

看完整成绩拆解 →

这个站讲什么

六页深读

🧩

LifeSciBench：把 AI 放进
真实科研协作里去考

一套"专家出题、专家评分"的真实科研协作考卷

四个让它"像真科研"的设计

题目像一次同事委托

要会读"材料"

多步推理

评分看"过程对不对"

Pass rate 与 Score：一个看"做成没有"，一个看"做到几分"

Pass rate（通过率）

Score（得分）

AI 现在强在"沟通与判断"，弱在"精确与附件"

✓ 已显早期实力

✕ 仍明显吃力

六页深读

方法与构成 →

模型成绩 →

实测样例 →

GPT-Rosalind 与执行层 →

对你的意义 →

FAQ →

LifeSciBench：把 AI 放进真实科研协作里去考

一套"专家出题、专家评分"的真实科研协作考卷

四个让它"像真科研"的设计

题目像一次同事委托

要会读"材料"

多步推理

评分看"过程对不对"

Pass rate 与 Score：一个看"做成没有"，一个看"做到几分"

Pass rate（通过率）

Score（得分）

AI 现在强在"沟通与判断"，弱在"精确与附件"

✓ 已显早期实力

✕ 仍明显吃力

六页深读

方法与构成 →

模型成绩 →

实测样例 →

GPT-Rosalind 与执行层 →

对你的意义 →

FAQ →

LifeSciBench：把 AI 放进
真实科研协作里去考