一套"专家出题、专家评分"的真实科研协作考卷
LifeSciBench 是 OpenAI 于 2026 年 6 月 17 日发布的生命科学基准,定位为"扎根于真实科研工作的、专家撰写并专家复核的评测"。它要回答的问题是:AI 系统能不能真正支撑现实中的科研工作——而不只是答对生物题。
过去的生命科学评测大多考单点知识、结构化问答或孤立的预测任务,答案干净、好对。但真实科研是另一回事:研究者要解读不完整的证据、调和互相矛盾的结果、设计困难的实验、排查实验故障、评估转化风险、在不确定中决定下一步。LifeSciBench 专门去测这些"说不清但真实"的能力。
四个让它"像真科研"的设计
题目像一次同事委托
每道题 = 一段科学问题 + 相关上下文/附件 + 自由作答。出题人都是有博士训练、且在生物科技/药企做过药物发现的科学家。
要会读"材料"
全集含 1,062 个附件:图、PDF、表格、序列文件、结构/化学文件、网页引用。53% 的任务必须解读或综合至少一个附件,不能只看题面文字。
多步推理
79% 的任务需要多步推理或决策,平均每题 4 步。不是一问一答,而是把证据、约束、判断串成一次可复核的研究动作。
评分看"过程对不对"
每题配专家 rubric,拆成具体主张、计算、决策、理由、限制与格式要求——共 19,020 条、平均每题 25 条。结论对、但漏掉关键 assay 限制,照样判不完整。
Pass rate 与 Score:一个看"做成没有",一个看"做到几分"
Pass rate(通过率)
模型在某任务上达到 任务级 70% 成功阈值 的任务占比。是个"全有或全无"的硬指标——要点没凑齐就算没过。官方报告的 exact pass rate 用的就是它。
Score(得分)
按 rubric 逐条给的 平均奖励,即使整题没做成,单条要点也能拿部分分。用来捕捉"方向对、推理有质量,但没完全解出"的中间状态。
两者都重要:一份科学回答可以"部分正确、部分有用",却没满足一份完整答案的全部要求。模型成绩页会用这两把尺子拆开看 GPT-Rosalind 的强项与短板。
AI 现在强在"沟通与判断",弱在"精确与附件"
✓ 已显早期实力
- 科学沟通 71.1%、转化判断 57.7%(GPT-Rosalind)
- 需要"专家可用/可执行"输出:44.7%
- 需要处理不确定性与注意事项:44.8%
- 共同点:证据边界清晰 + 要求结构化科学判断
✕ 仍明显吃力
- 数值任务 仅 14.8%;序列/结构输出 24.0%;构建生成 27.3%
- 带附件/URL 从纯文本的 45.1% 掉到 28.1%
- 设计优化 30.7%、分析 30.3% 是最难工作流
- 共同点:要从复杂图表/大序列里精确抽取并整合
六页深读
方法与构成 →
7 类工作流 + 7 个生物学领域的定义;数据集如何构造;rubric 怎么评分;453 位专家如何独立验收(一致率 >96%)。
模型成绩 →
GPT-Rosalind vs GPT-5.5 全量拆解:强项、短板、按附件/格式/工作流的逐项数字,以及"部分得分"的关键洞察。
实测样例 →
官方放出的证据处理真题:AAV9 微肌营养不良蛋白基因疗法的 FDA Type B 会议数据包逐项"压力测试" + rubric 配分。
GPT-Rosalind 与执行层 →
专为生科打造的模型;MedChem/Gene/LabWork 三子基准;两个插件 + Codex 原生查看器;KRAS 演示;访问与 Novo Nordisk。
对你的意义 →
与 Anthropic 的 BioMysteryBench 有何不同;落到真实生物信息/基因组交付工作上怎么用这套结论。
FAQ →
能不能下载?和论文什么关系?数字可信吗?7 还是 6 个工作流?一次说清。