模型成绩

36.1% 的整体通过率
说明了什么

GPT-Rosalind 把整体 exact pass rate 从 GPT-5.5 的 25.7% 提升到 36.1%——进步真实,但绝对值仍然不高,基准远未饱和。更有价值的是看它强在哪、弱在哪:强在科学沟通与转化判断,弱在数值、序列、结构和从附件里精确抽取。

两把尺子(回顾)

Pass rate vs Score

Pass rate 达到任务级 70% 阈值的任务占比(全有或全无) Score 按 rubric 逐条给的平均奖励(含部分分)

下文除特别说明外,引用的均为 exact pass rate。官方强调:这些都还不算高,应理解为"任务级能力的早期信号",不能直接等同于真实研发影响。

强项

AI 已显早期实力的方向

最强的进步出现在科学沟通与转化判断——也就是"证据边界清晰、要求结构化科学判断"的任务。

科学沟通 (n=9, 谨慎)
71.1%
转化 Translation
57.7%
需"专家可用/可执行"输出
44.7%
需处理不确定性/注意事项
44.8%

科学沟通:56.3%(GPT-5.5)→ 71.1%(GPT-Rosalind)。意味着模型在"组织证据、产出有说服力的、面向专家的解释"上提升很快。但该子集仅 9 题,别过度放大。

转化(药物研发"实验台到临床"):36.8% → 57.7%,模型把临床前证据连到临床意义的能力在快速变好。

rubric 级结果同向:在"需要专家可用/可执行输出"的任务上 29.1% → 44.7%;在"需要处理不确定性与注意事项"的任务上 29.3% → 44.8%。规律:任务有清晰的证据边界、且呼唤结构化科学判断时,模型最有用。

短板

仍然明显吃力的方向

在"附件重、设计重、受操作约束"的科学工作上,表现弱得多;越是要求精确、可直接使用的输出,越掉档。

设计/优化/预测
30.7%
分析 Analysis
30.3%
构建生成 construct
27.3%
序列 / 结构输出
24.0%
数值任务 numeric
14.8%
附件就是一道坎

同样是 GPT-Rosalind,通过率从纯文本任务的 45.1% 掉到带附件/URL 的 28.1%;GPT-5.5 也一样(29.9%→21.9%)。更细的分析确认:前沿模型在"从复杂图表或大序列文件里抽取信息、并整合进最终答案"这一步上挣扎。

为什么"精确输出"这么难、又这么重要:数值/序列/结构/构建类任务的评分面更严,计算或格式上的小差异就可能跌破通过阈值。但这些失败在科学上是要命的——很多生科工作(如 CRISPR/HDR 供体设计、siRNA 设计)要求的输出必须精确到能直接拿去用。

完整数字

逐项对照(exact pass rate)

维度 / 任务类型GPT-5.5GPT-Rosalind变化
整体 overall25.7%36.1%+10.4
科学沟通(n=9)56.3%71.1%+14.8
转化 Translation36.8%57.7%+20.9
需专家可用/可执行输出29.1%44.7%+15.6
需处理不确定性/注意事项29.3%44.8%+15.5
纯文本任务29.9%45.1%+15.2
带附件 / URL 任务21.9%28.1%+6.2
设计 / 优化 / 预测30.7%
分析 Analysis30.3%
构建生成 construct27.3%几无提升
序列 / 结构输出24.0%
数值任务 numeric14.8%

"—"表示官方未单列该项的 GPT-5.5 数字;构建生成官方表述为"相对 GPT-5.5 几无改进"。

关键洞察

"做了一半"很常见:部分得分 vs 通过

109 道题:通过率 <20%,rubric 却拿到 ≥50%

大约 14% 的任务,模型虽然没跨过 exact-pass 阈值,却拿到了可观的 rubric 部分分。对 GPT-Rosalind 而言,有 109 道任务通过率低于 20%,同时 rubric 奖励却 ≥ 50%。

这意味着:模型常常能识别相关证据、给出看似合理的部分答案,但最终失败——因为漏了一个关键约束、用错了证据、算了一半,或者没把推理连到一个"科学上有用的最终决策"上。对使用者的启示:模型的中间产物(证据梳理、初稿判断)往往可用,但"最后一公里"的精确性与完整性仍需人来把关。

官方自陈的局限

强成绩 ≠ 真实研发影响

  • LifeSciBench 不能替代在真实研究环境中研究模型。它聚焦"自成一体、可复现的行业工作流任务",把许多科学专科和任务类型留在了当前范围之外。
  • 真实科研是迭代的:收集新证据、修正假设、设计后续实验、随结果调整计划。强表现应解读为"现实任务级能力"的证据,而非下游研发影响的直接度量。
  • 下一步:把基准表现连到真实工作流中的部署研究——看模型是否真的缩短某类分析时间、提高决策质量、减少专家返工。这需要更长周期、多轮反馈与实验跟进。