模型成绩

36.1% 的整体通过率
说明了什么

GPT-Rosalind 把整体 exact pass rate 从 GPT-5.5 的 25.7% 提升到 36.1%——进步真实，但绝对值仍然不高，基准远未饱和。更有价值的是看它强在哪、弱在哪：强在科学沟通与转化判断，弱在数值、序列、结构和从附件里精确抽取。

两把尺子（回顾）

Pass rate vs Score

Pass rate 达到任务级 70% 阈值的任务占比（全有或全无） Score 按 rubric 逐条给的平均奖励（含部分分）

下文除特别说明外，引用的均为 exact pass rate。官方强调：这些都还不算高，应理解为"任务级能力的早期信号"，不能直接等同于真实研发影响。

强项

AI 已显早期实力的方向

最强的进步出现在科学沟通与转化判断——也就是"证据边界清晰、要求结构化科学判断"的任务。

科学沟通 (n=9, 谨慎)

71.1%

转化 Translation

57.7%

需"专家可用/可执行"输出

44.7%

需处理不确定性/注意事项

44.8%

科学沟通：56.3%（GPT-5.5）→ 71.1%（GPT-Rosalind）。意味着模型在"组织证据、产出有说服力的、面向专家的解释"上提升很快。但该子集仅 9 题，别过度放大。

转化（药物研发"实验台到临床"）：36.8% → 57.7%，模型把临床前证据连到临床意义的能力在快速变好。

rubric 级结果同向：在"需要专家可用/可执行输出"的任务上 29.1% → 44.7%；在"需要处理不确定性与注意事项"的任务上 29.3% → 44.8%。规律：任务有清晰的证据边界、且呼唤结构化科学判断时，模型最有用。

短板

仍然明显吃力的方向

在"附件重、设计重、受操作约束"的科学工作上，表现弱得多；越是要求精确、可直接使用的输出，越掉档。

设计/优化/预测

30.7%

分析 Analysis

30.3%

构建生成 construct

27.3%

序列 / 结构输出

24.0%

数值任务 numeric

14.8%

附件就是一道坎

同样是 GPT-Rosalind，通过率从纯文本任务的 45.1% 掉到带附件/URL 的 28.1%；GPT-5.5 也一样（29.9%→21.9%）。更细的分析确认：前沿模型在"从复杂图表或大序列文件里抽取信息、并整合进最终答案"这一步上挣扎。

为什么"精确输出"这么难、又这么重要：数值/序列/结构/构建类任务的评分面更严，计算或格式上的小差异就可能跌破通过阈值。但这些失败在科学上是要命的——很多生科工作（如 CRISPR/HDR 供体设计、siRNA 设计）要求的输出必须精确到能直接拿去用。

完整数字

逐项对照（exact pass rate）

维度 / 任务类型	GPT-5.5	GPT-Rosalind	变化
整体 overall	25.7%	36.1%	+10.4
科学沟通（n=9）	56.3%	71.1%	+14.8
转化 Translation	36.8%	57.7%	+20.9
需专家可用/可执行输出	29.1%	44.7%	+15.6
需处理不确定性/注意事项	29.3%	44.8%	+15.5
纯文本任务	29.9%	45.1%	+15.2
带附件 / URL 任务	21.9%	28.1%	+6.2
设计 / 优化 / 预测	—	30.7%	—
分析 Analysis	—	30.3%	—
构建生成 construct	≈	27.3%	几无提升
序列 / 结构输出	—	24.0%	—
数值任务 numeric	—	14.8%	—

"—"表示官方未单列该项的 GPT-5.5 数字；构建生成官方表述为"相对 GPT-5.5 几无改进"。

关键洞察

"做了一半"很常见：部分得分 vs 通过

109 道题：通过率 <20%，rubric 却拿到 ≥50%

大约 14% 的任务，模型虽然没跨过 exact-pass 阈值，却拿到了可观的 rubric 部分分。对 GPT-Rosalind 而言，有 109 道任务通过率低于 20%，同时 rubric 奖励却 ≥ 50%。

这意味着：模型常常能识别相关证据、给出看似合理的部分答案，但最终失败——因为漏了一个关键约束、用错了证据、算了一半，或者没把推理连到一个"科学上有用的最终决策"上。对使用者的启示：模型的中间产物（证据梳理、初稿判断）往往可用，但"最后一公里"的精确性与完整性仍需人来把关。

官方自陈的局限

强成绩 ≠ 真实研发影响

LifeSciBench 不能替代在真实研究环境中研究模型。它聚焦"自成一体、可复现的行业工作流任务"，把许多科学专科和任务类型留在了当前范围之外。
真实科研是迭代的：收集新证据、修正假设、设计后续实验、随结果调整计划。强表现应解读为"现实任务级能力"的证据，而非下游研发影响的直接度量。
下一步：把基准表现连到真实工作流中的部署研究——看模型是否真的缩短某类分析时间、提高决策质量、减少专家返工。这需要更长周期、多轮反馈与实验跟进。

← 方法与构成下一页：实测样例 →