Pass rate vs Score
下文除特别说明外,引用的均为 exact pass rate。官方强调:这些都还不算高,应理解为"任务级能力的早期信号",不能直接等同于真实研发影响。
AI 已显早期实力的方向
最强的进步出现在科学沟通与转化判断——也就是"证据边界清晰、要求结构化科学判断"的任务。
科学沟通:56.3%(GPT-5.5)→ 71.1%(GPT-Rosalind)。意味着模型在"组织证据、产出有说服力的、面向专家的解释"上提升很快。但该子集仅 9 题,别过度放大。
转化(药物研发"实验台到临床"):36.8% → 57.7%,模型把临床前证据连到临床意义的能力在快速变好。
rubric 级结果同向:在"需要专家可用/可执行输出"的任务上 29.1% → 44.7%;在"需要处理不确定性与注意事项"的任务上 29.3% → 44.8%。规律:任务有清晰的证据边界、且呼唤结构化科学判断时,模型最有用。
仍然明显吃力的方向
在"附件重、设计重、受操作约束"的科学工作上,表现弱得多;越是要求精确、可直接使用的输出,越掉档。
同样是 GPT-Rosalind,通过率从纯文本任务的 45.1% 掉到带附件/URL 的 28.1%;GPT-5.5 也一样(29.9%→21.9%)。更细的分析确认:前沿模型在"从复杂图表或大序列文件里抽取信息、并整合进最终答案"这一步上挣扎。
为什么"精确输出"这么难、又这么重要:数值/序列/结构/构建类任务的评分面更严,计算或格式上的小差异就可能跌破通过阈值。但这些失败在科学上是要命的——很多生科工作(如 CRISPR/HDR 供体设计、siRNA 设计)要求的输出必须精确到能直接拿去用。
逐项对照(exact pass rate)
| 维度 / 任务类型 | GPT-5.5 | GPT-Rosalind | 变化 |
|---|---|---|---|
| 整体 overall | 25.7% | 36.1% | +10.4 |
| 科学沟通(n=9) | 56.3% | 71.1% | +14.8 |
| 转化 Translation | 36.8% | 57.7% | +20.9 |
| 需专家可用/可执行输出 | 29.1% | 44.7% | +15.6 |
| 需处理不确定性/注意事项 | 29.3% | 44.8% | +15.5 |
| 纯文本任务 | 29.9% | 45.1% | +15.2 |
| 带附件 / URL 任务 | 21.9% | 28.1% | +6.2 |
| 设计 / 优化 / 预测 | — | 30.7% | — |
| 分析 Analysis | — | 30.3% | — |
| 构建生成 construct | ≈ | 27.3% | 几无提升 |
| 序列 / 结构输出 | — | 24.0% | — |
| 数值任务 numeric | — | 14.8% | — |
"—"表示官方未单列该项的 GPT-5.5 数字;构建生成官方表述为"相对 GPT-5.5 几无改进"。
"做了一半"很常见:部分得分 vs 通过
大约 14% 的任务,模型虽然没跨过 exact-pass 阈值,却拿到了可观的 rubric 部分分。对 GPT-Rosalind 而言,有 109 道任务通过率低于 20%,同时 rubric 奖励却 ≥ 50%。
这意味着:模型常常能识别相关证据、给出看似合理的部分答案,但最终失败——因为漏了一个关键约束、用错了证据、算了一半,或者没把推理连到一个"科学上有用的最终决策"上。对使用者的启示:模型的中间产物(证据梳理、初稿判断)往往可用,但"最后一公里"的精确性与完整性仍需人来把关。
强成绩 ≠ 真实研发影响
- LifeSciBench 不能替代在真实研究环境中研究模型。它聚焦"自成一体、可复现的行业工作流任务",把许多科学专科和任务类型留在了当前范围之外。
- 真实科研是迭代的:收集新证据、修正假设、设计后续实验、随结果调整计划。强表现应解读为"现实任务级能力"的证据,而非下游研发影响的直接度量。
- 下一步:把基准表现连到真实工作流中的部署研究——看模型是否真的缩短某类分析时间、提高决策质量、减少专家返工。这需要更长周期、多轮反馈与实验跟进。