FAQ · LifeSciBench 深度解读

一句话，LifeSciBench 到底是什么？

OpenAI 于 2026 年 6 月 17 日发布的生命科学科研基准。它把"考生物知识"换成"考能不能当科研合作者"：给模型一段真实研究请求 + 上下文 + 附件，看它能不能给出专家愿意采纳的判断（结论 + 理由 + 注意事项 + 限制）。共 750 道专家题，7 工作流 × 7 领域，用 19,020 条 rubric 评分。

我能下载这套基准、自己跑分吗？

官方发布页提供了"Read the paper"以及"Join as a contributor / Request access（成为贡献者 / 申请访问）"的入口，但并未对外公布一个像普通数据集那样可直接下载的公开版本。这点和 Anthropic 的 BioMysteryBench 不同（后者在 Hugging Face 放了公开预览集 + gated 全集）。如果你想参与或获取，走官方的 contributor / access 申请通道。

到底是 7 个工作流还是 6 个？

以 7 个为准。LifeSciBench 发布页明确列了七类：证据处理、分析、设计与优化、科学推理、验证与运营、转化、科学沟通。GPT-Rosalind 发布页在概述时把"转化"和"科学沟通"合并表述成"六个工作流领域"——指的是同一套任务，只是合并了最后两类。方法页有完整定义。

这些分数可信吗？会不会是 OpenAI 自卖自夸？

两面都要看。可信的一面：基准由 173 位博士级科学家出题，并经 453 位未参与出题的独立专家验收，每个验收维度的总体一致率都 >96%，出题还要 ≥90% 领域共识 + 至少两轮专家评审——方法学相当扎实。需保留的一面：这毕竟是 OpenAI 自家的基准，报告的也主要是自家模型（GPT-Rosalind / GPT-5.5），没有公开的第三方横评。所以把它当"能力结构的可信信号"，但别当"跨厂商排名"。

为什么数值、序列类任务分数低得吓人（14.8% / 24%）？

两个原因叠加：①这类"精确输出"任务评分面更严，计算或格式上的小差异就跌破通过阈值；②它们本身就难——要从复杂图表/大序列文件里精确抽取再整合。官方强调这些失败"科学上要命"，因为很多生科工作（CRISPR/HDR 供体、siRNA 设计）要求输出精确到能直接用。详见成绩页。

GPT-Rosalind 我现在能用吗？

普通用户用不了模型本体。GPT-Rosalind 目前是 research preview，仅通过"受信任访问部署结构"对合格机构开放（要求正当科研 + 公共利益 + 强治理/安全 + 企业级安全）。不过——它的两个插件（Life Sciences Research、NGS Analysis）所有用户都能通过 Codex 使用，只是合格企业用户才能用 GPT-Rosalind 去驱动它们。

GPT-Rosalind 和 GPT-5.5 是什么关系？

GPT-Rosalind 是 OpenAI 专为生命科学打造的模型系列。这次更新把 GPT-5.5 的智能体式编码与工具调用能力，叠加上药物化学、基因组学等核心领域更强的智能。在 LifeSciBench 上整体 exact pass rate 从 GPT-5.5 的 25.7% 提到 36.1%；在 MedChem/Gene/LabWork 三个子基准上也都更高、且更省 token。

它和 Anthropic 的 BioMysteryBench 有什么区别？

简单说：LifeSciBench 考"协作/过程"（给请求+附件，rubric 评理由，看专家会不会采纳）；BioMysteryBench 考"自主分析/结果"（给原始测序数据+分析环境，只看最终答案对错）。前者冠军是 GPT-Rosalind，后者是 Claude。它俩恰好覆盖基因组工作链的两半。"对你的意义"页有完整对比表。

"强成绩"是不是意味着 AI 已经能替代科研人员了？

官方自己泼了冷水：LifeSciBench 不能替代在真实研究环境中研究模型；它聚焦自成一体的任务，把许多专科和迭代过程留在范围外。强表现应理解为"任务级能力的证据"，不是"下游研发影响"的度量。真正的判断要等"真实工作流部署研究"——看模型是否真的缩短分析时间、提高决策质量、减少专家返工。

这个网站是 OpenAI 官方的吗？

不是。本站是第三方的学习整理，面向研发与生物信息读者做深度解读。所有数字与引文都转述自 OpenAI 官方发布页（LifeSciBench / GPT-Rosalind），如有出入以官方为准。

← 对你的意义回到首页 →

关于 LifeSciBench，一次问清