一句话,LifeSciBench 到底是什么?
OpenAI 于 2026 年 6 月 17 日发布的生命科学科研基准。它把"考生物知识"换成"考能不能当科研合作者":给模型一段真实研究请求 + 上下文 + 附件,看它能不能给出专家愿意采纳的判断(结论 + 理由 + 注意事项 + 限制)。共 750 道专家题,7 工作流 × 7 领域,用 19,020 条 rubric 评分。
我能下载这套基准、自己跑分吗?
官方发布页提供了"Read the paper"以及"Join as a contributor / Request access(成为贡献者 / 申请访问)"的入口,但并未对外公布一个像普通数据集那样可直接下载的公开版本。这点和 Anthropic 的 BioMysteryBench 不同(后者在 Hugging Face 放了公开预览集 + gated 全集)。如果你想参与或获取,走官方的 contributor / access 申请通道。
到底是 7 个工作流还是 6 个?
以 7 个为准。LifeSciBench 发布页明确列了七类:证据处理、分析、设计与优化、科学推理、验证与运营、转化、科学沟通。GPT-Rosalind 发布页在概述时把"转化"和"科学沟通"合并表述成"六个工作流领域"——指的是同一套任务,只是合并了最后两类。方法页有完整定义。
这些分数可信吗?会不会是 OpenAI 自卖自夸?
两面都要看。可信的一面:基准由 173 位博士级科学家出题,并经 453 位未参与出题的独立专家验收,每个验收维度的总体一致率都 >96%,出题还要 ≥90% 领域共识 + 至少两轮专家评审——方法学相当扎实。需保留的一面:这毕竟是 OpenAI 自家的基准,报告的也主要是自家模型(GPT-Rosalind / GPT-5.5),没有公开的第三方横评。所以把它当"能力结构的可信信号",但别当"跨厂商排名"。
为什么数值、序列类任务分数低得吓人(14.8% / 24%)?
两个原因叠加:①这类"精确输出"任务评分面更严,计算或格式上的小差异就跌破通过阈值;②它们本身就难——要从复杂图表/大序列文件里精确抽取再整合。官方强调这些失败"科学上要命",因为很多生科工作(CRISPR/HDR 供体、siRNA 设计)要求输出精确到能直接用。详见成绩页。
GPT-Rosalind 我现在能用吗?
普通用户用不了模型本体。GPT-Rosalind 目前是 research preview,仅通过"受信任访问部署结构"对合格机构开放(要求正当科研 + 公共利益 + 强治理/安全 + 企业级安全)。不过——它的两个插件(Life Sciences Research、NGS Analysis)所有用户都能通过 Codex 使用,只是合格企业用户才能用 GPT-Rosalind 去驱动它们。
GPT-Rosalind 和 GPT-5.5 是什么关系?
GPT-Rosalind 是 OpenAI 专为生命科学打造的模型系列。这次更新把 GPT-5.5 的智能体式编码与工具调用能力,叠加上药物化学、基因组学等核心领域更强的智能。在 LifeSciBench 上整体 exact pass rate 从 GPT-5.5 的 25.7% 提到 36.1%;在 MedChem/Gene/LabWork 三个子基准上也都更高、且更省 token。
它和 Anthropic 的 BioMysteryBench 有什么区别?
简单说:LifeSciBench 考"协作/过程"(给请求+附件,rubric 评理由,看专家会不会采纳);BioMysteryBench 考"自主分析/结果"(给原始测序数据+分析环境,只看最终答案对错)。前者冠军是 GPT-Rosalind,后者是 Claude。它俩恰好覆盖基因组工作链的两半。"对你的意义"页有完整对比表。
"强成绩"是不是意味着 AI 已经能替代科研人员了?
官方自己泼了冷水:LifeSciBench 不能替代在真实研究环境中研究模型;它聚焦自成一体的任务,把许多专科和迭代过程留在范围外。强表现应理解为"任务级能力的证据",不是"下游研发影响"的度量。真正的判断要等"真实工作流部署研究"——看模型是否真的缩短分析时间、提高决策质量、减少专家返工。
这个网站是 OpenAI 官方的吗?
不是。本站是第三方的学习整理,面向研发与生物信息读者做深度解读。所有数字与引文都转述自 OpenAI 官方发布页(LifeSciBench / GPT-Rosalind),如有出入以官方为准。