实测样例 · 证据处理

一道真题长什么样

这是 OpenAI 官方在 LifeSciBench / GPT-Rosalind 发布页放出的"证据处理(Evidence Handling)"评测样例。看完它,你会明白为什么这套基准不是"知识问答"——它要求模型像一位老练的监管科学顾问那样,把一份真实的临床数据包逐项拆穿

背景

场景:一次 FDA Type B 会议前的"自我拷问"

科学提示 / Prompt

我们正在为 AAV9-microDys-X 准备一次 FDA Type B 会议——这是一种基于 AAV9 的微肌营养不良蛋白(micro-dystrophin)基因疗法,用于杜氏肌营养不良(DMD),在 MCK 启动子下表达一个 138 kDa 的构建。我们想要一份毫不留情的批判:当前这套数据包,到底能不能支持"以 micro-dystrophin 表达作为'合理可能预测临床获益'的替代终点"来走加速批准?请逐项压力测试,指出 FDA 或一位挑剔的审评员会在哪里认为证据不足,以及要补什么数据/分析/设计才能补上缺口。

数据包(模型拿到的"证据")

  • 研究设计:开放标签 1b/2 期,12 名 4–7 岁可走动男孩,确诊 DMD,杆状结构域读框外缺失。
  • 治疗前活检(股外侧肌):定量 Western blot(MANEX1A,针对 N 端肌动蛋白结合域)测得 0–3% 健康对照 dystrophin。
  • 12 周治疗后对侧活检:同法测得 micro-dystrophin 均值 38% 健康对照(范围 18–61%),按 Coomassie 总蛋白归一化。
  • 治疗后免疫荧光:用多克隆抗 dystrophin C 端抗体,75–95% 纤维见肌膜信号。
  • 48 周功能:NSAA 较基线均值 +1.4,对比外部已发表自然史登记队列的 −0.6(非配对 t 检验 p=0.03)。
  • 安全:8/12 一过性转氨酶升高,激素递减处理;1 例已恢复的心肌炎;无死亡。
  • 生物分布/持久性:12 周时肌肉中 AAV9 载体基因组均值 2.3 拷贝/核。
  • 入组:无基线抗 AAV9 中和抗体(滴度 <1:400)、无 exon-44 缺失。
候选回答(官方示例)

底线结论:不够

"如所呈现,这套数据包不足以支持以 micro-dystrophin 表达作为'合理可能预测临床获益'的替代终点来加速批准。一位挑剔的 FDA 审评员会认为其生物标志、功能、持久性、安全与普适性证据都明显支撑不足。"

下面是它逐项的"压力测试"——每一项都点出关键失效点,并给出补救方案。

数据包项目关键失效点还需要什么
Western blot 定量MANEX1A 的 N 端表位为内源全长 dystrophin 与转基因共有,无法干净区分转基因/残余/revertant;用健康全长 dystrophin 作标准来定量 138 kDa 也不成立。改用重组 micro-dystrophin 标准 + 能区分转基因与内源的正交方法(靶向质谱或转基因/表位特异 assay)。
免疫荧光C 端多抗不适合(138 kDa 缺 C 端结构域);许多 DMD 患者有 revertant 纤维、可保留 C 端表位,且随年龄克隆扩增,使 IF 信号偏倚。换"转基因有、revertant 没有"的表位抗体;转基因阳性纤维与 revertant 纤维分开计数
替代终点效力把蛋白"量"等同临床"功能"。38% 蛋白质量 ≠ 38% 正常功能,因 micro-dystrophin 结构截短。经验性验证蛋白质量%、肌膜定位、下游功能恢复与临床获益之间的关系,再把表达当替代终点。
活检设计治疗前后取对侧股外侧肌,引入左右与肌内空间变异;疾病进展与纤维脂肪替代也改变总蛋白归一化信号。用一致解剖标志标准化活检位点,用肌肉特异蛋白归一化,并行测纤维脂肪组成。
NSAA 对照/统计外部自然史队列不是随机同期对照;入组、支持治疗、参与效应、基线、激素、年龄、外显子类别均可能偏倚;非配对 t 检验不足;+1.4 在该年龄段重测变异内。随机同期安慰剂对照,或至少用校正基线/年龄/激素/外显子类别等混杂的调整分析。
年龄窗混淆4–7 岁处于发育窗,未治疗的可走动 DMD 也可能在衰退主导前获得运动功能;48 周 NSAA 变化混了发育增益、疾病进展与可能的疗效。带年龄分层的随机同期对照,把发育轨迹与治疗效应分开。
既往临床先例开放标签 micro-dystrophin 功能信号此前未能可靠预测确证性获益;已有确证试验未能重现开放标签的 NSAA 改善。不要把开放标签 NSAA 变化当决定性支持,要求对照功能证据
构建的结构性限制138 kDa 删除了含 nNOS 结合位点的 spectrin repeats R16/17;nNOS 招募丧失可能损害运动时功能性交感抑制与缺血保护,形成独立于表达水平的机制天花板加机制研究:该构建是否恢复相关 DAPC 功能、nNOS 定位、运动生理与肌肉保护。
AAV 持久性12 周的载体基因组不能证明持久表达;AAV9 基因组多为不整合游离体、会随时间下降;载体基因组持久 ≠ 蛋白持久表达。纵向测 12 周后的转基因蛋白表达与功能生物标志持久性。
免疫/安全8/12 转氨酶升高与对 AAV 转导细胞的免疫反应一致但机制未明;考虑 AAV9 心脏嗜性,1 例心肌炎令人担忧。更深的免疫监测、肝/心安全表征、强化心脏随访。
患者选择/普适性排除抗 AAV9 中和抗体阳性者限制普适性;排除 exon-44 缺失限制对该亚组适用;n=12 太小,无法刻画更广 DMD 人群的安全与疗效。尽量放宽入组,或预设按抗体状态/基因型/年龄/基线功能分层的分析。
监管结论

这套数据包可能显示生物活性,但尚未证明所测 micro-dystrophin 表达是"合理可能预测临床获益"的可靠替代终点。主要缺口:assay 特异性、无效的定量标准、可能的 revertant 纤维混淆、缺随机对照、年龄相关 NSAA 混淆、持久性不确定、以及未决的安全/普适性问题。

这道题怎么打分

Rubric 配分(共 100 分)

注意每条的分值——它直接编码了"专家最看重什么"。assay 定量问题(+24)和"表达≠功能"(+22)权重最高,正是这道题的科学核心。

识别 micro-dystrophin 定量中的 assay/测量问题(MANEX1A 表位共享、无效的全长标准、需重组或正交的转基因特异测量)
+24
解释为何 micro-dystrophin 表达水平不自动等于功能性临床获益的有效替代
+22
指出活检位点、组织组成与年龄窗混淆,如何削弱对表达与 NSAA 的解读
+19
处理 AAV 持久性、免疫反应、转氨酶升高、心肌炎,及更长期表达/安全随访的需求
+15
批评 NSAA 对照/统计,尤其是对外部自然史对照的依赖
+12
指出患者选择/普适性缺口(抗 AAV9 排除、exon-44 排除、小样本)
+8
这道题教会我们什么

为什么它能区分"好答案"与"更好的答案"

这道题不止一个正确核心解读(数据包不足),但它能按"模型对不确定性界定得多仔细"把答案分出高下——这正是一位评审者对好题的评语。要拿高分,模型不能只说"证据不够",而要:

  • 抓住测量层面的硬伤(抗体表位、定量标准),这是最值钱的 +24;
  • 讲清生物学机制(截短构建缺 nNOS 位点 → 功能天花板);
  • 识别统计与设计的混杂(外部对照、年龄窗);
  • 并主动提出可执行的补救方案,而非泛泛批评。

这恰好印证了成绩页的结论:模型当前在这种"证据边界清晰、要求结构化科学判断 + 表达沟通"的任务上相对强;而一旦换成要它精确算出某个数值、设计出某条序列,难度就陡增。