它是一套「真实数据 + 标准答案」的端到端生信考卷
BioMysteryBench 是 Anthropic 在 2026 年发布的生物信息学基准,由领域专家出题,共 99 道。每道题给的是原始 / 最小处理的真实数据,要求模型自行选择工具与方法分析,最终给出一个客观、可判对错的生物学结论(哪个器官、哪个细胞类型、敲了哪个基因、哪两个样本是父母本……)。评分只看最终答案、不看路径。
它测的恰恰是你每天做的事——从 raw data 出发、选工具、跑流程、得出结论。所以它能直接回答两个问题:哪些分析活已经可以放心交给 AI? 以及 这套带标准答案的真实数据,能不能用来验收我自己的 pipeline?
四个让它「像真实科研」的设计
真实、脏的原始数据
WGS、scRNA-seq、甲基化、ChIP-seq、宏基因组、Hi-C,外加蛋白组、代谢组,甚至蛋白晶体结构——都是来自真实研究的原始数据,不是清洗过的玩具集。
给的是一个分析环境
模型可用 pip/conda 自由装工具、访问 NCBI / Ensembl、下载参考基因组——和你搭分析环境的方式一样。
只看最终答案
method-agnostic:不管用什么路径,结论对就得分。答案是客观 ground-truth,有的还经 PCR 等正交验证。
含「超人难题」
23 道连领域专家组都解不出,但有客观答案——用来探 AI 的能力上限,也提醒你:难题不能拿来当 pipeline 的对错基线。
常规分析已与专家持平
官方报告:Sonnet 4.6 起,整体表现已与领域专家持平;Opus 4.6 在「人类可解」子集约 77.4%,在「专家解不出」子集 23.5%;Claude Mythos Preview 在难题子集做到 30%。
一个关键洞察值得记住:可解题目模型很稳定(解出的题里 86% 能在 5 次中对 4 次以上),而难题里近一半的「答对」其实是偶然碰对的路径、复现性差。这正是判断「该不该把某类活交给 AI」的依据。