Anthropic · 2026 · 生物信息学基准

BioMysteryBench 对
生物信息分析技术人员意味着什么

它不是考知识问答,而是把 AI 当成能跑工具、装环境、查数据库的「AI 生信分析师」,丢给它真实、未经处理的原始测序数据,看它能不能自己分析出正确的生物学结论。对每天和 pipeline 打交道的你,它的相关性比一般 LLM 基准高得多。

99
道真实研究问题
76 + 23
专家可解 + 专家解不出
8+
类数据模态
仅看结果
method-agnostic 评分
一句话定性

它是一套「真实数据 + 标准答案」的端到端生信考卷

BioMysteryBench 是 Anthropic 在 2026 年发布的生物信息学基准,由领域专家出题,共 99 道。每道题给的是原始 / 最小处理的真实数据,要求模型自行选择工具与方法分析,最终给出一个客观、可判对错的生物学结论(哪个器官、哪个细胞类型、敲了哪个基因、哪两个样本是父母本……)。评分只看最终答案、不看路径。

为什么对你特别相关

它测的恰恰是你每天做的事——从 raw data 出发、选工具、跑流程、得出结论。所以它能直接回答两个问题:哪些分析活已经可以放心交给 AI? 以及 这套带标准答案的真实数据,能不能用来验收我自己的 pipeline?

与普通 LLM 基准的区别

四个让它「像真实科研」的设计

🧬

真实、脏的原始数据

WGS、scRNA-seq、甲基化、ChIP-seq、宏基因组、Hi-C,外加蛋白组、代谢组,甚至蛋白晶体结构——都是来自真实研究的原始数据,不是清洗过的玩具集。

🛠️

给的是一个分析环境

模型可用 pip/conda 自由装工具、访问 NCBI / Ensembl、下载参考基因组——和你搭分析环境的方式一样。

🎯

只看最终答案

method-agnostic:不管用什么路径,结论对就得分。答案是客观 ground-truth,有的还经 PCR 等正交验证。

🧗

含「超人难题」

23 道连领域专家组都解不出,但有客观答案——用来探 AI 的能力上限,也提醒你:难题不能拿来当 pipeline 的对错基线。

Claude 的成绩(供参考)

常规分析已与专家持平

官方报告:Sonnet 4.6 起,整体表现已与领域专家持平;Opus 4.6 在「人类可解」子集约 77.4%,在「专家解不出」子集 23.5%;Claude Mythos Preview 在难题子集做到 30%

一个关键洞察值得记住:可解题目模型很稳定(解出的题里 86% 能在 5 次中对 4 次以上),而难题里近一半的「答对」其实是偶然碰对的路径、复现性差。这正是判断「该不该把某类活交给 AI」的依据。

从这里继续

这个站讲什么