Anthropic · 2026 · 生物信息学基准

BioMysteryBench 对
生物信息分析技术人员意味着什么

它不是考知识问答，而是把 AI 当成能跑工具、装环境、查数据库的「AI 生信分析师」，丢给它真实、未经处理的原始测序数据，看它能不能自己分析出正确的生物学结论。对每天和 pipeline 打交道的你，它的相关性比一般 LLM 基准高得多。

看它对你的 5 类用途 → 先看 5 道真实样例题

道真实研究问题

76 + 23

专家可解 + 专家解不出

类数据模态

仅看结果

method-agnostic 评分

一句话定性

它是一套「真实数据 + 标准答案」的端到端生信考卷

BioMysteryBench 是 Anthropic 在 2026 年发布的生物信息学基准，由领域专家出题，共 99 道。每道题给的是原始 / 最小处理的真实数据，要求模型自行选择工具与方法分析，最终给出一个客观、可判对错的生物学结论（哪个器官、哪个细胞类型、敲了哪个基因、哪两个样本是父母本……）。评分只看最终答案、不看路径。

为什么对你特别相关

它测的恰恰是你每天做的事——从 raw data 出发、选工具、跑流程、得出结论。所以它能直接回答两个问题：哪些分析活已经可以放心交给 AI？ 以及 这套带标准答案的真实数据，能不能用来验收我自己的 pipeline？

与普通 LLM 基准的区别

四个让它「像真实科研」的设计

🧬

真实、脏的原始数据

WGS、scRNA-seq、甲基化、ChIP-seq、宏基因组、Hi-C，外加蛋白组、代谢组，甚至蛋白晶体结构——都是来自真实研究的原始数据，不是清洗过的玩具集。

🛠️

给的是一个分析环境

模型可用 pip/conda 自由装工具、访问 NCBI / Ensembl、下载参考基因组——和你搭分析环境的方式一样。

🎯

只看最终答案

method-agnostic：不管用什么路径，结论对就得分。答案是客观 ground-truth，有的还经 PCR 等正交验证。

🧗

含「超人难题」

23 道连领域专家组都解不出，但有客观答案——用来探 AI 的能力上限，也提醒你：难题不能拿来当 pipeline 的对错基线。

Claude 的成绩（供参考）

常规分析已与专家持平

官方报告：Sonnet 4.6 起，整体表现已与领域专家持平；Opus 4.6 在「人类可解」子集约 77.4%，在「专家解不出」子集 23.5%；Claude Mythos Preview 在难题子集做到 30%。

一个关键洞察值得记住：可解题目模型很稳定（解出的题里 86% 能在 5 次中对 4 次以上），而难题里近一半的「答对」其实是偶然碰对的路径、复现性差。这正是判断「该不该把某类活交给 AI」的依据。

从这里继续

这个站讲什么

💡

BioMysteryBench 对
生物信息分析技术人员意味着什么

它是一套「真实数据 + 标准答案」的端到端生信考卷

四个让它「像真实科研」的设计

真实、脏的原始数据

给的是一个分析环境

只看最终答案

含「超人难题」

常规分析已与专家持平

这个站讲什么

它的 5 类用途 →

5 道真实样例题 →

模态 ↔ pipeline 验证映射 →

怎么获取与合规 →

BioMysteryBench 对生物信息分析技术人员意味着什么

它是一套「真实数据 + 标准答案」的端到端生信考卷

四个让它「像真实科研」的设计

真实、脏的原始数据

给的是一个分析环境

只看最终答案

含「超人难题」

常规分析已与专家持平

这个站讲什么

它的 5 类用途 →

5 道真实样例题 →

模态 ↔ pipeline 验证映射 →

怎么获取与合规 →

BioMysteryBench 对
生物信息分析技术人员意味着什么