对生信技术人员的 5 类用途 · BioMysteryBench 指南

为什么值得你花时间

对生物信息分析技术人员的 5 类用途

不是「又一个 AI 跑分」，而是能直接改变你日常工作的工具。从最实用的排到最长远的。

这是最直接的价值。基准的成绩分布给了清晰结论：

常规、有标准流程、靠知识检索能解的任务（器官 / 细胞类型判定、物种鉴定、找敲除基因、亲缘判断……）——AI 已经稳定可托付：在「人类可解」子集，模型解出的题里约 86% 能在 5 次尝试中对 4 次以上，复现性高。
前沿、未解、需要新方法的难题——AI 是「偶尔灵光」：难题子集里近一半的「答对」是偶然碰对的路径，复现性差，必须人来把关。

把这张地图套到你的工作清单上，就知道哪些环节可以让 AI 起草 / 跑通、哪些必须保留人工评审。

落到实处

「让 Claude 起草一段 scRNA-seq 注释脚本并自己判断器官来源」是基准证明的稳定区；「让 AI 独立攻克一个尚无定论的调控机制」则属于需要严格复核的高风险区。

这套数据的结构天生适合做端到端验收测试：每道题 = 一份真实 raw data + 一个明文标准答案（写在 answer_rubric 里）+ 统一的 all-or-nothing 评分。于是你可以：

详细的「模态 ↔ pipeline」对照、以及它能验 / 不能验什么，见 Pipeline 验证页。

务必注意层面

它验的是「端到端能否得出正确的生物学结论」（黑盒验收），不是逐位点比对中间产物的数值精度。数值回归请配合 nf-core test-data、GIAB、SEQC、模拟数据等。两者互补。

基准给模型的运行环境本身就是一个值得借鉴的工程范式：最小工具集 + 允许 pip/conda 自由装包 + 受控放行 NCBI/Ensembl 等域名 + 可下载参考基因组 + 只依据最终答案评判。每道题还带 allowed_domains 字段，精确约束解题环境能联网到哪里。

如果你想搭一个「AI 辅助 / 半自动生信分析」工作流，这套配置（受控联网、可复现环境、以客观结论为验收标准）可以直接照搬，少踩很多坑。

99 道由专家命题、带标准答案和评分标准的真实分析题，是难得的教学资源：

⚠️ 使用前请看获取与合规：材料为 CC BY 4.0，允许评测 / 教学 / 发表署名结果，但禁止用于训练、微调或蒸馏任何模型。

既然常规分析 AI 已与专家持平，技术人员的增量价值就要往上走：实验 / 分析设计、难题攻坚、新方法、质量与可复现性把控。这是基准给出的明确职业信号。

同时有个值得注意的覆盖空白：官方列出的模态里，主力是 DNA/RNA 测序（含单细胞 scRNA-seq）、表观、宏组学、结构等，并未点名空间转录组（spatial transcriptomics）。

这意味着两件事

① 参考它的成绩评估 AI 时，对空间组场景要打个折——它还覆盖不到；② 如果你手里有空间组 + 单细胞的真实数据和难题，这正是一个可以向社区 / Anthropic 贡献、甚至换来合作的切口（官方公开征集有趣的基准与 AI-for-science 案例）。