FAQ

常见问题

点击展开。如与官方信息有出入，以 Anthropic 官方说明为准。

它和普通 LLM 基准有什么不同？

普通基准多是「知识问答 / 推理选择题」。BioMysteryBench 给的是真实、未经处理的原始数据，要求模型在一个能装工具、联网查库的环境里自己完成完整分析，最终给出客观可判对错的生物学结论。它刻意保留了真实科研「方法不唯一、数据嘈杂、有些问题人类也没解」的特性。

Claude 在上面表现如何？

据官方：Sonnet 4.6 起整体已与领域专家持平。Opus 4.6 在「人类可解」子集约 77.4%、在「专家解不出」子集 23.5%；Claude Mythos Preview 在难题子集做到 30%。可解题目复现性高（解出的题里约 86% 能 5 次中对 4 次以上），难题则多为偶然命中。

它包含空间转录组（spatial transcriptomics）吗？

官方列出的模态里没有空间转录组。主力是 DNA/RNA 测序（含单细胞 scRNA-seq）、甲基化、ChIP-seq、宏基因组、Hi-C，以及蛋白组、代谢组、蛋白结构等。所以：评估 AI 在空间组场景的能力时，它参考价值有限；反过来，这也是做空间组的团队可以向社区 / Anthropic 贡献题目的切口。

我能用它来训练 / 微调我的模型吗？

不能。访问条款明确禁止用这些基准材料（题目、答案 rubric、任务表述）去训练、微调、强化或蒸馏任何模型。允许的是：推理时构造评测提示、以及发布带 Anthropic 署名的评测结果。把它用于 pipeline 验收 / 教学 / 自我对标属于「评测」，是允许的。

全集多大？预览集和全集有什么差别？

预览集 -preview：5 道样本题 + 1 个示例 data 包，公开、无需 token。全集 -full：99 道题 + 每题 data 包，约 159 GB，gated: auto——登录后在数据集页点 "Agree and request access" 即自动批准，再用 read token 下载。下载命令见获取与合规。

「专家未解出」的题能拿来当我 pipeline 的对错基线吗？

不建议。那 23 道连领域专家组都没解出，即使有客观答案，也不该用来判定你 pipeline 的对错——你跑出别的结果不代表 pipeline 有问题。做回归基线请用 human_solvable = yes 的子集；难题留作探索 AI / 自身上限之用。

它能替代 nf-core test-data、GIAB 这类数值回归测试吗？

不能，二者互补。BioMysteryBench 验的是「端到端能否得出正确结论」（黑盒、判别型），不提供金标准的 BAM/VCF/矩阵供你逐值比对。要验数值精度（比对率、变异位点、定量值），仍需 GIAB、SEQC、nf-core test-data、模拟数据等。理想做法是两者一起用。

我能用它的结果发论文 / 写报告吗？

可以——条款允许发布评测结果，但需署名 Anthropic。引用基准本身时建议同时标注 Anthropic 官方研究说明与 Hugging Face 数据集。

回到「它的 5 类用途」返回首页