常见问题

FAQ

点击展开。如与官方信息有出入,以 Anthropic 官方说明 为准。

它和普通 LLM 基准有什么不同?
普通基准多是「知识问答 / 推理选择题」。BioMysteryBench 给的是真实、未经处理的原始数据,要求模型在一个能装工具、联网查库的环境里自己完成完整分析,最终给出客观可判对错的生物学结论。它刻意保留了真实科研「方法不唯一、数据嘈杂、有些问题人类也没解」的特性。
Claude 在上面表现如何?
据官方:Sonnet 4.6 起整体已与领域专家持平。Opus 4.6 在「人类可解」子集约 77.4%、在「专家解不出」子集 23.5%;Claude Mythos Preview 在难题子集做到 30%。可解题目复现性高(解出的题里约 86% 能 5 次中对 4 次以上),难题则多为偶然命中。
它包含空间转录组(spatial transcriptomics)吗?
官方列出的模态里没有空间转录组。主力是 DNA/RNA 测序(含单细胞 scRNA-seq)、甲基化、ChIP-seq、宏基因组、Hi-C,以及蛋白组、代谢组、蛋白结构等。所以:评估 AI 在空间组场景的能力时,它参考价值有限;反过来,这也是做空间组的团队可以向社区 / Anthropic 贡献题目的切口。
我能用它来训练 / 微调我的模型吗?
不能。访问条款明确禁止用这些基准材料(题目、答案 rubric、任务表述)去训练、微调、强化或蒸馏任何模型。允许的是:推理时构造评测提示、以及发布带 Anthropic 署名的评测结果。把它用于 pipeline 验收 / 教学 / 自我对标属于「评测」,是允许的。
全集多大?预览集和全集有什么差别?
预览集 -preview:5 道样本题 + 1 个示例 data 包,公开、无需 token。全集 -full:99 道题 + 每题 data 包,约 159 GBgated: auto——登录后在数据集页点 "Agree and request access" 即自动批准,再用 read token 下载。下载命令见 获取与合规
「专家未解出」的题能拿来当我 pipeline 的对错基线吗?
不建议。那 23 道连领域专家组都没解出,即使有客观答案,也不该用来判定你 pipeline 的对错——你跑出别的结果不代表 pipeline 有问题。做回归基线请用 human_solvable = yes 的子集;难题留作探索 AI / 自身上限之用。
它能替代 nf-core test-data、GIAB 这类数值回归测试吗?
不能,二者互补。BioMysteryBench 验的是「端到端能否得出正确结论」(黑盒、判别型),不提供金标准的 BAM/VCF/矩阵供你逐值比对。要验数值精度(比对率、变异位点、定量值),仍需 GIAB、SEQC、nf-core test-data、模拟数据等。理想做法是两者一起用。
我能用它的结果发论文 / 写报告吗?
可以——条款允许发布评测结果,但需署名 Anthropic。引用基准本身时建议同时标注 Anthropic 官方研究说明与 Hugging Face 数据集。

回到「它的 5 类用途」   返回首页