怎么获取与合规边界
两个版本、五个字段、几行命令;以及一条必须守住的红线。
两个版本
🔓
预览集 · 公开
Anthropic/BioMysteryBench-preview:5 道样本题 + 1 个示例 data 包,完全公开、无需 token,适合先摸清结构、跑通你的验收脚本。本站的 5 道样例就来自它。
🔐
全集 · 受控(gated)
Anthropic/BioMysteryBench-full:99 道题 + 每题 data 包,约 159 GB。gated: auto——登录后在数据集页点 "Agree and request access" 勾选条款即自动批准,再用 read token 下载。
每行一道题,5 个字段
| 字段 | 含义 |
|---|---|
id | 题目标识(如 hb002) |
question | 展示给模型的任务提示 |
answer_rubric | 评分标准,含期望答案("The answer is X",all-or-nothing) |
allowed_domains | 解题环境可联网到的域名(如 conda、ncbi、ensembl) |
human_solvable | yes=至少一名人类基准测试者解出;no=无人解出 |
另有 problems.csv / problems.parquet 两种格式,内容一致;各题数据在 data/<id>.zip,解题前解压到工作目录。
下载命令
纯 curl 即可,不必装额外包。
# 预览集(公开,无需 token)
curl -L https://huggingface.co/datasets/Anthropic/BioMysteryBench-preview/resolve/main/problems.csv -o problems.csv
# 全集(先在数据集页 Agree and request access,再用 read token)
curl -L -H "Authorization: Bearer $HF_TOKEN" \
https://huggingface.co/datasets/Anthropic/BioMysteryBench-full/resolve/main/problems.csv -o problems_full.csv
# 取某题的数据包
curl -L -H "Authorization: Bearer $HF_TOKEN" \
https://huggingface.co/datasets/Anthropic/BioMysteryBench-full/resolve/main/data/hb002.zip -o hb002.zip
建议用最小权限的 read token,用完可在 HF 设置里撤销。
合规边界
仅评测,不可训练
题目、答案 rubric 与任务表述依 CC BY 4.0 授权。访问条款要求:不得用这些基准材料去训练、微调、强化(RL)或蒸馏任何机器学习模型。允许:在推理时构造评测提示、发布带 Anthropic 署名的基准结果。
另外,data/ 归档是公开数据库投稿的匿名衍生,仍受各自原始仓库的数据使用政策约束。把它用于本站讲的 pipeline 验收、教学、自我对标,都属于「评测」范畴,是允许的。