拿到数据 + 守住边界

怎么获取与合规边界

两个版本、五个字段、几行命令;以及一条必须守住的红线。

两个版本

🔓

预览集 · 公开

Anthropic/BioMysteryBench-preview5 道样本题 + 1 个示例 data 包,完全公开、无需 token,适合先摸清结构、跑通你的验收脚本。本站的 5 道样例就来自它。

🔐

全集 · 受控(gated)

Anthropic/BioMysteryBench-full99 道题 + 每题 data 包,约 159 GBgated: auto——登录后在数据集页点 "Agree and request access" 勾选条款即自动批准,再用 read token 下载。

每行一道题,5 个字段

字段含义
id题目标识(如 hb002
question展示给模型的任务提示
answer_rubric评分标准,含期望答案("The answer is X",all-or-nothing)
allowed_domains解题环境可联网到的域名(如 conda、ncbi、ensembl)
human_solvableyes=至少一名人类基准测试者解出;no=无人解出

另有 problems.csv / problems.parquet 两种格式,内容一致;各题数据在 data/<id>.zip,解题前解压到工作目录。

下载命令

curl 即可,不必装额外包。

# 预览集(公开,无需 token)
curl -L https://huggingface.co/datasets/Anthropic/BioMysteryBench-preview/resolve/main/problems.csv -o problems.csv

# 全集(先在数据集页 Agree and request access,再用 read token)
curl -L -H "Authorization: Bearer $HF_TOKEN" \
  https://huggingface.co/datasets/Anthropic/BioMysteryBench-full/resolve/main/problems.csv -o problems_full.csv

# 取某题的数据包
curl -L -H "Authorization: Bearer $HF_TOKEN" \
  https://huggingface.co/datasets/Anthropic/BioMysteryBench-full/resolve/main/data/hb002.zip -o hb002.zip

建议用最小权限的 read token,用完可在 HF 设置里撤销。

红线

合规边界

仅评测,不可训练

题目、答案 rubric 与任务表述依 CC BY 4.0 授权。访问条款要求:不得用这些基准材料去训练、微调、强化(RL)或蒸馏任何机器学习模型。允许:在推理时构造评测提示、发布带 Anthropic 署名的基准结果。

另外,data/ 归档是公开数据库投稿的匿名衍生,仍受各自原始仓库的数据使用政策约束。把它用于本站讲的 pipeline 验收、教学、自我对标,都属于「评测」范畴,是允许的。


还有疑问?看 FAQ →