専門家レベルの学術質問ベンチマーク、AI評価の新たな基準を提示 — Guidances