OpenAI、AI研究再現能力を評価するベンチマーク「PaperBench」を導入 — Guidances