OpenAI, AI 연구 재현 능력 평가 벤치마크 'PaperBench' 공개 — Guidances