OpenAI 推出 PaperBench 基准,用于评估 AI 研究复现能力 — Guidances