OpenAI 推出 PaperBench 基準,以評估 AI 研究重現能力 — Guidances