OpenAI presenta PaperBench, un benchmark para evaluar la… — Guidances