OpenAI apresenta o benchmark PaperBench para avaliar a… — Guidances