OpenAI stellt PaperBench-Benchmark zur Bewertung der… — Guidances