OpenAI、SWE-bench Verified の評価報告を停止へ AIベンチマークの信頼性見直しを促す — Guidances