OpenAI 停止 SWE-bench Verified 評估,促使外界重新檢視 AI 基準的可靠性 — Guidances