OpenAI 停止 SWE-bench Verified 评估,促使业界重新审视 AI 基准可靠性 — Guidances