전문가 수준 학술 질문 벤치마크, AI 역량 평가 새 기준 제시 — Guidances