7
Codex 사용법 7강. 평가와 품질 관리
Lesson 07

잘 쓴다는 것을
설명으로만 말하지 말고
평가 기준으로 확인해야 합니다.

테스트는 중요하지만, 테스트만으로 충분하다고 보기 어렵습니다. Codex 결과를 안정적으로 운영하려면 무엇을 성공으로 볼지, 어떤 상태를 실패로 볼지를 더 분명하게 정리해야 합니다.

기준 날짜 2026-04-13

이 가이드는 OpenAI Codex 제품, 정책, 표준 변경에 따라 이후 달라질 수 있습니다.

공통 예시 — 로그인 에러 메시지 사라지는 문제 (펼치기)
문제: 로그인 실패 시 에러 메시지가 화면에서 사라집니다.
범위: auth/LoginForm.tsx, auth/useLogin.ts, auth/LoginForm.test.tsx
제약: UI 문구 유지, API 스펙 유지, auth 범위 안에서만 수정, npm test -- auth로 검증합니다.
Practical Scorecard

로그인/auth 사례에서 바로 쓸 수 있는 평가표

문제 해결로그인 실패 시 에러 메시지가 실제로 유지되는지 확인합니다.
테스트 통과npm test -- auth 기준으로 관련 테스트가 통과해야 합니다.
범위 준수auth 범위 바깥 수정이 없는지 확인합니다.
리뷰 유효성리뷰 코멘트가 실제 회귀 위험이나 누락 포인트를 짚는지 봅니다.
Scorecard Chart

요청 방식에 따라 평가 4항목이 이렇게 달라집니다

Context 없는 막연한 요청과 구조화된 요청 + 팀 규칙을 평가 4축으로 비교합니다.

Status Comparison

같은 결과도 상태를 나눠 봐야 합니다

수정 성공
문제가 해결되고 테스트가 통과하며 범위도 지켰습니다.
검증 실패
문제는 해결된 것처럼 보여도 테스트가 없거나 실패하면 다시 봐야 합니다.
범위 초과
문제를 고치면서 auth 바깥까지 건드렸다면 리뷰 위험이 커집니다.
What To Track

팀 단위로 보면 이런 항목이 남습니다

  • 재작업률
  • 빌드 성공률
  • 테스트 통과율
  • 리뷰 유효 코멘트 비율
  • merge 후 결함 유출 여부
Official 2026 Benchmark

2026년 OpenAI 공식 benchmark 예시

아래 수치는 2026년 공식 발표 자료입니다. 팀 KPI로 바로 쓰는 숫자는 아니지만, OpenAI도 agentic coding을 benchmark로 공개 비교한다는 점을 이해하는 데 도움이 됩니다.

해석 포인트 공식 benchmark는 모델 수준의 참고 자료입니다. 실제 팀 운영에서는 위의 실무 평가표처럼 문제 해결, 테스트 통과, 범위 준수, 리뷰 유효성을 별도로 봐야 합니다.
Workshop

실습

실습 1

로그인/auth 문제에 대해 pass/fail 기준과 범위 초과 기준을 각각 적어보세요.

실습 2

재작업률, 테스트 통과율, 리뷰 유효성 중 팀이 먼저 추적할 2개를 골라보세요.

References

2026 공식 자료