- sut-prober evaluation (pass) - diff-reporter evaluation (pass with 1 partial follow-up) - normalizer evaluations v1 (fail) + v2 (pass) - PROGRESS.md Done rows for #3, #4, #5 + Follow-ups - PLAN.md P0 reduced to hook verification Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2.1 KiB
2.1 KiB
2026-04-07 이슈 #3·#4·#5 — P1 병렬 Generator/Evaluator 오케스트레이션
- 이슈: #3 (sut-prober), #4 (normalizer), #5 (diff-reporter)
- 소요 시간: ~45분 (Generator/Evaluator 서브에이전트 병렬 실행 포함)
- Context 사용량: ~160k tokens (orchestrator 세션)
진행 요약
이 세션은 오케스트레이터 역할. 실제 구현/평가는 모두 서브에이전트에 위임.
사이클
- 이슈 #3 생성 → Generator(sut-prober) → Evaluator pass → close
- 이슈 #4, #5 생성 → Generator(normalizer) + Generator(diff-reporter) 병렬 백그라운드
- 두 Generator 완료 → Evaluator(normalizer) + Evaluator(diff-reporter) 병렬 백그라운드
- normalizer fail (sidecar 누락, coverage
|| true) → Generator 재작업 → Re-evaluator pass - diff-reporter pass (DoD #8 partial: triager 통합 테스트 부재, follow-up)
- PROGRESS/PLAN 갱신, 이슈 #4·#5 코멘트 및 close
커밋
f043c18sut-prober PoC (#3)7920de1diff-reporter PoC (#5)3c5294anormalizer PoC v1 (#4)05c7a3fnormalizer fix (#4)
결과
| 모듈 | 테스트 | 결과 |
|---|---|---|
| sut-prober | 없음(CLI 검증) | pass (8/8 DoD) |
| diff-reporter | 5/5 | pass (7 pass + 1 partial) |
| normalizer | 10/10 | pass v2 (8/8 DoD) |
Follow-ups (non-blocking)
- sut-prober: JSON snake_case naming policy
- diff-reporter: 실제 diff-triager 에이전트 통합 테스트
- normalizer: mask_volatile_settings JSON-path 스코핑, float epsilon 구성화
Harness design 원칙 검증
이번 라운드가 harness design 원칙의 첫 실전 테스트였고 성공적으로 동작:
- Generator와 Evaluator가 같은 세션 아님 → 자기 평가 편향 차단
- Normalizer v1 Generator가 자진 flag한 3개 partial 중 2개를 Evaluator가 실제로 fail 판정 → Generator 자체 판단만으로는 부족함 실증
- Re-iteration이 깔끔히 동작 → 계약 기반 협업이 안정적
다음 단계
P1 UI 자동화: recorder + player (FlaUI 승인 후)