# 2026-04-07 이슈 #3·#4·#5 — P1 병렬 Generator/Evaluator 오케스트레이션 - **이슈**: #3 (sut-prober), #4 (normalizer), #5 (diff-reporter) - **소요 시간**: ~45분 (Generator/Evaluator 서브에이전트 병렬 실행 포함) - **Context 사용량**: ~160k tokens (orchestrator 세션) ## 진행 요약 이 세션은 **오케스트레이터** 역할. 실제 구현/평가는 모두 서브에이전트에 위임. ### 사이클 1. 이슈 #3 생성 → Generator(sut-prober) → Evaluator **pass** → close 2. 이슈 #4, #5 생성 → Generator(normalizer) + Generator(diff-reporter) **병렬 백그라운드** 3. 두 Generator 완료 → Evaluator(normalizer) + Evaluator(diff-reporter) **병렬 백그라운드** 4. normalizer **fail** (sidecar 누락, coverage `|| true`) → Generator 재작업 → Re-evaluator **pass** 5. diff-reporter **pass** (DoD #8 partial: triager 통합 테스트 부재, follow-up) 6. PROGRESS/PLAN 갱신, 이슈 #4·#5 코멘트 및 close ## 커밋 - `f043c18` sut-prober PoC (#3) - `7920de1` diff-reporter PoC (#5) - `3c5294a` normalizer PoC v1 (#4) - `05c7a3f` normalizer fix (#4) ## 결과 | 모듈 | 테스트 | 결과 | |------|--------|------| | sut-prober | 없음(CLI 검증) | pass (8/8 DoD) | | diff-reporter | 5/5 | pass (7 pass + 1 partial) | | normalizer | 10/10 | pass v2 (8/8 DoD) | ## Follow-ups (non-blocking) - sut-prober: JSON snake_case naming policy - diff-reporter: 실제 diff-triager 에이전트 통합 테스트 - normalizer: mask_volatile_settings JSON-path 스코핑, float epsilon 구성화 ## Harness design 원칙 검증 이번 라운드가 harness design 원칙의 **첫 실전 테스트**였고 성공적으로 동작: - Generator와 Evaluator가 **같은 세션 아님** → 자기 평가 편향 차단 - Normalizer v1 Generator가 자진 flag한 3개 partial 중 2개를 Evaluator가 실제로 **fail 판정** → Generator 자체 판단만으로는 부족함 실증 - Re-iteration이 깔끔히 동작 → 계약 기반 협업이 안정적 ## 다음 단계 P1 UI 자동화: recorder + player (FlaUI 승인 후)