# 2026-04-07 이슈 #3·#4·#5 — P1 병렬 Generator/Evaluator 오케스트레이션

- **이슈**: #3 (sut-prober), #4 (normalizer), #5 (diff-reporter)
- **소요 시간**: ~45분 (Generator/Evaluator 서브에이전트 병렬 실행 포함)
- **Context 사용량**: ~160k tokens (orchestrator 세션)

## 진행 요약

이 세션은 **오케스트레이터** 역할. 실제 구현/평가는 모두 서브에이전트에 위임.

### 사이클

1. 이슈 #3 생성 → Generator(sut-prober) → Evaluator **pass** → close
2. 이슈 #4, #5 생성 → Generator(normalizer) + Generator(diff-reporter) **병렬 백그라운드**
3. 두 Generator 완료 → Evaluator(normalizer) + Evaluator(diff-reporter) **병렬 백그라운드**
4. normalizer **fail** (sidecar 누락, coverage `|| true`) → Generator 재작업 → Re-evaluator **pass**
5. diff-reporter **pass** (DoD #8 partial: triager 통합 테스트 부재, follow-up)
6. PROGRESS/PLAN 갱신, 이슈 #4·#5 코멘트 및 close

## 커밋

- `f043c18` sut-prober PoC (#3)
- `7920de1` diff-reporter PoC (#5)
- `3c5294a` normalizer PoC v1 (#4)
- `05c7a3f` normalizer fix (#4)

## 결과

| 모듈 | 테스트 | 결과 |
|------|--------|------|
| sut-prober | 없음(CLI 검증) | pass (8/8 DoD) |
| diff-reporter | 5/5 | pass (7 pass + 1 partial) |
| normalizer | 10/10 | pass v2 (8/8 DoD) |

## Follow-ups (non-blocking)

- sut-prober: JSON snake_case naming policy
- diff-reporter: 실제 diff-triager 에이전트 통합 테스트
- normalizer: mask_volatile_settings JSON-path 스코핑, float epsilon 구성화

## Harness design 원칙 검증

이번 라운드가 harness design 원칙의 **첫 실전 테스트**였고 성공적으로 동작:
- Generator와 Evaluator가 **같은 세션 아님** → 자기 평가 편향 차단
- Normalizer v1 Generator가 자진 flag한 3개 partial 중 2개를 Evaluator가 실제로 **fail 판정** → Generator 자체 판단만으로는 부족함 실증
- Re-iteration이 깔끔히 동작 → 계약 기반 협업이 안정적

## 다음 단계

P1 UI 자동화: recorder + player (FlaUI 승인 후)