Files
recordingtest/docs/history/2026-04-07_이슈6-7-P1-UI자동화-orchestration.md
minsung 836afea5ee Orchestrate P1 UI automation evaluations (#6, #7)
- recorder v1 (fail) → v2 (pass): drag state machine, focus events, ts/raw_coord
- player pass with caveats: reliability untestable in sandbox
- PROGRESS.md Done rows + follow-ups for live SUT smoke test
- PLAN.md P1 pivoted to test-runner + live smoke test

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-07 14:37:14 +09:00

1.9 KiB
Raw Permalink Blame History

2026-04-07 이슈 #6·#7 — P1 UI 자동화 (recorder/player) 오케스트레이션

  • 이슈: #6 (recorder), #7 (player)
  • 소요 시간: ~40분 (서브에이전트 병렬 + recorder 1회 재작업)
  • Context 사용량: ~210k tokens (orchestrator 세션)

사이클

  1. 이슈 #6, #7 생성 → Generator × 2 병렬 백그라운드 (FlaUI 4.0.0, YamlDotNet 16.1.3, TFM net8.0-windows)
  2. 두 Generator 완료
  3. Evaluator × 2 병렬 백그라운드
  4. recorder fail (drag 미집성 / focus 미캡처 / ts·raw_coord 미직렬화) → Re-Generator → Re-Evaluator pass
  5. player pass with caveats (reliability untestable)
  6. PROGRESS/PLAN 갱신, 이슈 close, push

커밋

  • d486cbb recorder v1
  • f17e764 player v1
  • 56b7233 recorder v2 (drag state machine + focus events + ts/raw_coord)

결과

모듈 테스트 결과
recorder 9/9 (5→9) pass v2 (2 untestable)
player 6/6 pass with caveats (1 untestable)

Harness design 재검증

  • Recorder v1 Generator가 자진 flag한 "drag 미집성, IME 미구현" 중 drag 문제를 Evaluator가 추가 2건(focus, ts/raw_coord)과 함께 fail 판정 — Generator 자기 flag 외에 놓친 것이 있었음을 실증
  • Re-iteration 1회로 수렴 (역대 2회 연속 성공 패턴)
  • 병렬 서브에이전트로 orchestrator 세션 컨텍스트를 ~210k로 유지

Follow-ups (non-blocking)

전부 "라이브 SUT 실제 실행" 종류:

  • recorder DoD #1 (attach) / #7 (60 FPS)
  • player DoD #2 (wait_for 강화) / #7 (10/10 reliability)
  • player UiaPlayerHost full path resolver
  • recorder IME 지원

다음 단계

test-runner — 시나리오 일괄 실행 + normalizer + diff-reporter 파이프라인. 이로써 PoC 4개가 통합 E2E 경로를 형성.

이후 사용자 환경에서 라이브 smoke test를 수행해 reliability DoD 검증.