From db65b8a5e4fffe1f6e3743e32877b72a1144bab4 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=EC=9D=B4=EA=B2=BD=EB=AF=BC?= <b24009@hanmaceng.co.kr>
Date: Mon, 9 Mar 2026 14:50:32 +0900
Subject: [PATCH] Update wiki page 'Step 03'

---
 Step-03.md | 21 ++++++++++++---------
 1 file changed, 12 insertions(+), 9 deletions(-)

diff --git a/Step-03.md b/Step-03.md
index 6f3fcf8..ec8ca36 100644
--- a/Step-03.md
+++ b/Step-03.md
@@ -1,16 +1,19 @@
-# Step 03. 텍스트 포착 (Text Capture)
+# Step 03. 내용 추출 대상 파일 선택 (Selection)
 
 ## 1. 목적 (Objective)
-소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함.
+정규화된 15종 파일 중 사용자님의 진짜 지능(Prompt)과 지식(Domain)이 담긴 핵심 파일을 선별하여 분석 효율을 극대화함.
 
 ## 2. 수행방법 (Methodology)
-- 일반 텍스트: 직접 읽기 수행.
-- 비정형 문서(HWP, PDF): PyMuPDF, pyhwpx 활용 전수 추출.
+1. Step 02에서 정규화된 파일 리스트를 전수 검토함.
+2. 파일명과 내용의 첫 100줄을 분석하여 분석 가치가 없는 파일(Exclude 대상)을 1차 필터링함.
+3. **선택 기준:** 
+   - 내용이 50자 미만인 파일 제외.
+   - 단순 시스템 로그, 바이너리 찌꺼기, 일회성 설정 파일 제외.
+   - 의미 있는 문장 구조가 발견되는 파일만 선택.
 
-## 3. [보완: 정확도 9 원칙]
-- **3중 인코딩 대조**: utf-8-sig, cp949, euc-kr을 순차 적용하여 한글 깨짐 0% 보장.
-- **Fail-safe 추출**: 대량 처리 시 100개 단위 직렬 처리 및 실패 리스트(scan_failed.csv) 관리로 무결성 확보.
-- **BOM 제거)을 파일어성 시 시스템의 읔리연 노이즈를 정화함.
+## 3. 결과 및 분기 (Success/Failure)
+- **성공 시**: 선택된 파일 목록을 이슈 #46에 보고하고 'Step 04 이동' 선언.
+- **실패 시**: 유효 파일이 하나도 없을 경우 원본 경로(Step 01) 재점검.
 
 ## 4. 통과 기준 (Success Criteria)
-- scan_full.json 생성 및 한글 깨짐 엄�� 텍스트 확보 확인.
\ No newline at end of file
+- 분석 가치가 증명된 핵심 파일 리스트 확보 및 이슈 #46 보고 완료.
\ No newline at end of file