Update wiki page 'Step 03'

2026-03-09 11:20:05 +09:00
parent 31d0ffa453
commit a751bfb92b
1 changed files with 8 additions and 8 deletions
--- a/Step-03.md
+++ b/Step-03.md
@@ -1,13 +1,13 @@
 # Step 03. 텍스트 포착 (Text Capture)
 ## 1. 목적 (Objective)
-다양한 형식(PY, MD, HWP, PDF)의 소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함.
+소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함.
 ## 2. 수행방법 (Methodology)
- 일반 텍스트(PY, MD 등)는 직접 읽기 수행.
- 비정형 문서(HWP, PDF)는 pyhwpx, pdfplumber 등을 활용하여 전수 추출.
+- 일반 텍스트: 직접 읽기 수행.
+- 비정형 문서(HWP, PDF): pyhwpx, pdfplumber 활용 전수 추출.
 ## 3. 주의사항 (Precautions)
- 대규모 문서 추출 시 백그라운드 프로세스를 가동하여 에이전트 성능 저하 방지.
- 인코딩 깨짐 현상을 방지하기 위해 UTF-8 강제 적용.
-## 4. 방식 (Strategy)
- '전수 조사(Option 2)': 일부 샘플링이 아닌 모든 문서의 내용을 확인하여 누락 없는 지식 베이스 구축.
+- **오류 대응**: 대량(1.3만 개) 처리 시 100개 단위 세션 분할로 프로세스 좀비화 방지.
+- **실패 관리**: 추출 실패 파일은 scan_failed.csv에 기록하여 사후 수동 검토 대상으로 분류.
+## 4. 처리원칙 (Principles)
+- 인코딩 무결성(UTF-8 BOM 제거)을 최우선으로 함.
 ## 5. 통과 기준 (Success Criteria)
- scan_full.json(일반) 및 scan_full_docs.json(문서) 생성이 완료됨.
+- scan_full.json 생성 및 실패율 5% 미만 달성.