Update wiki page 'Step 03'

2026-03-09 13:43:50 +09:00
parent 7a1d188958
commit ad1d6bb0fc

@@ -1,13 +1,16 @@
# Step 03. 텍스트 포착 (Text Capture)
## 1. 목적 (Objective)
소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함.
## 2. 수행방법 (Methodology)
- 일반 텍스트: 직접 읽기 수행.
- 비정형 문서(HWP, PDF): pyhwpx, pdfplumber 활용 전수 추출.
## 3. 주의사항 (Precautions)
- **오류 대응**: 대량(1.3만 개) 처리 시 100개 단위 세션 분할로 프로세스 좀비화 방지.
- **실패 관리**: 추출 실패 파일은 scan_failed.csv에 기록하여 사후 수동 검토 대상으로 분류.
## 4. 처리원칙 (Principles)
- 인코딩 무결성(UTF-8 BOM 제거)을 최우선으로 함.
## 5. 통과 기준 (Success Criteria)
- scan_full.json 생성 및 실패율 5% 미만 달성.
- 비정형 문서(HWP, PDF): PyMuPDF, pyhwpx 활용 전수 추출.
## 3. [보완: 정확도 9 원칙]
- **3중 인코딩 대조**: utf-8-sig, cp949, euc-kr을 순차 적용하여 한글 깨짐 0% 보장.
- **Fail-safe 추출**: 대량 처리 시 100개 단위 직렬 처리 및 실패 리스트(scan_failed.csv) 관리로 무결성 확보.
- **BOM 제거)을 파일어성 시 시스템의 읔리연 노이즈를 정화함.
## 4. 통과 기준 (Success Criteria)
- scan_full.json 생성 및 한글 깨짐 엄<><EC9784><EFBFBD> 텍스트 확보 확인.