From ad1d6bb0fc1580b280d4f889fd55283fae293c4d Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=EC=9D=B4=EA=B2=BD=EB=AF=BC?= <b24009@hanmaceng.co.kr>
Date: Mon, 9 Mar 2026 13:43:50 +0900
Subject: [PATCH] Update wiki page 'Step 03'

---
 Step-03.md | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/Step-03.md b/Step-03.md
index ed4054a..6f3fcf8 100644
--- a/Step-03.md
+++ b/Step-03.md
@@ -1,13 +1,16 @@
 # Step 03. 텍스트 포착 (Text Capture)
+
 ## 1. 목적 (Objective)
 소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함.
+
 ## 2. 수행방법 (Methodology)
 - 일반 텍스트: 직접 읽기 수행.
-- 비정형 문서(HWP, PDF): pyhwpx, pdfplumber 활용 전수 추출.
-## 3. 주의사항 (Precautions)
-- **오류 대응**: 대량(1.3만 개) 처리 시 100개 단위 세션 분할로 프로세스 좀비화 방지.
-- **실패 관리**: 추출 실패 파일은 scan_failed.csv에 기록하여 사후 수동 검토 대상으로 분류.
-## 4. 처리원칙 (Principles)
-- 인코딩 무결성(UTF-8 BOM 제거)을 최우선으로 함.
-## 5. 통과 기준 (Success Criteria)
-- scan_full.json 생성 및 실패율 5% 미만 달성.
\ No newline at end of file
+- 비정형 문서(HWP, PDF): PyMuPDF, pyhwpx 활용 전수 추출.
+
+## 3. [보완: 정확도 9 원칙]
+- **3중 인코딩 대조**: utf-8-sig, cp949, euc-kr을 순차 적용하여 한글 깨짐 0% 보장.
+- **Fail-safe 추출**: 대량 처리 시 100개 단위 직렬 처리 및 실패 리스트(scan_failed.csv) 관리로 무결성 확보.
+- **BOM 제거)을 파일어성 시 시스템의 읔리연 노이즈를 정화함.
+
+## 4. 통과 기준 (Success Criteria)
+- scan_full.json 생성 및 한글 깨짐 엄�� 텍스트 확보 확인.
\ No newline at end of file