diff --git a/Step-03.md b/Step-03.md index b50ebcb..ed4054a 100644 --- a/Step-03.md +++ b/Step-03.md @@ -1,13 +1,13 @@ # Step 03. 텍스트 포착 (Text Capture) ## 1. 목적 (Objective) -다양한 형식(PY, MD, HWP, PDF)의 소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함. +소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함. ## 2. 수행방법 (Methodology) -- 일반 텍스트(PY, MD 등)는 직접 읽기 수행. -- 비정형 문서(HWP, PDF)는 pyhwpx, pdfplumber 등을 활용하여 전수 추출. +- 일반 텍스트: 직접 읽기 수행. +- 비정형 문서(HWP, PDF): pyhwpx, pdfplumber 활용 전수 추출. ## 3. 주의사항 (Precautions) -- 대규모 문서 추출 시 백그라운드 프로세스를 가동하여 에이전트 성능 저하 방지. -- 인코딩 깨짐 현상을 방지하기 위해 UTF-8 강제 적용. -## 4. 방식 (Strategy) -- '전수 조사(Option 2)': 일부 샘플링이 아닌 모든 문서의 내용을 확인하여 누락 없는 지식 베이스 구축. +- **오류 대응**: 대량(1.3만 개) 처리 시 100개 단위 세션 분할로 프로세스 좀비화 방지. +- **실패 관리**: 추출 실패 파일은 scan_failed.csv에 기록하여 사후 수동 검토 대상으로 분류. +## 4. 처리원칙 (Principles) +- 인코딩 무결성(UTF-8 BOM 제거)을 최우선으로 함. ## 5. 통과 기준 (Success Criteria) -- scan_full.json(일반) 및 scan_full_docs.json(문서) 생성이 완료됨. \ No newline at end of file +- scan_full.json 생성 및 실패율 5% 미만 달성. \ No newline at end of file