Update wiki page 'Step 03'
16
Step-03.md
16
Step-03.md
@@ -1,13 +1,13 @@
|
||||
# Step 03. 텍스트 포착 (Text Capture)
|
||||
## 1. 목적 (Objective)
|
||||
다양한 형식(PY, MD, HWP, PDF)의 소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함.
|
||||
소스 파일로부터 순수 텍스트를 추출하여 데이터베이스(scan_full.json)를 구축함.
|
||||
## 2. 수행방법 (Methodology)
|
||||
- 일반 텍스트(PY, MD 등)는 직접 읽기 수행.
|
||||
- 비정형 문서(HWP, PDF)는 pyhwpx, pdfplumber 등을 활용하여 전수 추출.
|
||||
- 일반 텍스트: 직접 읽기 수행.
|
||||
- 비정형 문서(HWP, PDF): pyhwpx, pdfplumber 활용 전수 추출.
|
||||
## 3. 주의사항 (Precautions)
|
||||
- 대규모 문서 추출 시 백그라운드 프로세스를 가동하여 에이전트 성능 저하 방지.
|
||||
- 인코딩 깨짐 현상을 방지하기 위해 UTF-8 강제 적용.
|
||||
## 4. 방식 (Strategy)
|
||||
- '전수 조사(Option 2)': 일부 샘플링이 아닌 모든 문서의 내용을 확인하여 누락 없는 지식 베이스 구축.
|
||||
- **오류 대응**: 대량(1.3만 개) 처리 시 100개 단위 세션 분할로 프로세스 좀비화 방지.
|
||||
- **실패 관리**: 추출 실패 파일은 scan_failed.csv에 기록하여 사후 수동 검토 대상으로 분류.
|
||||
## 4. 처리원칙 (Principles)
|
||||
- 인코딩 무결성(UTF-8 BOM 제거)을 최우선으로 함.
|
||||
## 5. 통과 기준 (Success Criteria)
|
||||
- scan_full.json(일반) 및 scan_full_docs.json(문서) 생성이 완료됨.
|
||||
- scan_full.json 생성 및 실패율 5% 미만 달성.
|
||||
Reference in New Issue
Block a user