Delete page "Step-03.-"
37
Step-03.-.md
37
Step-03.-.md
@@ -1,37 +0,0 @@
|
|||||||
# Step 03. 텍스트 캡처 (Authentic Capture)
|
|
||||||
|
|
||||||
## 목적
|
|
||||||
선별된 파일들로부터 인코딩 오류 없이 순수 텍스트를 확보한다.
|
|
||||||
|
|
||||||
## 실행
|
|
||||||
1. Step 02 승인 목록 기준으로만 진행한다
|
|
||||||
2. 인코딩을 교정하며 캡처한다 (CP949 / UTF-8 자동 감지 및 변환)
|
|
||||||
3. 파일 유형별 처리
|
|
||||||
- .hwp / .hwpx → pyhwpx 또는 hwp5txt로 텍스트 변환, 실패 시 [MANUAL: HWP Review Required]
|
|
||||||
- .pdf → PyMuPDF 또는 pdfplumber로 텍스트 추출
|
|
||||||
- .docx / .pptx / .xlsx → python-docx / openpyxl로 텍스트 추출
|
|
||||||
- .py .js .html .css .md .txt .json → 직접 읽기 (인코딩 교정)
|
|
||||||
4. 캡처 결과를 scan_full.json으로 저장한다
|
|
||||||
|
|
||||||
## 통과 기준
|
|
||||||
- 한글 가독성 100% (깨진 문자 0)
|
|
||||||
- 로그·캐시·설정 데이터 0%
|
|
||||||
|
|
||||||
## 다음 단계
|
|
||||||
- 통과 → Step 04로 이동
|
|
||||||
- 실패 → 인코딩 오류 항목 수동 처리 후 재실행
|
|
||||||
|
|
||||||
---
|
|
||||||
|
|
||||||
## 진행현황 이슈 코멘트 템플릿
|
|
||||||
```
|
|
||||||
### [Step 03] 텍스트 캡처 - YYYY-MM-DD
|
|
||||||
|
|
||||||
[완료] 캡처 성공 파일 수:
|
|
||||||
[SKIP: Encoding Error] 목록:
|
|
||||||
[MANUAL: HWP Review Required] 목록:
|
|
||||||
[ERROR: File Corrupted] 목록:
|
|
||||||
[확인] scan_full.json 생성 여부:
|
|
||||||
|
|
||||||
→ 결과: 통과 / 재실행
|
|
||||||
```
|
|
||||||
Reference in New Issue
Block a user