From 5a49a30d61762e4b37252507923b0e93bbefdf0a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=EC=9D=B4=EA=B2=BD=EB=AF=BC?= Date: Fri, 6 Mar 2026 14:30:41 +0900 Subject: [PATCH] Delete page "Step-03.-" --- Step-03.-.md | 37 ------------------------------------- 1 file changed, 37 deletions(-) delete mode 100644 Step-03.-.md diff --git a/Step-03.-.md b/Step-03.-.md deleted file mode 100644 index 0263beb..0000000 --- a/Step-03.-.md +++ /dev/null @@ -1,37 +0,0 @@ -# Step 03. 텍스트 캡처 (Authentic Capture) - -## 목적 -선별된 파일들로부터 인코딩 오류 없이 순수 텍스트를 확보한다. - -## 실행 -1. Step 02 승인 목록 기준으로만 진행한다 -2. 인코딩을 교정하며 캡처한다 (CP949 / UTF-8 자동 감지 및 변환) -3. 파일 유형별 처리 - - .hwp / .hwpx → pyhwpx 또는 hwp5txt로 텍스트 변환, 실패 시 [MANUAL: HWP Review Required] - - .pdf → PyMuPDF 또는 pdfplumber로 텍스트 추출 - - .docx / .pptx / .xlsx → python-docx / openpyxl로 텍스트 추출 - - .py .js .html .css .md .txt .json → 직접 읽기 (인코딩 교정) -4. 캡처 결과를 scan_full.json으로 저장한다 - -## 통과 기준 -- 한글 가독성 100% (깨진 문자 0) -- 로그·캐시·설정 데이터 0% - -## 다음 단계 -- 통과 → Step 04로 이동 -- 실패 → 인코딩 오류 항목 수동 처리 후 재실행 - ---- - -## 진행현황 이슈 코멘트 템플릿 -``` -### [Step 03] 텍스트 캡처 - YYYY-MM-DD - -[완료] 캡처 성공 파일 수: -[SKIP: Encoding Error] 목록: -[MANUAL: HWP Review Required] 목록: -[ERROR: File Corrupted] 목록: -[확인] scan_full.json 생성 여부: - -→ 결과: 통과 / 재실행 -```