diff --git a/Step-02.md b/Step-02.md index 7424bca..fc8bc63 100644 --- a/Step-02.md +++ b/Step-02.md @@ -1,22 +1,18 @@ -# Step 02. 구조 파악 (Structural Analysis) +# Step 02. 확장자별 MD 파일 변환 및 자산 정규화 (Conversion) ## 1. 목적 (Objective) -수집된 파일들의 폴더 구조와 내용을 분석하여, 데이터가 집중된 핵심 도메인과 로직의 분포를 파악함. +3대 고정 경로 내 15종 모든 자산을 분석 가능한 MD 포맷 또는 정규화된 텍스트로 통합함. -## 2. 검토 대상 경로 (Target Paths - FIXED) -사용자 지침에 따라 아래 경로만을 절대적 분석 타겟으로 고정함: -- D:\crawling -- D:\for python -- D:\MYCLAUDE_PROJECT +## 2. 수행방법 (Methodology) +1. Step 01의 filelist.csv를 기반으로 아래 두 그룹 처리. +2. [그룹 A: 변환] (.pdf, .hwp, .hwpx, .docx, .pptx, .xlsx) + - PyMuPDF, pyhwpx 등 전용 엔진 가동하여 .md 파일로 변환 저장. +3. [그룹 B: 정규화] (.py, .js, .ts, .html, .css, .json, .yaml, .txt, .md) + - 원본 인코딩 무결성 점검 후 UTF-8로 재저장. -## 3. 수행방법 (Methodology) -1. filelist.csv를 바탕으로 위 3대 고정 경로 내의 파일 점유율 및 확장자 통계 추출. -2. 각 경로 내 프로젝트의 성격(Crawling, Python Logic, Claude Project 등)을 분석. -3. Gitea 이슈 #46에 분석된 경로별 데이터 현황 보고. +## 3. 결과 및 분기 (Success/Failure) +- 성공 시: 이슈 #46에 '결과: 통과 / Step 03 이동' 기록. +- 실패 시: 원인 분석 내용을 이슈 #46에 기록하고 해결 후 재수행. -## 4. 결과 및 a기 (Success/Failure) -- **성공 시**: 고정 경로 분석 완료 확인 후 이슈 #46에 'Step 03 이동' 선언. -- **실패 시**: 고정 경로 내 유효 데이터 부재 시 이슈 #46 기록 후 중단. - -## 5. 통과 기준 (Success Criteria) -- 고정 경로 3곳에 대한 정밀 현황 파악 완료 및 이슈 #46 기록 완료. \ No newline at end of file +## 4. 통과 기준 (Success Criteria) +- 15종 전수 변환/정규화 완료 및 이슈 #46 보고 완료. \ No newline at end of file