Update wiki page 'Step 02'

2026-03-09 14:50:04 +09:00
parent bc51e6268e
commit e519c8e655

@@ -1,22 +1,18 @@
# Step 02. 구조 파악 (Structural Analysis) # Step 02. 확장자별 MD 파일 변환 및 자산 정규화 (Conversion)
## 1. 목적 (Objective) ## 1. 목적 (Objective)
수집된 파일들의 폴더 구조와 내용을 분석하여, 데이터가 집중된 핵심 도메인과 로직의 분포를 파악함. 3대 고정 경로 내 15종 모든 자산을 분석 가능한 MD 포맷 또는 정규화된 텍스트로 통합함.
## 2. 검토 대상 경로 (Target Paths - FIXED) ## 2. 수행방법 (Methodology)
사용자 지침에 따라 아래 경로만을 절대적 분석 타겟으로 고정함: 1. Step 01의 filelist.csv를 기반으로 아래 두 그룹 처리.
- D:\crawling 2. [그룹 A: 변환] (.pdf, .hwp, .hwpx, .docx, .pptx, .xlsx)
- D:\for python - PyMuPDF, pyhwpx 등 전용 엔진 가동하여 .md 파일로 변환 저장.
- D:\MYCLAUDE_PROJECT 3. [그룹 B: 정규화] (.py, .js, .ts, .html, .css, .json, .yaml, .txt, .md)
- 원본 인코딩 무결성 점검 후 UTF-8로 재저장.
## 3. 수행방법 (Methodology) ## 3. 결과 및 분기 (Success/Failure)
1. filelist.csv를 바탕으로 위 3대 고정 경로 내의 파일 점유율 및 확장자 통계 추출. - 성공 시: 이슈 #46에 '결과: 통과 / Step 03 이동' 기록.
2. 각 경로 내 프로젝트의 성격(Crawling, Python Logic, Claude Project 등)을 분석. - 실패 시: 원인 분석 내용을 이슈 #46에 기록하고 해결 후 재수행.
3. Gitea 이슈 #46에 분석된 경로별 데이터 현황 보고.
## 4. <20><>a기 (Success/Failure) ## 4. 과 기 (Success Criteria)
- **성공 시**: 고정 경로 분석 완료 확인 후 이슈 #46 'Step 03 이동' 선언. - 15종 전수 변환/정규화 완료 및 이슈 #46 보고 완료.
- **실패 시**: 고정 경로 내 유효 데이터 부재 시 이슈 #46 기록 후 중단.
## 5. 통과 기준 (Success Criteria)
- 고정 경로 3곳에 대한 정밀 현황 파악 완료 및 이슈 #46 기록 완료.