7
Step 02
이경민 edited this page 2026-03-09 14:50:04 +09:00

Step 02. 확장자별 MD 파일 변환 및 자산 정규화 (Conversion)

1. 목적 (Objective)

3대 고정 경로 내 15종 모든 자산을 분석 가능한 MD 포맷 또는 정규화된 텍스트로 통합함.

2. 수행방법 (Methodology)

  1. Step 01의 filelist.csv를 기반으로 아래 두 그룹 처리.
  2. [그룹 A: 변환] (.pdf, .hwp, .hwpx, .docx, .pptx, .xlsx)
    • PyMuPDF, pyhwpx 등 전용 엔진 가동하여 .md 파일로 변환 저장.
  3. [그룹 B: 정규화] (.py, .js, .ts, .html, .css, .json, .yaml, .txt, .md)
    • 원본 인코딩 무결성 점검 후 UTF-8로 재저장.

3. 결과 및 분기 (Success/Failure)

  • 성공 시: 이슈 #46에 '결과: 통과 / Step 03 이동' 기록.
  • 실패 시: 원인 분석 내용을 이슈 #46에 기록하고 해결 후 재수행.

4. 통과 기준 (Success Criteria)

  • 15종 전수 변환/정규화 완료 및 이슈 #46 보고 완료.