diff --git a/Step-01.md b/Step-01.md index 6e8a9f9..e27ecf0 100644 --- a/Step-01.md +++ b/Step-01.md @@ -1,20 +1,22 @@ # Step 01. 파일 수집 (Source Discovery) ## 1. 목적 (Objective) -사용자 환경 내 4만여 개 파일 중 프롬프트와 지식의 원천이 될 수 있는 모든 소스 파일을 누락 없이 식별하고 목록화함. +지정된 3대 검토 대상 경로에서 프롬프트와 지식의 원천이 될 수 있는 모든 소스 파일을 누락 없이 목록화함. -## 2. 목표 (Goal) -- filelist.csv 확보 및 유효 확장자 전수 식별. -- 시스템/라이브러리 폴더 100% 필터링. +## 2. 검토 대상 경로 (Source Paths - FIXED) +오직 아래 경로만을 대상으로 함: +- D:\crawling +- D:\for python +- D:\MYCLAUDE_PROJECT ## 3. 수행방법 (Methodology) -1. run_shell_command를 통해 작업 디렉토리를 재귀적으로 탐색. -2. 제외 폴더: .git, node_modules, venv, AppData, .cache 등. -3. 대상 확장자: .py, .txt, .md, .hwp, .pdf, .js, .json, .docx, .xlsx 등. +1. run_shell_command를 통해 지정된 3개 경로를 재귀 탐색. +2. 유효 확장자(.py, .txt, .md, .js, .json, .docx, .xlsx, .pdf, .hwp) 전수 식별. +3. 수집된 메타데이터를 filelist.csv에 저장. -## 4. [보완: 정확도 9 원칙] -- **포용적 수집**: 가능성이 있는 문서는 일단 수집하되, 경로 메타데이터를 정밀 기록하여 사후 필터링의 근거로 삼음. -- **원본 경로 보존**: 파일의 물리적 위치가 변하기 전의 원본 절대 경로를 반드시 csv에 포함함. +## 4. 결과 및 분기 (Success/Failure) +- **성공 시**: filelist.csv 생성 확인 후 이슈 #46에 확장자 통계 보고 및 'Step 02 이동' 선언. +- **실패 시**: 경로 접근 불가 등 오류 발생 시 이슈 #46 기록 후 즉시 중단. ## 5. 통과 기준 (Success Criteria) -- filelist.csv 생성 및 확장자별 통계 보고 완료. \ No newline at end of file +- filelist.csv 생성 및 이슈 #46 보고 완료. \ No newline at end of file