diff --git a/Step-01.md b/Step-01.md index c43d9d1..6e8a9f9 100644 --- a/Step-01.md +++ b/Step-01.md @@ -1,18 +1,20 @@ # Step 01. 파일 수집 (Source Discovery) + ## 1. 목적 (Objective) -사용자 환경 내 4만여 개 파일 중 프롬프트와 지식의 원천이 될 수 있는 소스를 누락 없이 목록화함. +사용자 환경 내 4만여 개 파일 중 프롬프트와 지식의 원천이 될 수 있는 모든 소스 파일을 누락 없이 식별하고 목록화함. + ## 2. 목표 (Goal) -- ilelist.csv 확보 및 유효 확장자(PY, TXT, MD, HWP, PDF 등) 전수 식별. +- filelist.csv 확보 및 유효 확장자 전수 식별. +- 시스템/라이브러리 폴더 100% 필터링. + ## 3. 수행방법 (Methodology) -- -un_shell_command를 통한 전역 탐색 및 시스템 폴더(AppData 등) 필터링. -## 4. 컨텍스트 (Context) -- 40,810개의 원천 데이터 바다에서 '원석'을 찾기 위한 첫 단계. -## 5. 주의사항 (Precautions) -- 경로 분석을 통해 라이브러리 및 설정 파일을 1차적으로 배제함. -## 6. 방식 (Strategy) -- '포용적 수집 후 엄격한 숙청'. -## 7. 처리원칙 (Principles) -- 데이터의 원본 경로와 메타데이터를 정밀 기록함. -## 8. 통과 기준 (Success Criteria) -- ilelist.csv 생성 및 통계 보고 완료. \ No newline at end of file +1. run_shell_command를 통해 작업 디렉토리를 재귀적으로 탐색. +2. 제외 폴더: .git, node_modules, venv, AppData, .cache 등. +3. 대상 확장자: .py, .txt, .md, .hwp, .pdf, .js, .json, .docx, .xlsx 등. + +## 4. [보완: 정확도 9 원칙] +- **포용적 수집**: 가능성이 있는 문서는 일단 수집하되, 경로 메타데이터를 정밀 기록하여 사후 필터링의 근거로 삼음. +- **원본 경로 보존**: 파일의 물리적 위치가 변하기 전의 원본 절대 경로를 반드시 csv에 포함함. + +## 5. 통과 기준 (Success Criteria) +- filelist.csv 생성 및 확장자별 통계 보고 완료. \ No newline at end of file