Update wiki page 'Step 01'
24
Step-01.md
24
Step-01.md
@@ -1,20 +1,22 @@
|
|||||||
# Step 01. 파일 수집 (Source Discovery)
|
# Step 01. 파일 수집 (Source Discovery)
|
||||||
|
|
||||||
## 1. 목적 (Objective)
|
## 1. 목적 (Objective)
|
||||||
사용자 환경 내 4만여 개 파일 중 프롬프트와 지식의 원천이 될 수 있는 모든 소스 파일을 누락 없이 식별하고 목록화함.
|
지정된 3대 검토 대상 경로에서 프롬프트와 지식의 원천이 될 수 있는 모든 소스 파일을 누락 없이 목록화함.
|
||||||
|
|
||||||
## 2. 목표 (Goal)
|
## 2. 검토 대상 경로 (Source Paths - FIXED)
|
||||||
- filelist.csv 확보 및 유효 확장자 전수 식별.
|
오직 아래 경로만을 대상으로 함:
|
||||||
- 시스템/라이브러리 폴더 100% 필터링.
|
- D:\crawling
|
||||||
|
- D:\for python
|
||||||
|
- D:\MYCLAUDE_PROJECT
|
||||||
|
|
||||||
## 3. 수행방법 (Methodology)
|
## 3. 수행방법 (Methodology)
|
||||||
1. run_shell_command를 통해 작업 디렉토리를 재귀적으로 탐색.
|
1. run_shell_command를 통해 지정된 3개 경로를 재귀 탐색.
|
||||||
2. 제외 폴더: .git, node_modules, venv, AppData, .cache 등.
|
2. 유효 확장자(.py, .txt, .md, .js, .json, .docx, .xlsx, .pdf, .hwp) 전수 식별.
|
||||||
3. 대상 확장자: .py, .txt, .md, .hwp, .pdf, .js, .json, .docx, .xlsx 등.
|
3. 수집된 메타데이터를 filelist.csv에 저장.
|
||||||
|
|
||||||
## 4. [보완: 정확도 9 원칙]
|
## 4. 결과 및 분기 (Success/Failure)
|
||||||
- **포용적 수집**: 가능성이 있는 문서는 일단 수집하되, 경로 메타데이터를 정밀 기록하여 사후 필터링의 근거로 삼음.
|
- **성공 시**: filelist.csv 생성 확인 후 이슈 #46에 확장자 통계 보고 및 'Step 02 이동' 선언.
|
||||||
- **원본 경로 보존**: 파일의 물리적 위치가 변하기 전의 원본 절대 경로를 반드시 csv에 포함함.
|
- **실패 시**: 경로 접근 불가 등 오류 발생 시 이슈 #46 기록 후 즉시 중단.
|
||||||
|
|
||||||
## 5. 통과 기준 (Success Criteria)
|
## 5. 통과 기준 (Success Criteria)
|
||||||
- filelist.csv 생성 및 확장자별 통계 보고 완료.
|
- filelist.csv 생성 및 이슈 #46 보고 완료.
|
||||||
Reference in New Issue
Block a user