Update wiki page 'Step 01'

2026-03-09 13:43:11 +09:00
parent edad11cecf
commit 7a1d188958

@@ -1,18 +1,20 @@
# Step 01. 파일 수집 (Source Discovery)
## 1. 목적 (Objective)
사용자 환경 내 4만여 개 파일 중 프롬프트와 지식의 원천이 될 수 있는 소스를 누락 없이 목록화함.
사용자 환경 내 4만여 개 파일 중 프롬프트와 지식의 원천이 될 수 있는 모든 소스 파일을 누락 없이 식별하고 목록화함.
## 2. 목표 (Goal)
- ilelist.csv 확보 및 유효 확장자(PY, TXT, MD, HWP, PDF 등) 전수 식별.
- filelist.csv 확보 및 유효 확장자 전수 식별.
- 시스템/라이브러리 폴더 100% 필터링.
## 3. 수행방법 (Methodology)
-
un_shell_command를 통한 전역 탐색 및 시스템 폴더(AppData 등) 필터링.
## 4. 컨텍스트 (Context)
- 40,810개의 원천 데이터 바다에서 '원석'을 찾기 위한 첫 단계.
## 5. 주의사항 (Precautions)
- 경로 분석을 통해 라이브러리 및 설정 파일을 1차적으로 배제함.
## 6. 방식 (Strategy)
- '포용적 수집 후 엄격한 숙청'.
## 7. 처리원칙 (Principles)
- 데이터의 원본 경로와 메타데이터를 정밀 기록함.
## 8. 통과 기준 (Success Criteria)
- ilelist.csv 생성 및 통계 보고 완료.
1. run_shell_command를 통해 작업 디렉토리를 재귀적으로 탐색.
2. 제외 폴더: .git, node_modules, venv, AppData, .cache 등.
3. 대상 확장자: .py, .txt, .md, .hwp, .pdf, .js, .json, .docx, .xlsx 등.
## 4. [보완: 정확도 9 원칙]
- **포용적 수집**: 가능성이 있는 문서는 일단 수집하되, 경로 메타데이터를 정밀 기록하여 사후 필터링의 근거로 삼음.
- **원본 경로 보존**: 파일의 물리적 위치가 변하기 전의 원본 절대 경로를 반드시 csv에 포함함.
## 5. 통과 기준 (Success Criteria)
- filelist.csv 생성 및 확장자별 통계 보고 완료.