Update wiki page 'Step 01'
33
Step-01.md
33
Step-01.md
@@ -1,31 +1,18 @@
|
||||
# Step 01. 파일 수집 (Source Discovery)
|
||||
|
||||
## 1. 목적 (Objective)
|
||||
사용자 환경 내에 존재하는 방대한 데이터 중 프롬프트(실행문)와 도메인 지식(데이터)의 원천이 될 수 있는 모든 소스 파일을 누락 없이 식별하고 목록화함.
|
||||
|
||||
사용자 환경 내 4만여 개 파일 중 프롬프트와 지식의 원천이 될 수 있는 소스를 누락 없이 목록화함.
|
||||
## 2. 목표 (Goal)
|
||||
- 약 4만여 개의 파일 중 실제 분석 가치가 있는 확장자(.py, .txt, .md, .hwp, .pdf, .js, .json 등)를 전수 탐색.
|
||||
- 시스템 파일 및 불필요한 라이브러리(.git, node_modules, AppData 등)를 100% 필터링하여 순수 분석 대상 리스트(filelist.csv) 확보.
|
||||
|
||||
- ilelist.csv 확보 및 유효 확장자(PY, TXT, MD, HWP, PDF 등) 전수 식별.
|
||||
## 3. 수행방법 (Methodology)
|
||||
1. run_shell_command를 통해 지정된 작업 디렉토리(C:\Users\User)를 재귀적으로 탐색.
|
||||
2. 특정 확장자 필터와 제외 폴더 패턴(Regex)을 적용하여 검색 범위를 최적화.
|
||||
3. 수집된 파일의 메타데이터(경로, 이름, 확장자, 크기)를 추출하여 filelist.csv에 저장.
|
||||
|
||||
-
|
||||
un_shell_command를 통한 전역 탐색 및 시스템 폴더(AppData 등) 필터링.
|
||||
## 4. 컨텍스트 (Context)
|
||||
- 사용자 워크스페이스 전체를 대상으로 하며, 특히 OneDrive, Documents, Desktop 등 실질적인 데이터가 집중된 저장소를 중점 분석함.
|
||||
|
||||
- 40,810개의 원천 데이터 바다에서 '원석'을 찾기 위한 첫 단계.
|
||||
## 5. 주의사항 (Precautions)
|
||||
- 대량의 파일 처리 시 에이전트 컨텍스트 제한이 발생하지 않도록 리스트를 외부 파일로 관리함.
|
||||
- 환경 설정 파일(.env, .json 등)이 지식으로 오인되지 않도록 경로 기반 필터링 엄수.
|
||||
|
||||
- 경로 분석을 통해 라이브러리 및 설정 파일을 1차적으로 배제함.
|
||||
## 6. 방식 (Strategy)
|
||||
- 포용적 수집, 엄격한 필터링: 재귀적으로 가치가 있는 파일은 일단 수집하되, 경로와 이름을 분석하여 1차적인 쓰레기 데이터를 숙청함.
|
||||
|
||||
## 7. 처리원칙 (Processing Principles)
|
||||
- 모든 수집 과정은 filelist.csv를 통해 데이터 무결성이 증명되어야 함.
|
||||
- 파일명이나 경로에 backup, temp, old가 포함된 경우 낮은 우선순위로 분류함.
|
||||
|
||||
- '포용적 수집 후 엄격한 숙청'.
|
||||
## 7. 처리원칙 (Principles)
|
||||
- 데이터의 원본 경로와 메타데이터를 정밀 기록함.
|
||||
## 8. 통과 기준 (Success Criteria)
|
||||
- filelist.csv 생성이 완료되고, 확장자별 통계 보고서가 이슈 #46에 등록되어야 함.
|
||||
- 수집된 목록에 대한 사용자의 최종 승인을 득한 후 Step 02로 이동함.
|
||||
- ilelist.csv 생성 및 통계 보고 완료.
|
||||
Reference in New Issue
Block a user