Update wiki page 'Step 01'

2026-03-09 10:23:15 +09:00
parent 41502a5c95
commit ab80468a16

@@ -5,27 +5,27 @@
## 2. 목표 (Goal)
- 약 4만여 개의 파일 중 실제 분석 가치가 있는 확장자(.py, .txt, .md, .hwp, .pdf, .js, .json 등)를 전수 탐색.
- 시스템 파일 및 불필요한 라이브러리(.git, node_modules, AppData 등)를 100% 필터링하여 순수 분석 대상 리스트( ilelist.csv) 확보.
- 시스템 파일 및 불필요한 라이브러리(.git, node_modules, AppData 등)를 100% 필터링하여 순수 분석 대상 리스트(filelist.csv) 확보.
## 3. 수행방법 (Methodology)
1.
1. run_shell_command를 통해 지정된 작업 디렉토리(C:\Users\User)를 재귀적으로 탐색.
2. 특정 확장자 필터와 제외 폴더 패턴(Regex)을 적용하여 검색 범위를 최적화.
2. 특정 확장자 필터와 제외 폴더 패턴(Regex)을 적용하여 검색 범위를 최적화.
3. 수집된 파일의 메타데이터(경로, 이름, 확장자, 크기)를 추출하여 filelist.csv에 저장.
## 4. 컨텍스트 (Context)
- 사용자 워크스페이스 전체를 대상으로 하며, 특히 OneDrive, Documents, Desktop 등 실질적인 데이터가 집중된 저장소를 중점 분석함.
## 5. 주의사항 (Precautions)
- 대량의 파일 처리 시 에이전트 컨텍스트 제한이 발생하지 않도록 리스트를 외부 파일로 관리함.
- 대량의 파일 처리 시 에이전트 컨텍스트 제한이 발생하지 않도록 리스트를 외부 파일로 관리함.
- 환경 설정 파일(.env, .json 등)이 지식으로 오인되지 않도록 경로 기반 필터링 엄수.
## 6. 방식 (Strategy)
## 6. 방식 (Strategy)
- 포용적 수집, 엄격한 필터링: 재귀적으로 가치가 있는 파일은 일단 수집하되, 경로와 이름을 분석하여 1차적인 쓰레기 데이터를 숙청함.
## 7. 처리원칙 (Professing Principles)
- 모든 수집 과정은 ilelist.csv를 통해 데이터 무결성이 증명되어야 함.
## 7. 처리원칙 (Processing Principles)
- 모든 수집 과정은 filelist.csv를 통해 데이터 무결성이 증명되어야 함.
- 파일명이나 경로에 backup, temp, old가 포함된 경우 낮은 우선순위로 분류함.
## 8. 통과 기준 (Success Criteria)
## 8. 통과 기준 (Success Criteria)
- filelist.csv 생성이 완료되고, 확장자별 통계 보고서가 이슈 #46에 등록되어야 함.
- 수집된 목록에 대한 사용자의 최종 승인을 득한 후 Step 02로 이동함.