Structural Reset: Reorganizing to standard hierarchy
This commit is contained in:
@@ -1,18 +0,0 @@
|
||||
---
|
||||
source: D:\for python\geulbeot-light\converters\pipeline\step4_chunk.py
|
||||
category: domain
|
||||
---
|
||||
|
||||
## 데이터 처리 및 이미지 패턴 규정
|
||||
|
||||
1. **이미지 추출 정규식 (Regex):**
|
||||
- 패턴: `!\[([^\]]*)\]\(([^)]+)\)`
|
||||
- 용도: 문서 내 삽입된 이미지의 Alt 텍스트와 경로를 식별하여 청크 데이터에 포함함.
|
||||
|
||||
2. **청크 분할 임계값 (Threshold):**
|
||||
- 최소 길이: 500자 (이하일 경우 병합)
|
||||
- 최대 컨텍스트 윈도우: 12,000자 (입력 제한)
|
||||
|
||||
3. **시스템 로그 표준:**
|
||||
- [시간] [로그레벨] [소스명] 형식 준수
|
||||
- 예: `[14:30:05] [INFO] Success: document_A.md`
|
||||
Reference in New Issue
Block a user