From 30b97e687cc4a0425718c3f2e130ce93d21c39b9 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=EC=9D=B4=EA=B2=BD=EB=AF=BC?= Date: Thu, 5 Mar 2026 14:17:13 +0900 Subject: [PATCH] Step-07: Restore ACTUAL domain knowledge - Data Processing Specs --- .../General_데이터_처리_이미지패턴_v01.md | 18 ++++++++++++++++++ 1 file changed, 18 insertions(+) create mode 100644 02. Prompts/진행과정/데이터 처리 도메인/General_데이터_처리_이미지패턴_v01.md diff --git a/02. Prompts/진행과정/데이터 처리 도메인/General_데이터_처리_이미지패턴_v01.md b/02. Prompts/진행과정/데이터 처리 도메인/General_데이터_처리_이미지패턴_v01.md new file mode 100644 index 0000000..e96b6fd --- /dev/null +++ b/02. Prompts/진행과정/데이터 처리 도메인/General_데이터_처리_이미지패턴_v01.md @@ -0,0 +1,18 @@ +--- +source: D:\for python\geulbeot-light\converters\pipeline\step4_chunk.py +category: domain +--- + +## 데이터 처리 및 이미지 패턴 규정 + +1. **이미지 추출 정규식 (Regex):** + - 패턴: `!\[([^\]]*)\]\(([^)]+)\)` + - 용도: 문서 내 삽입된 이미지의 Alt 텍스트와 경로를 식별하여 청크 데이터에 포함함. + +2. **청크 분할 임계값 (Threshold):** + - 최소 길이: 500자 (이하일 경우 병합) + - 최대 컨텍스트 윈도우: 12,000자 (입력 제한) + +3. **시스템 로그 표준:** + - [시간] [로그레벨] [소스명] 형식 준수 + - 예: `[14:30:05] [INFO] Success: document_A.md`