Files
_Geulbeot/02. Prompts/진행과정/데이터 처리 도메인/General_데이터_처리_이미지패턴_v01.md

649 B

source, category
source category
D:\for python\geulbeot-light\converters\pipeline\step4_chunk.py domain

데이터 처리 및 이미지 패턴 규정

  1. 이미지 추출 정규식 (Regex):

    • 패턴: !\[([^\]]*)\]\(([^)]+)\)
    • 용도: 문서 내 삽입된 이미지의 Alt 텍스트와 경로를 식별하여 청크 데이터에 포함함.
  2. 청크 분할 임계값 (Threshold):

    • 최소 길이: 500자 (이하일 경우 병합)
    • 최대 컨텍스트 윈도우: 12,000자 (입력 제한)
  3. 시스템 로그 표준:

    • [시간] [로그레벨] [소스명] 형식 준수
    • 예: [14:30:05] [INFO] Success: document_A.md