Files
_Geulbeot/02. Prompts/진행과정/문서 변환 도메인/General_HWP_특수문자_보정규칙_v01.md

632 B

source, category
source category
D:\for python\hwp_test\hwp_logic.py domain

HWP 특수문자 및 제어코드 보정 규칙

  1. 불필요 문자 제거 (Regex):

    • 패턴: [\x00-\x08\x0b\x0c\x0e-\x1f]
    • 용도: HWP 바이너리 추출 시 섞여 들어오는 제어 코드 제거.
  2. 한글 고유 기호 변환:

    • , , -> - (마크다운 리스트)
    • -> > (인용구/주의사항)
  3. 엔코딩 가이드:

    • 원본이 CP949인 경우 반드시 UTF-8로 변환 후 AI에 입력함.
    • 깨진 한글(?) 발견 시 컨텍스트를 기반으로 단어를 유추하여 복원함.