632 B
632 B
source, category
| source | category |
|---|---|
| D:\for python\hwp_test\hwp_logic.py | domain |
HWP 특수문자 및 제어코드 보정 규칙
-
불필요 문자 제거 (Regex):
- 패턴:
[\x00-\x08\x0b\x0c\x0e-\x1f] - 용도: HWP 바이너리 추출 시 섞여 들어오는 제어 코드 제거.
- 패턴:
-
한글 고유 기호 변환:
○,●,□->-(마크다운 리스트)※->>(인용구/주의사항)
-
엔코딩 가이드:
- 원본이 CP949인 경우 반드시 UTF-8로 변환 후 AI에 입력함.
- 깨진 한글(
?) 발견 시 컨텍스트를 기반으로 단어를 유추하여 복원함.