fix: LaTeX 백슬래시 복원, HWP 인코딩 오류 수정, 다이어그램 감지 튜닝

- pdf.py: marker-pdf가 손상시킨 \times·\frac 등 LaTeX 백슬래시 복원 후처리 추가
- pdf.py: 다이어그램 감지에 절대 drawing 수 기준(>= 40) 추가 (대형 엔지니어링 페이지 대응)
- hwp.py: COM 타임아웃 메시지의 em dash → ASCII (cp949 인코딩 오류 수정)
- convert.py: Windows stdout/stderr UTF-8 강제 설정

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
minsung
2026-04-20 15:56:11 +09:00
parent 2ec2759a20
commit 1d40d90242
3 changed files with 44 additions and 6 deletions

View File

@@ -13,6 +13,10 @@ import json
import sys
from pathlib import Path
if sys.platform == 'win32':
sys.stdout.reconfigure(encoding='utf-8', errors='replace')
sys.stderr.reconfigure(encoding='utf-8', errors='replace')
SUPPORTED = {'.pdf', '.hwp', '.hwpx', '.hml', '.html', '.htm'}
SKIP_NAMES = {'README.md', 'CLAUDE.md', 'AGENT_GUIDE.md'}