feat: Implement full conversion pipeline (PDF/HWP/HWPX/HML/HTML)
- convert.py: 통합 CLI, --json 출력, --scan 폴더 모드 - converters/pdf.py: 페이지별 분류(text/diagram/mixed) + marker-pdf + PNG 렌더링 - converters/hwp.py: COM 자동화 + pyhwp fallback - converters/hwpx.py: ZIP+XML 직접 파싱, 이미지 추출 - converters/hml.py: XML 파싱, Base64 이미지 추출, colspan/rowspan HTML 표 - converters/html.py: html2text (body_width=0) - requirements.txt: 최소 의존성 - .env.example: 환경변수 템플릿 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
26
requirements.txt
Normal file
26
requirements.txt
Normal file
@@ -0,0 +1,26 @@
|
||||
# doc2md 필수 패키지
|
||||
# pip install -r requirements.txt
|
||||
|
||||
# PDF 변환 (텍스트/이미지 혼합)
|
||||
marker-pdf>=1.0.0
|
||||
|
||||
# PDF 페이지 분석 + 렌더링
|
||||
PyMuPDF>=1.23.0
|
||||
|
||||
# 이미지 처리 (다이어그램 감지)
|
||||
Pillow>=10.0.0
|
||||
|
||||
# XML 파싱 (HML, HWPX) — 표준 라이브러리 포함
|
||||
lxml>=4.9.0
|
||||
|
||||
# HTML 파싱 (HWP pyhwp fallback)
|
||||
beautifulsoup4>=4.12.0
|
||||
|
||||
# HTML → MD
|
||||
html2text>=2020.1.16
|
||||
|
||||
# HWP 변환 fallback (한컴오피스 미설치 환경)
|
||||
pyhwp>=0.1.0b19
|
||||
|
||||
# Windows 전용: HWP COM 자동화 (한컴오피스 설치 시 자동 사용)
|
||||
# pywin32>=306
|
||||
Reference in New Issue
Block a user