pre_convert.py: 다이어그램 중심 PDF 변환 실패 (교량SW 프로세스 개요도) #11

Open
opened 2026-04-17 18:45:02 +09:00 by kimminsung · 0 comments
Owner

문제

a. 교량SW 프로세스 개요도_25.11.07.pdfingest-raw 스킬 Step 0(pre_convert.py)로 변환 시도했으나 실패.

[pre-convert] 변환 대상 1개
  [.PDF] engineer-knowledge/교량SW설계및프로세스/a. 교량SW 프로세스 개요도_25.11.07.pdf
  실패
[pre-convert] 완료: 성공 0 / 실패 1

원인 추정

해당 PDF는 단일 흐름도 이미지 1장으로 구성된 파일. convert_pdfs.py(docuConverter01)는 텍스트 레이어가 있는 PDF에 최적화되어 있어, 이미지+다이어그램 전용 PDF에서 0-exit 실패 반환.

현재 임시 해결책

Claude Read 도구(비전 직접 파싱)로 PDF를 읽어 wiki 페이지를 수동 컴파일함.
wiki/교량SW설계프로세스_afterConvert/교량SW 프로세스 개요.md 생성 완료.

제안 개선 방향

  1. convert_pdfs.py 실패 시 fallback: pdfplumber 또는 pymupdf로 이미지 추출 후 Claude 비전 API 호출
  2. 또는 pre_convert.py에 실패한 PDF를 별도 목록(_failed.txt)으로 기록해 수동 처리 경로 명확화
  3. ingest-raw SKILL.md에 "변환 실패 시 Claude Read 도구 직접 파싱 허용" 예외 조항 추가

재현 경로

cd /d/myObsidian/ParaWiki
python .scratch/pre_convert.py
# → a. 교량SW 프로세스 개요도_25.11.07.pdf 실패 확인
## 문제 `a. 교량SW 프로세스 개요도_25.11.07.pdf` 를 `ingest-raw` 스킬 Step 0(`pre_convert.py`)로 변환 시도했으나 실패. ``` [pre-convert] 변환 대상 1개 [.PDF] engineer-knowledge/교량SW설계및프로세스/a. 교량SW 프로세스 개요도_25.11.07.pdf 실패 [pre-convert] 완료: 성공 0 / 실패 1 ``` ## 원인 추정 해당 PDF는 **단일 흐름도 이미지** 1장으로 구성된 파일. `convert_pdfs.py`(docuConverter01)는 텍스트 레이어가 있는 PDF에 최적화되어 있어, 이미지+다이어그램 전용 PDF에서 0-exit 실패 반환. ## 현재 임시 해결책 Claude Read 도구(비전 직접 파싱)로 PDF를 읽어 wiki 페이지를 수동 컴파일함. → `wiki/교량SW설계프로세스_afterConvert/교량SW 프로세스 개요.md` 생성 완료. ## 제안 개선 방향 1. `convert_pdfs.py` 실패 시 fallback: `pdfplumber` 또는 `pymupdf`로 이미지 추출 후 Claude 비전 API 호출 2. 또는 `pre_convert.py`에 실패한 PDF를 별도 목록(`_failed.txt`)으로 기록해 수동 처리 경로 명확화 3. `ingest-raw` SKILL.md에 "변환 실패 시 Claude Read 도구 직접 파싱 허용" 예외 조항 추가 ## 재현 경로 ``` cd /d/myObsidian/ParaWiki python .scratch/pre_convert.py # → a. 교량SW 프로세스 개요도_25.11.07.pdf 실패 확인 ```
Sign in to join this conversation.
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: kimminsung/ParaWiki#11