Files
_Geulbeot/02. Prompts/최종본/03-1-2. 프롬프트 설명서.md

6.8 KiB

프롬프트 구조 및 내용 해설

(프롬프트) 파일 내용 추출


🚨 지원 파일 형식 및 제한 사항

처리 가능한 형식

형식 확장자
문서 .pdf, .ppt, .pptx, .doc, .docx
이미지 .png, .jpg
텍스트 .md, .txt

🔴 HWP / HWPX — 처리 불가

한컴오피스의 HWP·HWPX 파일은 이 프롬프트로 처리할 수 없습니다.

이유는 두 가지입니다. 첫째, HWP는 한컴 독자 바이너리 포맷으로 AI가 직접 읽을 수 없습니다. 둘째, pyhwpx 등 변환 라이브러리를 사용하더라도 한글 버전에 따라 호환성 문제가 빈번히 발생합니다.

HWP 파일은 반드시 사전에 PDF 또는 DOCX로 변환한 후 이 프롬프트를 적용하십시오.


전체 구성 한눈에 보기

순서 구성요소 역할 한 줄 요약
1 절대 원칙 추론·요약·생성 차단
2 역할 정의 AI의 작업 태도 설정
3 STEP 1 파일 전체 구조 먼저 파악
4 STEP 2 텍스트 추출 → MD 출력
5 STEP 3 전체 문서 JSON 구조화
6 STEP 4 추출 결과 검증 보고

1. 절대 원칙 — 추론·요약·생성 차단

이 프롬프트에서 하는 역할

생성형 AI의 가장 큰 문제는 원본에 없는 내용을 자연스럽게 채워 넣는다는 점입니다. 특히 Gemini는 아무리 "그대로 추출하라"고 해도 문장을 보완하거나 재해석하는 경향이 강해 원본 무결성을 보장할 수 없습니다. 절대 원칙은 이 성질을 억제하는 강한 제약 선언입니다.

"오탈자가 있어도 원본 그대로"라는 지시는 AI가 친절하게 교정하려는 행동을 차단하고, "[추출불가] 태그"는 확인 불가 영역을 임의로 채우지 말고 명시적으로 표시하도록 강제합니다.

"[cite], [citation], source: 태그 금지"는 AI 아티팩트 제거 규칙입니다. 일부 AI 모델은 추출 과정에서 출처 태그를 자동으로 삽입하는데, 이는 원본에 없는 내용으로 데이터 오염을 유발합니다. 이후 RAG 구축이나 본문 생성 단계에서 이 태그가 그대로 유입되면 결과물의 신뢰성이 훼손됩니다.

왜 역할 정의보다 먼저 오는가

절대 원칙은 역할 정의를 포함한 이후의 모든 지시보다 우선순위가 높습니다. 역할 정의 뒤에 두면 AI가 역할 수행을 위해 원칙을 유연하게 해석할 여지가 생깁니다.


2. 역할 정의 — AI의 작업 태도 설정

이 프롬프트에서 하는 역할

"문서 추출 전문가"라는 역할은 AI가 편집자·요약자·번역자처럼 행동하지 않도록 경계를 만듭니다. "해석하거나 요약하거나 개선하려는 시도를 일절 하지 마십시오"라는 문장이 핵심으로, 이 한 문장이 이후 모든 단계에서 AI의 판단 기준이 됩니다.


3. STEP 1 — 파일 구조 먼저 파악

왜 바로 추출하지 않고 구조 파악을 먼저 하는가

파일을 바로 추출하면 AI가 중간에 레이아웃을 잘못 판단하여 텍스트 순서가 뒤바뀌거나 표가 일반 텍스트로 처리되는 오류가 발생합니다. 특히 다단 레이아웃(2단 편집)이나 헤더/푸터가 있는 PDF는 구조를 먼저 파악하지 않으면 추출 순서가 틀립니다.

"구조 파악 완료" 보고를 먼저 받음으로써 사용자가 AI가 문서를 올바르게 인식했는지 확인한 후 다음 단계를 진행할 수 있습니다.


4. STEP 2 — 텍스트 추출 → MD 출력

왜 MD(마크다운)인가

MD는 계층 구조(제목 레벨)와 표, 목록을 텍스트 형태로 표현할 수 있어 이후 글벗 파이프라인의 모든 단계에서 입력 형식으로 사용 가능합니다. PDF의 고유 포맷을 그대로 가져오면 다음 단계 처리가 불가합니다.

왜 Top-to-Bottom(순차 추출)을 명시하는가

AI는 별도 지시가 없으면 표·이미지처럼 눈에 띄는 요소를 먼저 처리하는 경향이 있습니다. 이렇게 되면 표 앞의 개요 설명이나 표 뒤의 결론 문단이 누락됩니다. "맨 첫 줄부터 맨 마지막 줄까지 위에서 아래로"라는 명시적 순서 지시가 없으면 본문 단락이 통째로 빠지는 오류가 발생합니다.

Visual Grid Rule — 왜 내용이 아닌 선으로 판단하는가

표 병합 처리에서 AI가 가장 자주 저지르는 오류는 셀의 내용을 보고 스스로 병합 여부를 판단하는 것입니다. 예를 들어 '직접영향권'이라는 텍스트가 5개 행에 걸쳐 있어도 AI가 내용상 "반복"이라고 판단하면 rowspan을 적용하지 않고 각각 분리하거나, 반대로 관련 있어 보이는 셀을 임의로 합치는 오류를 범합니다. "선이 막혔는지만 보라"는 규칙은 AI의 내용 기반 판단을 차단하고 시각적 구조만 따르도록 강제합니다.

헤더/푸터를 본문에서 분리하는 이유

PDF의 반복 헤더/푸터(기관명, 페이지 번호 등)는 매 페이지마다 동일하게 존재합니다. 이를 본문에 그대로 넣으면 이후 AI가 내용을 처리할 때 반복 텍스트로 인식하여 오류가 발생합니다. 메타데이터 블록에 한 번만 기재하여 본문과 분리합니다.

이미지 위치에 자리 표시만 하는 이유

AI는 PDF·문서 내 이미지를 파일로 직접 추출할 수 없습니다. 이미지가 있는 위치는 주석 태그로만 표시하고, 실제 이미지 추출은 PyMuPDF 등의 코드로 별도 처리해야 합니다.


5. STEP 3 — JSON 구조화 출력

왜 MD와 별도로 JSON을 출력하는가

MD는 사람이 읽기 위한 형식이고, JSON은 글벗 파이프라인의 다음 단계(도메인 분석, RAG 구축 등)에서 코드가 읽기 위한 형식입니다. 동일한 내용을 두 가지 형식으로 동시에 출력하여 사람과 시스템이 각각 필요한 형식을 사용할 수 있도록 합니다.

JSON 스키마에서 sections 배열의 각 항목이 table_id, image_id를 참조하도록 설계한 것은 본문 텍스트·표·이미지의 원래 순서와 위치 관계를 코드에서 정확하게 재구성하기 위해서입니다.


6. STEP 4 — 추출 결과 검증 보고

왜 마지막에 검증 보고가 있는가

추출 작업이 완료되어도 누락이나 오류가 있었는지 사용자는 전체 결과물을 직접 검토하기 전까지 알 수 없습니다. 검증 보고는 AI 스스로 추출한 항목 수를 집계하여 보고하도록 하여, 사용자가 원본 문서의 예상 항목 수와 비교할 수 있게 합니다. [추출불가] 항목이 있는 경우 이 단계에서 명시적으로 확인할 수 있습니다.