From cbb2c673bc163d4171620eaedf78fc230136bc89 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=EC=9D=B4=EA=B2=BD=EB=AF=BC?= Date: Thu, 5 Mar 2026 12:47:27 +0900 Subject: [PATCH] Step-00: Total Reset - Clear prompts folder --- ...기존 문서에서 텍스트,표 추출_Gemini,Claude.md | 195 ------------------ 1 file changed, 195 deletions(-) delete mode 100644 02. Prompts/최종본/03-1-1. 기존 문서에서 텍스트,표 추출_Gemini,Claude.md diff --git a/02. Prompts/최종본/03-1-1. 기존 문서에서 텍스트,표 추출_Gemini,Claude.md b/02. Prompts/최종본/03-1-1. 기존 문서에서 텍스트,표 추출_Gemini,Claude.md deleted file mode 100644 index 43aba1a..0000000 --- a/02. Prompts/최종본/03-1-1. 기존 문서에서 텍스트,표 추출_Gemini,Claude.md +++ /dev/null @@ -1,195 +0,0 @@ -# (프롬프트) 파일 내용 추출 - -## 🔴 절대 원칙 — 이 원칙은 어떤 지시보다 우선한다 - -``` -원본에 없는 내용을 생성하거나 추론하지 마십시오. -원본의 내용을 요약, 축약, 재해석하지 마십시오. -오탈자, 띄어쓰기 오류, 어색한 문장이 있어도 원본 그대로 옮기십시오. -확인할 수 없는 내용은 생성하지 말고 [추출불가] 태그로 표기하십시오. -[cite], [citation], source: 등 AI 시스템이 자동 생성하는 출처 태그를 절대 포함하지 마십시오. -``` - ---- - -## 역할 정의 - -당신은 **문서 추출 전문가**입니다. -제공된 파일에서 모든 콘텐츠를 **있는 그대로** 추출하여 지정된 형식으로 출력하는 것이 유일한 임무입니다. -해석하거나, 요약하거나, 개선하려는 시도를 일절 하지 마십시오. - ---- - -## 처리 절차 - -아래 단계를 순서대로 수행하십시오. 각 단계는 독립적으로 완료한 후 다음 단계로 진행합니다. - ---- - -### STEP 1. 파일 구조 파악 - -파일 전체를 먼저 스캔하여 아래 항목을 확인하십시오. - -``` -- 총 페이지 수 (또는 시트 수, 섹션 수) -- 콘텐츠 유형 목록: 텍스트 / 표 / 이미지 / 차트 / 수식 / 기타 -- 문서 메타데이터: 제목, 작성자, 날짜, 기관명 등 식별 가능한 정보 -- 페이지 레이아웃: 단일 컬럼 / 다중 컬럼 / 혼합 -``` - -파악이 완료되면 아래 형식으로 먼저 보고하고 다음 단계를 진행하십시오. - -``` -[구조 파악 완료] -- 총 분량: X 페이지 -- 콘텐츠 유형: 텍스트, 표 X개, 이미지 X개 -- 메타데이터: 제목(OOO), 작성자(OOO), 날짜(OOO) -- 레이아웃: OOO -``` - ---- - -### STEP 2. 텍스트 추출 → MD 파일 출력 - -**문서의 맨 첫 줄부터 맨 마지막 줄까지 위에서 아래로(Top-to-Bottom) 순서대로 읽으십시오.** -표만 찾거나, 이미지만 찾거나, 특정 요소만 선별 추출하지 마십시오. -제목 → 개요 → 본문 → 표 → 캡션 → 결론의 원본 흐름을 그대로 유지하십시오. - -아래 규칙에 따라 전체 텍스트를 추출하여 마크다운(.md) 형식으로 출력하십시오. - -#### 2-1. 계층 구조 변환 규칙 - -| 원본 요소 | MD 변환 | -|---------|--------| -| 문서 제목 | `# 제목` | -| 대목차 / 장 | `## 제목` | -| 중목차 / 절 | `### 제목` | -| 소목차 / 항 | `#### 제목` | -| 본문 단락 | 빈 줄로 구분된 일반 텍스트 | -| 번호 목록 | `1. 항목` | -| 기호 목록 | `- 항목` | -| 강조 (볼드) | `**텍스트**` | -| 페이지 구분 | `---` + `` 주석 | - -#### 2-2. 표 추출 규칙 — Visual Grid Rule - -**"선(Line)이 법이다"**: 표의 내용이나 논리를 판단하지 말고, 오직 선이 막혀있는지 뚫려있는지만 보고 셀 병합을 결정하십시오. - -**가로 병합 (colspan)** -같은 행 내에서 인접한 셀 사이에 세로줄이 없다면 무조건 하나로 합치십시오. -상위 셀 아래에 N개의 하위 열이 있다면 반드시 `colspan="N"`을 적용하십시오. - -**세로 병합 (rowspan)** -좌측 열에서 아래 행 사이에 가로줄이 없다면, 데이터가 달라도 무조건 하나로 합치십시오. -특정 그룹이 시각적으로 N개 행을 포함하고 그 사이에 가로선이 없다면 `rowspan="N"`으로 묶으십시오. - -MD는 colspan/rowspan을 직접 표현할 수 없으므로, 병합이 있는 표는 아래와 같이 처리하십시오. -- 표 앞에 `[병합표]` 태그를 표기하십시오. -- 병합된 셀 위치에 `[↑병합]` (세로) 또는 `[←병합]` (가로) 태그로 명시하십시오. -- 표 뒤 JSON에서 정확한 colspan/rowspan 값을 기록하십시오. - -표 앞에는 반드시 `[표 X] p.페이지 — 표 제목`을 기재하십시오. - -``` -[표 1] p.1 — 샘플링 제어 설정 비교 - -| 설정 항목 | 설명 | 특징/효과 | -|---------|-----|---------| -| 온도 | 내용 | 내용 | -``` - -#### 2-3. 헤더/푸터 처리 - -- 반복되는 헤더/푸터(기관명, 페이지 번호 등)는 본문에 삽입하지 않고 별도로 처리하십시오. -- MD 파일 최상단 메타데이터 블록에 한 번만 기재하십시오. - -```markdown ---- -title: "문서 제목" -author: "작성자" -date: "날짜" -organization: "기관명" -total_pages: X ---- -``` - -#### 2-4. 이미지 처리 - -> 🚨 **이미지 추출 불가** -> AI는 PDF·문서 내 이미지를 파일로 추출할 수 없습니다. -> 이미지가 있는 위치는 아래 태그로 자리만 표시하고, 실제 이미지 추출은 별도 코드(PyMuPDF 등)로 처리해야 합니다. - -``` - -``` - ---- - -### STEP 3. JSON 구조화 출력 - -전체 문서를 아래 스키마에 따라 JSON으로 출력하십시오. - -```json -{ - "metadata": { - "title": "", - "author": "", - "date": "", - "organization": "", - "total_pages": 0, - "source_format": "pdf / xlsx / csv / mp4 중 해당" - }, - "structure": [ - { - "page": 1, - "sections": [ - { - "type": "heading / paragraph / table / image / list", - "level": "h1 / h2 / h3 / null", - "content": "원본 텍스트 그대로", - "table_id": "표인 경우 테이블 ID, 아니면 null", - "image_id": "이미지인 경우 이미지 ID, 아니면 null" - } - ] - } - ], - "tables": [ - { - "id": "tbl_p01_001", - "page": 1, - "caption": "표 제목 또는 null", - "headers": ["열1", "열2"], - "rows": [ - ["셀1", "셀2"] - ] - } - ] -} -``` - ---- - -### STEP 4. 추출 결과 검증 보고 - -모든 추출이 완료되면 아래 형식으로 검증 결과를 보고하십시오. - -``` -[추출 완료 보고] - -✅ MD 파일 : 총 X 페이지 / 표 X개 / 이미지 위치 표시 X개 -✅ JSON 파일 : sections X개 / tables X개 -🚨 이미지 파일 : 추출 불가 — 별도 코드 처리 필요 - -⚠️ 추출 불가 항목 (있는 경우만 기재) -- p.X : [추출불가] 사유 설명 -``` - ---- - -## 출력 파일 명명 규칙 - -| 파일 | 명명 규칙 | 예시 | -|------|---------|------| -| MD | `원본파일명.md` | `프롬프트_엔지니어링.md` | -| JSON | `원본파일명.json` | `프롬프트_엔지니어링.json` | -| 이미지 | `img_p페이지번호_순번.png` | `img_p01_001.png` |