From fdfc305f32c6c90b9a87a280655bed0aaee599b0 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=EC=9D=B4=EA=B2=BD=EB=AF=BC?= Date: Mon, 9 Mar 2026 13:38:04 +0900 Subject: [PATCH] Update wiki page 'Step 04' --- Step-04.md | 51 ++++++++++++++++++++++++++++++++++++++++++--------- 1 file changed, 42 insertions(+), 9 deletions(-) diff --git a/Step-04.md b/Step-04.md index bf05eba..0904c4f 100644 --- a/Step-04.md +++ b/Step-04.md @@ -1,10 +1,43 @@ -# Step 04. 의미 기반 블록 해체 및 분류 +# Step 04. 블록 해체 및 분류 (Block Decomposition) + ## 1. 목적 (Objective) -Judge-Standard를 기준으로 파일 본문의 언어적 의도와 수혜자(Audience)를 분석하여 Prompt와 Domain을 근본적으로 분리함. -## 2. 수행방법 (Methodology) -- **1순위 필터 (Exclude)**: 뉴스, 기사, 시론, 직장 예절, 사규 등 지식 자산이 아닌 데이터는 즉시 Exclude로 분류하여 격리함. -- **2순위 필터 (Prompt)**: 지시의 대상이 AI 모델이며, 특정 Task와 Logic이 명시된 경우만 Prompt로 식별함. -## 3. 주의사항 (Precautions) -- 단순히 명령형 서술어('해라')가 있다고 해서 프롬프트로 분류하지 말 것. 문맥상 수혜자가 '인간'인 지침은 100% Domain 또는 Exclude임. -## 4. 통과 기준 (Success Criteria) -- 분류 근거가 담긴 [표준 대조표]를 작성하여 사용자의 승인을 득함. \ No newline at end of file +파일 전체가 아닌 블록 단위로 해체하여 Judge-Standard 기준으로 각 블록의 성격을 판단한다. 하나의 파일에서 프롬프트, 도메인, 코드도메인, 제외가 동시에 나올 수 있다. + +## 2. 판단 전 반드시 숙지 (Pre-requisites) +분류 기준은 Judge-Standard 위키를 봰른다. 아래는 오판을 방지하기 위한 핵심 주의사항이다. + +### 프롬프트 판단 시 주의 +- .txt / .md 파일 전체가 프롬프트일 수 있다 → 파일 전체 내용을 읽고 판단한다. +- \"당신은 ~입니다\", \"You are ~\", \"Act as ~\" 로 시작하는 섹션 → 프롬프트 후보일 수 있으나, Judge-Standard 3요소(행동 지시, 가변 블록 포함)를 모두 충족하는지 반드시 추가 확인한다. 해당 문구만으로 프롬프트로 단정하지 않는다. +- API 호출 코드(openai.ChatCompletion.create(), client.chat.completions.create() 등)는 프롬프트가 아니다 → 제외. +- 한 줄짜리 인라인 f-string( \"다음을 번역해줘:\n{text}\")은 프롬프트가 아니다 → 제외. +- messages 리스트 내부의 content 값만 추출하여 판단한다. + +### 도메인 판단 시 주의 +- 도메인의 범위는 Judge-Standard를 따른다. 미리 한정하지 않는다. +- CSS/HTML/JS도 재사용 가능하면 도메인이다. +- .txt / .md 파일 안의 CSS 블록, HTML 구조, JS 함수도 도메인이 될 수 있다. + +### 코드도메인 판단 시 주의 +- Python def / class 단위로 독립 완결되는 것만 해당한다. +- 경로 설정, API 키, import 문만 있는 블록은 제외. +- if __name__ == \"__main__\" 블록은 제외. + +## 3. 파일 유형별 해체 방식 (Extraction Methodology) +### .txt / .md 파일 +- 파일 전체 내용을 읽고, 섹션(##) 단위로 분리하여 각각 판단한다. +- 파일 안에 CSS/HTML/JS 블록이 섞여있으면 해당 블록도 별도 추출한다. +### .py 파일 +- 멀티라인 문자열 변수(\"\"\"...\"\"\") 및 PROMPT_, SYSTEM_, system_prompt 등 관련 변수값 추출. +- def / class 단위로 분리하여 코드도메인 여부 판단. +### .json / .yaml 파일 +- system, prompt, messages 키의 값을 프롬프트 후보로 추출. + +## 4. [보완: 정확도 9 원칙] +- **의도 지향 분석**: 말투가 아닌 '수혜자'가 누구인지 분석하여 기사/예절 등은 즉시 Exclude 처리. +- **분류 근거 제시**: 모든 분류 결과에 대해 Standard 대조표 작성을 의무화함. + +## 5. 통과 기준 (Success Criteria) +- 파일 전체 복사 0건 (반드시 블록 단위 추출). +- API 호출 코드 및 인라인 문자열 혼입 0건. +- .txt / .md 파일 내 실제 프롬프트 누락 0건. \ No newline at end of file