2025-08-01 09:33:01 +09:00
fcm
2025-08-01 09:33:01 +09:00
fcm
2025-08-01 09:33:01 +09:00
fcm
2025-08-01 09:33:01 +09:00
fcm
2025-08-01 09:33:01 +09:00
fcm
2025-08-01 09:33:01 +09:00
fcm
2025-08-01 09:33:01 +09:00

문서 정보 추출 자동화 스크립트

이 스크립트는 지정된 디렉터리에 있는 모든 파일에 대해 문서 정보 추출 API를 호출하고 결과를 JSON 파일로 저장하는 작업을 자동화합니다.

주요 기능

  • 지정된 디렉터리 내 모든 파일을 순차적으로 처리
  • 두 가지 API 엔드포인트 (i18n, d6c) 중 선택 가능
  • 처리 상태를 콘솔과 로그 파일(script_run.log)에 기록
  • 재시도 로직 내장 (API 서버에서 404 응답 시)

사전 준비

스크립트를 실행하기 위해서는 Python 3.6 이상이 필요합니다.

의존성 설치

스크립트 실행에 필요한 라이브러리를 설치합니다.

pip install -r requirements.txt

사용법

스크립트는 커맨드 라인 인터페이스(CLI)를 통해 실행하며, 다음과 같은 인자(argument)를 받습니다.

python workspace/process_directory.py [입력_디렉터리] [옵션]

인자 설명

  • input_dir (필수): 처리할 파일들이 들어있는 입력 디렉터리의 경로입니다.
  • -o, --output_dir (선택): 결과 JSON 파일들을 저장할 출력 디렉터리입니다. 기본값은 results입니다.
  • --endpoint (선택): 호출할 API의 엔드포인트를 지정합니다. i18n 또는 d6c 중에서 선택할 수 있습니다. 기본값은 i18n입니다.
  • --model (선택): 사용하고자 하는 특정 LLM 모델의 이름을 지정합니다.

실행 예시

  1. 기본 실행 (i18n 엔드포인트 사용)

    source_documents/data 디렉터리의 파일들을 처리하고, 결과를 results 폴더에 저장합니다.

    python workspace/process_directory.py source_documents/data
  2. 출력 디렉터리 지정

    source_documents/data 디렉터리의 파일들을 처리하고, 결과를 my_results 폴더에 저장합니다.

    python workspace/process_directory.py source_documents/data -o my_results
  3. d6c 엔드포인트 사용

    d6c 엔드포인트를 사용하여 source_documents/data2 디렉터리의 파일들을 처리합니다.

    python workspace/process_directory.py source_documents/data2 --endpoint d6c
  4. 특정 모델 지정

    d6c 엔드포인트와 gemma3:27b 모델을 사용하여 source_documents/data 디렉터리의 파일들을 처리합니다.

    python workspace/process_directory.py source_documents/data --endpoint d6c --model gemma3:27b

로그 확인

스크립트 실행 중 발생하는 모든 이벤트는 콘솔과 workspace/script_run.log 파일에 동시에 기록됩니다. 오류가 발생하거나 진행 상황을 자세히 확인하고 싶을 때 이 로그 파일을 참조할 수 있습니다.

Description
No description provided
Readme 192 MiB
Languages
Python 100%