486c2ceeb89d27f9ab3e6ede4546663553705998
문서 정보 추출 자동화 스크립트
이 스크립트는 지정된 디렉터리에 있는 모든 파일에 대해 문서 정보 추출 API를 호출하고 결과를 JSON 파일로 저장하는 작업을 자동화합니다.
주요 기능
- 지정된 디렉터리 내 모든 파일을 순차적으로 처리
- 두 가지 API 엔드포인트 (
i18n,d6c) 중 선택 가능 - 처리 상태를 콘솔과 로그 파일(
script_run.log)에 기록 - 재시도 로직 내장 (API 서버에서 404 응답 시)
사전 준비
스크립트를 실행하기 위해서는 Python 3.6 이상이 필요합니다.
의존성 설치
스크립트 실행에 필요한 라이브러리를 설치합니다.
사용법
스크립트는 커맨드 라인 인터페이스(CLI)를 통해 실행하며, 다음과 같은 인자(argument)를 받습니다.
인자 설명
input_dir(필수): 처리할 파일들이 들어있는 입력 디렉터리의 경로입니다.-o, --output_dir(선택): 결과 JSON 파일들을 저장할 출력 디렉터리입니다. 기본값은results입니다.--endpoint(선택): 호출할 API의 엔드포인트를 지정합니다.i18n또는d6c중에서 선택할 수 있습니다. 기본값은i18n입니다.--model(선택): 사용하고자 하는 특정 LLM 모델의 이름을 지정합니다.
실행 예시
기본 실행 (i18n 엔드포인트 사용)
source_documents/data디렉터리의 파일들을 처리하고, 결과를results폴더에 저장합니다.출력 디렉터리 지정
source_documents/data디렉터리의 파일들을 처리하고, 결과를my_results폴더에 저장합니다.d6c 엔드포인트 사용
d6c엔드포인트를 사용하여source_documents/data2디렉터리의 파일들을 처리합니다.특정 모델 지정
d6c엔드포인트와gemma3:27b모델을 사용하여source_documents/data디렉터리의 파일들을 처리합니다.
로그 확인
스크립트 실행 중 발생하는 모든 이벤트는 콘솔과
workspace/script_run.log 파일에 동시에 기록됩니다. 오류가
발생하거나 진행 상황을 자세히 확인하고 싶을 때 이 로그 파일을 참조할 수
있습니다.
Description
Languages
Python
100%