36 lines
1.2 KiB
Python
36 lines
1.2 KiB
Python
import os
|
|
|
|
|
|
def _str_to_bool(value: str) -> bool:
|
|
"""환경 변수(문자열)를 boolean 값으로 변환합니다."""
|
|
return value.lower() in ("true", "1", "t")
|
|
|
|
|
|
# --------------------------------------------------------------------------
|
|
# vLLM Engine Configuration
|
|
# .env 파일에 동일한 이름의 환경 변수를 설정하여 아래 기본값을 재정의할 수 있습니다.
|
|
# --------------------------------------------------------------------------
|
|
|
|
# 사용자 정의 모델 아키텍처
|
|
# 여러 개일 경우 쉼표로 구분: "Arch1,Arch2"
|
|
_architectures_str = os.getenv("ARCHITECTURES", "DeepseekOCRForCausalLM")
|
|
ARCHITECTURES = [arch.strip() for arch in _architectures_str.split(",")]
|
|
|
|
# KV 캐시 블록 크기
|
|
BLOCK_SIZE = int(os.getenv("BLOCK_SIZE", "256"))
|
|
|
|
# 최대 모델 길이
|
|
MAX_MODEL_LEN = int(os.getenv("MAX_MODEL_LEN", "8192"))
|
|
|
|
# Eager 모드 강제 실행 여부
|
|
ENFORCE_EAGER = _str_to_bool(os.getenv("ENFORCE_EAGER", "False"))
|
|
|
|
# 원격 코드 신뢰 여부
|
|
TRUST_REMOTE_CODE = _str_to_bool(os.getenv("TRUST_REMOTE_CODE", "True"))
|
|
|
|
# 텐서 병렬 처리 크기
|
|
TENSOR_PARALLEL_SIZE = int(os.getenv("TENSOR_PARALLEL_SIZE", "1"))
|
|
|
|
# GPU 메모리 사용률
|
|
GPU_MEMORY_UTILIZATION = float(os.getenv("GPU_MEMORY_UTILIZATION", "0.15"))
|