llm_asycio/workspace/tests/example.py

from vllm import LLM

"""
- max_model_len : 모델이 지원해주는 최대 시퀀스 길이입니다. 더 짧게도 가능하며, 모델이 지원해주는 가장 큰 값으로도 가능합니다. 저는 2048로 임의로 셋팅했습니다.
- tensor_parallel_size : 앞서 vLLM을 소개할 때 vLLM은 분산 추론(distrubuted inference)를 지원합니다. 더 자세히 말하면 분산 텐서 병렬(distributed tenwor parallel)기반 inference 및 serving을 지원하는 것입니다. 이때 vLLM은 Ray를 활용해 분산 런타임을 지원합니다. 따라서 Python Ray가 설치되어 있어야하며, 이를 활용하면 쉽고 간단하게 gpu 등을 병렬로 처리할 수 있습니다. 저는 1이라고 셋팅해서 1개의 gpu를 사용하도록 설정했습니다.
이렇게 올라온 모델을 사용해 이제 텍스트를 생성하는 text generate를 실행해보겠습니다. 다음과 같이 실행하면 됩니다.
"""

llm = LLM(
    model="yanolja/EEVE-Korean-Instruct-2.8B-v1.0",
    max_model_len=2048,
    tensor_parallel_size=1,
)  # 모델로드

requestoutput = llm.generate(
    "안녕하십니까. 기상 캐스터 어시스턴트입니다. 오늘의 날씨는"
)  # 입력문장
print(requestoutput)