오픈소스 대형 언어 모델(LLM)이 가파르게 발전하면서, 모델을 로컬 환경이나 자체 서버에서 빠르고 효율적으로 서빙하기 위한 '추론(Inference) 가속 엔진'의 중요성이 커지고 있습니다. 각 도구들은 태생적인 개발 목적과 메인으로 타겟팅하는 하드웨어가 다르기 때문에 상황에 맞는 엔진을 선택하는 것이 필수적입니다.이 글에서는 현재 로컬 구동 및 서버 LLM 서빙 체계의 3대장이라 부를 수 있는 llama.cpp, vLLM, 그리고 MLX의 개발 목적, 기술적 장점, 지원 모델 포맷, 간단한 실행 방법을 비교해 보겠습니다.1. llama.cpp📌 개발 목적 및 플랫폼 언어개발 목적: 초기에는 Apple M시리즈 맥북에서 순수 C/C++만으로 메타(Meta)의 LLaMA 모델을 빠르고 가볍게 구동하기 ..