'llama-cpp' 태그의 글 목록

로컬 LLM 가속 엔진 비교: llama.cpp vs vLLM vs MLX

오픈소스 대형 언어 모델(LLM)이 가파르게 발전하면서, 모델을 로컬 환경이나 자체 서버에서 빠르고 효율적으로 서빙하기 위한 '추론(Inference) 가속 엔진'의 중요성이 커지고 있습니다. 각 도구들은 태생적인 개발 목적과 메인으로 타겟팅하는 하드웨어가 다르기 때문에 상황에 맞는 엔진을 선택하는 것이 필수적입니다.이 글에서는 현재 로컬 구동 및 서버 LLM 서빙 체계의 3대장이라 부를 수 있는 llama.cpp, vLLM, 그리고 MLX의 개발 목적, 기술적 장점, 지원 모델 포맷, 간단한 실행 방법을 비교해 보겠습니다.1. llama.cpp📌 개발 목적 및 플랫폼 언어개발 목적: 초기에는 Apple M시리즈 맥북에서 순수 C/C++만으로 메타(Meta)의 LLaMA 모델을 빠르고 가볍게 구동하기 ..

devops 2026.04.15

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

devopslog

llama-cpp 1

티스토리툴바