요즘 ChatGPT, Claude 같은 AI 서비스를 쓰다 보면 한 가지 고민이 생깁니다. "내 데이터가 외부 서버로 나가는 건 괜찮은 걸까?" 혹은 "인터넷 없이도 AI를 쓸 수 있으면 좋겠는데…" 이런 분들에게Ollama는 정말 반가운 도구이다. 오늘은로컬 LLM의 대표 주자인 Ollama 설치부터 실전 활용까지, 직접 써본 경험을 바탕으로 솔직하게 정리해 보겠다.
Ollama란 무엇인가?
1-1. 로컬 LLM의 개념
로컬 LLM이란 클라우드 서버가 아닌 내 컴퓨터에서 직접 돌리는 대규모 언어 모델을 말한다. 데이터가 외부로 전송되지 않기 때문에 프라이버시가 보장되고, 인터넷 연결 없이도 AI를 사용할 수 있다는 게 가장 큰 장점이다. 기업 내부 문서 분석이나 민감한 코드 리뷰처럼 보안이 중요한 작업에 특히 유용하다.
1-2. Ollama가 주목받는 이유
Ollama는 로컬 LLM을 누구나 쉽게 설치하고 실행할 수 있도록 만든오픈소스 AI도구이다. 기존에는 로컬에서 LLM을 돌리려면 Python 환경 세팅, 모델 변환, 의존성 관리 등 복잡한 과정을 거쳐야 했다. Ollama는 이 모든 과정을 단 한두 줄의 명령어로 해결해 준다. Docker처럼 모델을 pull 받아서 바로 실행하는 방식이라, 개발자가 아니어도 충분히 따라할 수 있다. 2025년 7월 v0.10부터는 터미널이 부담스러운 사용자를 위해 채팅 UI가 내장된 공식 데스크톱 앱(macOS·Windows)도 함께 제공한다.
1-3. 지원 모델 한눈에 보기 (2026년 6월 기준)
Ollama는 다양한 오픈소스 모델을 지원한다. 모델 라인업은 빠르게 갱신되므로, 글에 박제된 옛 태그보다는 ollama.com/library에서 현재 태그를 확인하는 습관이 중요하다. 2026년 6월 기준 자주 쓰이는 모델은 다음과 같다.
- 일반 대화·요약: Meta의
llama3.3(70B, 405B급 성능에 도구 호출 지원), Alibaba의qwen3(0.6B~235B MoE까지 다양), Google의gemma3(1B~27B, 128K 컨텍스트·이미지 입력 지원) - 추론(reasoning) 특화:
deepseek-r1(671B 원본 MoE이며1.5b·7b·8b·14b·32b·70b는 Qwen/Llama 기반 distill), Microsoft의phi4(14B로 수학·논리에서 30B급 능가) - 경량·소형: OpenAI의
gpt-oss:20b(16GB급에서 추론 강도 조절 가능),gemma3:1b,qwen3:1.7b - 코딩:
qwen3-coder,deepseek-coder-v2등 코드 특화 모델 - 장문·멀티모달:
llama4Scout 계열(매우 긴 컨텍스트, 이미지 입력)
Ollama 설치 방법 (OS별 가이드)
2-1. Windows 설치
Windows에서는 공식 사이트(ollama.com)에서 설치 파일을 다운로드한 뒤 실행하면 된다. 설치가 완료되면 시스템 트레이에 Ollama 아이콘이 나타나고, v0.10부터는 채팅 UI가 내장된 데스크톱 앱도 함께 설치된다. 터미널이 익숙하다면 PowerShell 또는 CMD를 열고 아래처럼 모델을 실행하면 다운로드와 실행이 한 번에 진행된다. GPU가 있다면 CUDA를 자동 감지해서 GPU 가속을 활용한다.
ollama run llama3.3:8b
# 추론 특화 모델
ollama run deepseek-r1:8b
# 경량 모델 (저사양 GPU)
ollama run gemma3:1b
2-2. macOS 설치
macOS 사용자라면 공식 사이트에서 dmg 파일을 받거나, Homebrew를 통해brew install ollama한 줄로 설치할 수 있다. Apple Silicon(M1/M2/M3/M4) 칩에서는 Metal GPU 가속을 자동으로 활용하기 때문에 생각보다 꽤 빠른 응답 속도를 경험할 수 있다. 개인적으로 M2 Pro 기준 8B급 모델이 초당 약 30토큰 정도로 충분히 쾌적했다. 데스크톱 앱에서는 텍스트·PDF 드래그 앤 드롭과 이미지 입력(예: Gemma 3)도 지원한다.
2-3. Linux 설치
Linux에서는 공식 설치 스크립트 한 줄이면 끝이다.curl -fsSL https://ollama.com/install.sh | sh를 실행하면 자동으로 설치되고, systemd 서비스로 등록된다. NVIDIA GPU 사용자는 CUDA 드라이버만 미리 설치해 두면 별도 설정 없이 GPU 가속이 적용된다. (공식 GUI 앱은 아직 macOS·Windows 전용이며 Linux는 CLI 중심이다.)
실전 활용법과 꿀팁
3-1. 기본 명령어 익히기
Ollama의 핵심 명령어는 매우 간단하다.ollama pull 모델명으로 모델을 미리 다운로드하고,ollama run 모델명으로 대화를 시작한다.ollama list로 설치된 모델 목록을 확인하고,ollama rm 모델명으로 불필요한 모델을 삭제할 수 있다. 실행 중인 모델과 메모리 점유는ollama ps로 확인한다. REST API도 기본 제공되어localhost:11434로 다른 애플리케이션에서 호출할 수 있다.
ollama run qwen3:8b # 대화 시작
ollama list # 설치된 모델 목록
ollama ps # 실행 중인 모델·메모리 확인
ollama rm qwen3:8b # 모델 삭제
ollama show qwen3:8b # 파라미터·템플릿·라이선스 확인
3-2. 실제 사용 팁 모음
- 팁 1: 용도별 모델 선택이 핵심이다.일반 대화나 요약에는 Llama 3.3 8B나 Qwen 3 8B, 추론·수학에는 DeepSeek-R1이나 Phi-4, 코딩에는 Qwen3-Coder나 DeepSeek-Coder-V2, 가벼운 작업에는 Gemma 3 1B를 추천한다. 무조건 큰 모델이 좋은 게 아니라 VRAM과 용도에 맞는 모델을 고르는 것이 훨씬 중요하다.
- 팁 2: Modelfile로 나만의 AI 비서를 만들자.Ollama는 Dockerfile과 비슷한 Modelfile 문법을 지원한다. 시스템 프롬프트, 온도(temperature), 컨텍스트 길이 등을 미리 설정해서 나만의 커스텀 모델을 만들 수 있다. 아래는 "한국어로만 답하는 번역 도우미"를 만드는 예시다.ModelfileFROM qwen3:8b
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
SYSTEM "너는 한국어 번역 전문가다. 입력 문장을 자연스러운 한국어로만 번역하고, 부연 설명은 하지 않는다."빌드 & 실행ollama create ko-translator -f ./Modelfile
ollama run ko-translator - 팁 3: 공식 데스크톱 앱이나 Open WebUI로 ChatGPT 같은 UI를 얻자.v0.10부터 macOS·Windows에서는 채팅 UI가 내장된 공식 앱을 바로 쓸 수 있다. 더 풍부한 기능(대화 기록, 다중 사용자, RAG 등)을 원하면 Open WebUI(구 Ollama WebUI)를 함께 설치하면 브라우저에서 ChatGPT와 거의 동일한 인터페이스로 대화할 수 있다. Docker로 간단히 띄울 수 있고, Jan·Chatbox·Enchanted 같은 서드파티 클라이언트도 선택지가 많다.
- 팁 4: GPU VRAM이 부족하면 양자화 모델을 활용하자.같은 모델이라도 Q4_K_M, Q5_K_M, Q8_0 등 양자화 수준에 따라 VRAM 사용량이 크게 달라진다. 대부분의 사용자에게는 품질·속도·메모리 균형이 가장 좋은Q4_K_M이 기본 추천이고, 여유가 있으면 Q5_K_M, 원본에 가까운 품질이 필요하면 Q8_0을 고른다. 8GB VRAM이라면 7B~8B 모델의 Q4_K_M이 적당하고, 12GB면 14B(Phi-4·Qwen3 14B), 16~24GB면 27B~32B(Gemma 3 27B·Qwen3 32B)까지 돌릴 수 있다.
3-3. API 연동으로 확장하기
Ollama는OpenAI 호환 API를 제공하기 때문에, 기존에 OpenAI API를 사용하던 코드에서 엔드포인트 주소만http://localhost:11434/v1로 바꾸면 거의 그대로 동작한다. API 키는 임의 문자열을 넣어도 무방하다. LangChain, LlamaIndex 같은 프레임워크와도 매끄럽게 연동되어, RAG(검색 증강 생성) 파이프라인을 로컬에서 구축하는 것도 가능하다. 회사 내부 문서를 임베딩해서 사내 전용 AI 검색 시스템을 만드는 사례도 실제로 많다.
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # 아무 값이나 가능
)
resp = client.chat.completions.create(
model="llama3.3:8b",
messages=[{"role": "user", "content": "로컬 LLM의 장점을 3가지로 요약해줘"}],
)
print(resp.choices[0].message.content)
"model": "qwen3:8b",
"messages": [{ "role": "user", "content": "안녕?" }],
"stream": false
}'
2026년 흐름: Ollama로 '로컬 AI 에이전트'까지
2026년 들어 로컬 LLM의 쓰임새가 단순 '채팅'을 넘어 '에이전트'로 빠르게 이동하고 있다. Ollama로 모델을 띄워두고 그 위에 스스로 일을 처리하는 에이전트를 얹는 조합이 부쩍 늘었다. 흥미로운 건 이 흐름을 이끄는 도구들이 하나같이 local-first, 즉 데이터가 내 기기를 벗어나지 않는 설계를 내세운다는 점이다. 대표 주자가 OpenClaw와 Hermes Agent다.
OpenClaw — 내 PC의 게이트웨이형 에이전트
OpenClaw는 2026년 초 GitHub 10만 스타를 빠르게 넘긴 오픈소스 개인 에이전트다. 챗봇이 아니라 내 컴퓨터(또는 VPS)에서 도는 '게이트웨이' 프로세스로, 텔레그램·디스코드·슬랙·WhatsApp처럼 평소 쓰는 메신저로 들어온 메시지를 LLM 에이전트로 라우팅한다. 단순 응답을 넘어 실제 작업까지 수행하는 게 핵심이다. 모델을 가리지 않아서 Claude·GPT·Gemini는 물론 Ollama로 띄운 로컬 모델도 그대로 붙는다. 세션 간 기억은 마크다운과 SQLite로 유지해, 쓸수록 내 작업 패턴을 학습한다. 6월에 공개된 2026.6.5-beta.5에서는 로컬 LLM 연동, 오류 자동 복구(agent recovery), 도구 모음(tool catalog)이 한층 개선됐다.
Hermes Agent — 스스로 배우는 자가발전 에이전트
Hermes Agent는 Hermes 모델 시리즈로 알려진 Nous Research가 2026년 2월 공개한 자체 호스팅 에이전트다. 내 인프라에서 상주 데몬으로 돌며, 작업이 끝날 때마다 성공 여부를 스스로 평가해 재사용 가능한 '스킬 파일'(마크다운)로 저장한다. 다음에 비슷한 일이 오면 처음부터 추론하지 않고 저장된 스킬을 꺼내 쓴다. 공개 자료에 따르면 스킬이 20개 이상 쌓인 에이전트는 비슷한 작업을 약 40% 빠르게 처리한다고 한다. 이쪽도 Anthropic·OpenAI·Google은 물론 Ollama 로컬 모델을 지원해서, 둘을 묶으면 토큰 비용도 호출 제한도 없이 내 하드웨어에서만 도는 자가발전 에이전트가 된다. 6월 2일에는 macOS용 데스크톱 앱(공개 프리뷰)도 나와 진입 장벽이 더 낮아졌다.
두 도구의 공통점은 프롬프트가 내 기기를 벗어나지 않는다는 것이다. 그만큼 프라이버시가 중요한 작업일수록 'Ollama + 로컬 에이전트' 조합의 매력이 커진다. 다만 아직 베타·프리뷰 단계이고, 메신저나 파일 시스템에 실제로 '행동'하는 도구인 만큼 중요한 자동화에 연결하기 전에 권한 범위와 도구 실행 로그를 반드시 확인하는 게 안전하다. 프레임워크 단위로 여러 에이전트를 조립하고 싶다면 CrewAI·AutoGen 비교 글도 함께 참고하면 좋다.
참고: OpenClaw 공식 문서·GitHub, Nous Research Hermes Agent 및 NVIDIA 개발자 블로그(2026년 6월 기준).
장단점 비교
4-1. 클라우드 AI vs 로컬 LLM 비교표
| 비교 항목 | 클라우드 AI (ChatGPT 등) | 로컬 LLM (Ollama) |
|---|---|---|
| 데이터 프라이버시 | 외부 서버 전송 (정책에 따라 학습에 활용 가능) | 내 컴퓨터에서만 처리, 완전한 프라이버시 보장 |
| 인터넷 필요 여부 | 필수 | 모델 다운로드 후 오프라인 사용 가능 |
| 비용 | 월 구독료 또는 토큰당 과금 | 완전 무료 (전기세와 하드웨어 비용만) |
| 응답 품질 | 최신 대형 모델로 높은 품질 | 모델 크기에 따라 다소 차이 있음 |
| 응답 속도 | 서버 상황에 따라 변동 | 하드웨어 성능에 비례, GPU 있으면 빠름 |
| 커스터마이징 | 제한적 (시스템 프롬프트 수준) | 모델 파인튜닝, Modelfile 등 자유도 높음 |
| 초기 설정 난이도 | 회원가입만 하면 바로 사용 | 설치 필요하지만 Ollama 덕에 매우 쉬워짐 |
| 하드웨어 요구사항 | 없음 | 최소 8GB RAM, GPU 권장 |
4-2. 솔직한 체감 후기
솔직히 말하면, 소비자용 GPU(8~16GB)에서 돌릴 수 있는 8B~14B급 모델이 최신 GPT나 Claude 수준의 품질을 내기는 여전히 어렵다. 특히 복잡한 추론이나 긴 맥락의 대화에서는 체감 차이가 분명히 있다. 다만 격차는 빠르게 좁혀지는 중이라, Phi-4 14B나 DeepSeek-R1 distill처럼 작은 모델이 수학·논리에서 의외로 잘하는 경우도 많다. 또한 24GB급 VRAM이 있으면 Qwen3 32B나 Gemma 3 27B 같은 모델로 한층 높은 품질을 로컬에서 얻을 수 있다. 간단한 코드 생성, 텍스트 요약, 번역, 문서 초안 작성에서는 충분히 실용적이며, 무엇보다 API 호출 비용이 전혀 들지 않으니 대량 처리 작업에서는 오히려로컬 LLM이 경제적으로 압도적인 우위를 가진다.
마무리: 누구에게 추천할까?
5-1. 이런 분들에게 강력 추천합니다
- 데이터 보안이 중요한 개발자와 기업:사내 코드나 기밀 문서를 AI로 분석하고 싶지만 외부 유출이 걱정되는 분들에게Ollama는 최적의 선택이다.
- AI 개발을 공부하는 학생과 입문자:비용 걱정 없이 다양한오픈소스 AI모델을 직접 실험해 볼 수 있어 학습용으로 최고이다.
- API 비용을 절감하고 싶은 스타트업:대량의 텍스트 처리가 필요한데 OpenAI API 비용이 부담되는 경우, 로컬 LLM으로 전환하면 상당한 비용을 아낄 수 있다.
- 오프라인 환경에서 AI가 필요한 분:비행기 안, 보안 네트워크, 인터넷이 불안정한 환경에서도 AI를 활용해야 하는 분들에게 유용하다.
5-2. 이런 분들은 클라우드 AI가 나을 수 있습니다
- 최고 수준의 응답 품질이 항상 필요한 경우
- GPU가 없는 저사양 PC만 보유한 경우
- 설치나 관리에 시간을 쓰고 싶지 않은 경우
Ollama와로컬 LLM은 클라우드 AI를 완전히 대체하는 도구가 아니라, 상호 보완적인 관계로 보는 것이 맞다. 보안이 필요한 작업은 로컬에서, 고품질 결과가 필요한 작업은 클라우드에서 처리하는 하이브리드 방식이 현실적으로 가장 현명한 전략이다. 아직오픈소스 AI모델을 직접 돌려본 적 없다면, 오늘 바로 Ollama를 설치해서 경험해 보시길 추천한다. 공식 데스크톱 앱 덕분에 진입 장벽도 예전보다 훨씬 낮아졌고, 한번 맛보면 빠져들 것이다.