Ollama 빠른 참고서 - 가장 유용한 명령어
얼마 전에 이 오알라마 명령어 목록을 정리했습니다.
이것은 가장 유용한 Ollama 명령어 목록과 예시입니다 (Ollama 명령어 참고서)
일전에 제가 정리한 것입니다.
당신에게도 유용할 것으로 기대합니다 (여기로).

이 Ollama 참고서는 CLI 명령어, 모델 관리 및 커스터마이징에 초점을 맞추고 있습니다.
하지만 여기에도 curl 호출도 포함되어 있습니다.
설치
- 옵션 1: 웹사이트에서 다운로드
- ollama.com에 방문하여 운영체제(Mac, Linux 또는 Windows)에 맞는 설치 프로그램을 다운로드합니다.
- 옵션 2: 명령줄에서 설치
- Mac 및 Linux 사용자는 다음 명령을 사용합니다:
curl https://ollama.ai/install.sh | sh
- 화면에 표시된 지시사항을 따르고, 비밀번호가 요청되면 입력합니다.
시스템 요구 사항
- 운영체제: Mac 또는 Linux (Windows 버전은 개발 중)
- 메모리 (RAM): 최소 8GB, 16GB 이상 권장
- 저장공간: 최소 약 10GB의 여유 공간 (모델 파일은 매우 크므로, 여기에서 더 자세히 확인하세요 Ollama 모델을 다른 드라이브로 이동)
- 프로세서: 최근 5년 이내의 비교적 현대적인 CPU
기본 Ollama CLI 명령어
| 명령어 | 설명 |
|---|---|
ollama serve |
로컬 시스템에서 Ollama를 시작합니다. |
ollama create <new_model> |
기존 모델에서 새로운 모델을 생성하여 커스터마이징 또는 훈련에 사용합니다. |
ollama show <model> |
특정 모델에 대한 세부 정보(예: 구성 및 출시 날짜)를 표시합니다. |
ollama run <model> |
지정된 모델을 실행하여 상호작용 준비를 합니다. |
ollama pull <model> |
지정된 모델을 시스템에 다운로드합니다. |
ollama list |
다운로드된 모든 모델을 나열합니다. ollama ls와 동일합니다. |
ollama ps |
현재 실행 중인 모델을 표시합니다. |
ollama stop <model> |
지정된 실행 중인 모델을 중지합니다. |
ollama rm <model> |
지정된 모델을 시스템에서 제거합니다. |
ollama help |
어떤 명령에 대한 도움을 제공합니다. |
모델 관리
-
모델 다운로드:
ollama pull mistral-nemo:12b-instruct-2407-q6_K이 명령어는 지정된 모델(예: Gemma 2B 또는 mistral-nemo:12b-instruct-2407-q6_K)을 시스템에 다운로드합니다.
모델 파일은 매우 크므로, 하드디스크 또는 SSD에서 모델이 사용하는 공간을 주의 깊게 확인해야 합니다.
심지어 모든 Ollama 모델을 홈 디렉토리에서 더 큰 및 더 나은 드라이브로 이동하는 것도 고려할 수 있습니다 여기에서 -
모델 실행:
ollama run qwen2.5:32b-instruct-q3_K_S이 명령어는 지정된 모델을 실행하고 상호작용을 위한 인터랙티브 REPL을 열어줍니다.
-
모델 목록:
ollama list이와 동일합니다:
ollama ls이 명령어는 시스템에 다운로드된 모든 모델을 나열합니다, 예를 들어:
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago -
모델 중지:
ollama stop llama3.1:8b-instruct-q8_0이 명령어는 지정된 실행 중인 모델을 중지합니다.
VRAM에서 모델 해제
모델이 VRAM(GPU 메모리)에 로드되면 사용이 끝난 후에도 그대로 남아 있습니다. 모델을 VRAM에서 명시적으로 해제하고 GPU 메모리를 해제하려면 Ollama API에 keep_alive: 0을 포함한 요청을 보낼 수 있습니다.
- curl을 사용하여 VRAM에서 모델 해제:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
MODELNAME을 실제 모델 이름으로 대체하세요, 예를 들어:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Python을 사용하여 VRAM에서 모델 해제:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
이것은 다음과 같은 상황에서 특히 유용합니다:
- 다른 애플리케이션을 위해 GPU 메모리를 해제해야 할 때
- 여러 모델을 실행하고 VRAM 사용량을 관리하고 싶을 때
- 대규모 모델 사용을 완료하고 즉시 자원을 해제하고 싶을 때
참고: keep_alive 매개변수는 마지막 요청 후 모델이 메모리에 로드된 시간(초)을 제어합니다. 0으로 설정하면 모델이 즉시 VRAM에서 해제됩니다.
모델 커스터마이징
-
시스템 프롬프트 설정: Ollama REPL 내에서 모델의 행동을 커스터마이징하기 위해 시스템 프롬프트를 설정할 수 있습니다:
>>> /set system 모든 질문에 대해 가능한 한 기술 용어를 피하고 일반 영어로 답변하세요 >>> /save ipe >>> /bye그런 다음 커스터마이징된 모델을 실행합니다:
ollama run ipe이는 시스템 프롬프트를 설정하고 모델을 향후 사용을 위해 저장합니다.
-
커스터마이징된 모델 파일 생성:
custom_model.txt와 같은 텍스트 파일을 생성하고 다음 구조를 사용하세요:FROM llama3.1 SYSTEM [여기서 커스터마이징된 지시사항을 입력하세요]그런 다음 실행합니다:
ollama create mymodel -f custom_model.txt ollama run mymodel이는 파일에 있는 지시사항을 기반으로 커스터마이징된 모델을 생성합니다.
파일과 함께 Ollama 사용
-
파일에서 텍스트 요약:
ollama run llama3.2 "이 파일의 내용을 50단어로 요약해주세요." < input.txt이 명령어는 지정된 모델을 사용하여
input.txt의 내용을 요약합니다. -
모델 응답을 파일에 기록:
ollama run llama3.2 "재생 가능한 에너지에 대해 말해주세요." > output.txt이 명령어는 모델의 응답을
output.txt에 저장합니다.
일반적인 사용 사례
-
텍스트 생성:
- 대규모 텍스트 파일 요약:
ollama run llama3.2 "다음 텍스트를 요약해주세요:" < long-document.txt - 콘텐츠 생성:
ollama run llama3.2 "의료 분야에서 AI 사용의 이점을 다룬 짧은 기사를 작성해주세요." > article.txt - 특정 질문에 답변:
ollama run llama3.2 "AI의 최신 트렌드는 무엇이며, 이는 의료에 어떤 영향을 미칠까요?"
.
- 대규모 텍스트 파일 요약:
-
데이터 처리 및 분석:
- 텍스트를 긍정, 부정, 중립 감정으로 분류:
ollama run llama3.2 "이 고객 리뷰의 감정을 분석해주세요: '제품은 훌륭하지만 배송이 느렸습니다.'" - 사전 정의된 범주로 텍스트 분류: 유사한 명령어를 사용하여 사전 정의된 기준에 따라 텍스트를 분류하거나 범주화할 수 있습니다.
- 텍스트를 긍정, 부정, 중립 감정으로 분류:
Python과 함께 Ollama 사용
- Ollama Python 라이브러리 설치:
pip install ollama - Python을 사용한 텍스트 생성:
이 코드 조각은 지정된 모델과 프롬프트를 사용하여 텍스트를 생성합니다.
import ollama response = ollama.generate(model='gemma:2b', prompt='큐비트란 무엇인가요?') print(response['response'])