Ollama에서 가장 인기 있는 명령어는 무엇인가요?

Ollama에서 가장 인기 있는 명령은 다음과 같습니다: ollama list, ollama pull, ollama rm, ollama run

Ollama 빠른 참고서 - 가장 유용한 명령어

얼마 전에 이 오알라마 명령어 목록을 정리했습니다.

Page content

이것은 가장 유용한 Ollama 명령어 목록과 예시입니다 (Ollama 명령어 참고서)
일전에 제가 정리한 것입니다.
당신에게도 유용할 것으로 기대합니다 (여기로).

ollama cheatsheet

이 Ollama 참고서는 CLI 명령어, 모델 관리 및 커스터마이징에 초점을 맞추고 있습니다.
하지만 여기에도 curl 호출도 포함되어 있습니다.

설치

옵션 1: 웹사이트에서 다운로드
- ollama.com에 방문하여 운영체제(Mac, Linux 또는 Windows)에 맞는 설치 프로그램을 다운로드합니다.
옵션 2: 명령줄에서 설치
- Mac 및 Linux 사용자는 다음 명령을 사용합니다:

curl https://ollama.ai/install.sh | sh

화면에 표시된 지시사항을 따르고, 비밀번호가 요청되면 입력합니다.

시스템 요구 사항

운영체제: Mac 또는 Linux (Windows 버전은 개발 중)
메모리 (RAM): 최소 8GB, 16GB 이상 권장
저장공간: 최소 약 10GB의 여유 공간 (모델 파일은 매우 크므로, 여기에서 더 자세히 확인하세요 Ollama 모델을 다른 드라이브로 이동)
프로세서: 최근 5년 이내의 비교적 현대적인 CPU

기본 Ollama CLI 명령어

명령어	설명
`ollama serve`	로컬 시스템에서 Ollama를 시작합니다.
`ollama create <new_model>`	기존 모델에서 새로운 모델을 생성하여 커스터마이징 또는 훈련에 사용합니다.
`ollama show <model>`	특정 모델에 대한 세부 정보(예: 구성 및 출시 날짜)를 표시합니다.
`ollama run <model>`	지정된 모델을 실행하여 상호작용 준비를 합니다.
`ollama pull <model>`	지정된 모델을 시스템에 다운로드합니다.
`ollama list`	다운로드된 모든 모델을 나열합니다. `ollama ls`와 동일합니다.
`ollama ps`	현재 실행 중인 모델을 표시합니다.
`ollama stop <model>`	지정된 실행 중인 모델을 중지합니다.
`ollama rm <model>`	지정된 모델을 시스템에서 제거합니다.
`ollama help`	어떤 명령에 대한 도움을 제공합니다.

모델 관리

모델 다운로드:
```
ollama pull mistral-nemo:12b-instruct-2407-q6_K
```
이 명령어는 지정된 모델(예: Gemma 2B 또는 mistral-nemo:12b-instruct-2407-q6_K)을 시스템에 다운로드합니다.
모델 파일은 매우 크므로, 하드디스크 또는 SSD에서 모델이 사용하는 공간을 주의 깊게 확인해야 합니다.
심지어 모든 Ollama 모델을 홈 디렉토리에서 더 큰 및 더 나은 드라이브로 이동하는 것도 고려할 수 있습니다 여기에서
모델 실행:
```
ollama run qwen2.5:32b-instruct-q3_K_S
```
이 명령어는 지정된 모델을 실행하고 상호작용을 위한 인터랙티브 REPL을 열어줍니다.

모델 목록:

ollama list

이와 동일합니다:

ollama ls

이 명령어는 시스템에 다운로드된 모든 모델을 나열합니다, 예를 들어:

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago

모델 중지:
```
ollama stop llama3.1:8b-instruct-q8_0
```
이 명령어는 지정된 실행 중인 모델을 중지합니다.

VRAM에서 모델 해제

모델이 VRAM(GPU 메모리)에 로드되면 사용이 끝난 후에도 그대로 남아 있습니다. 모델을 VRAM에서 명시적으로 해제하고 GPU 메모리를 해제하려면 Ollama API에 keep_alive: 0을 포함한 요청을 보낼 수 있습니다.

curl을 사용하여 VRAM에서 모델 해제:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

MODELNAME을 실제 모델 이름으로 대체하세요, 예를 들어:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Python을 사용하여 VRAM에서 모델 해제:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

이것은 다음과 같은 상황에서 특히 유용합니다:

다른 애플리케이션을 위해 GPU 메모리를 해제해야 할 때
여러 모델을 실행하고 VRAM 사용량을 관리하고 싶을 때
대규모 모델 사용을 완료하고 즉시 자원을 해제하고 싶을 때

참고: keep_alive 매개변수는 마지막 요청 후 모델이 메모리에 로드된 시간(초)을 제어합니다. 0으로 설정하면 모델이 즉시 VRAM에서 해제됩니다.

모델 커스터마이징

시스템 프롬프트 설정: Ollama REPL 내에서 모델의 행동을 커스터마이징하기 위해 시스템 프롬프트를 설정할 수 있습니다:
```
>>> /set system 모든 질문에 대해 가능한 한 기술 용어를 피하고 일반 영어로 답변하세요
>>> /save ipe
>>> /bye
```
그런 다음 커스터마이징된 모델을 실행합니다:
```
ollama run ipe
```
이는 시스템 프롬프트를 설정하고 모델을 향후 사용을 위해 저장합니다.
커스터마이징된 모델 파일 생성: custom_model.txt와 같은 텍스트 파일을 생성하고 다음 구조를 사용하세요:
```
FROM llama3.1
SYSTEM [여기서 커스터마이징된 지시사항을 입력하세요]
```
그런 다음 실행합니다:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
이는 파일에 있는 지시사항을 기반으로 커스터마이징된 모델을 생성합니다.

파일과 함께 Ollama 사용

파일에서 텍스트 요약:
```
ollama run llama3.2 "이 파일의 내용을 50단어로 요약해주세요." < input.txt
```
이 명령어는 지정된 모델을 사용하여 input.txt의 내용을 요약합니다.
모델 응답을 파일에 기록:
```
ollama run llama3.2 "재생 가능한 에너지에 대해 말해주세요." > output.txt
```
이 명령어는 모델의 응답을 output.txt에 저장합니다.

일반적인 사용 사례

텍스트 생성:

대규모 텍스트 파일 요약:

ollama run llama3.2 "다음 텍스트를 요약해주세요:" < long-document.txt

콘텐츠 생성:

ollama run llama3.2 "의료 분야에서 AI 사용의 이점을 다룬 짧은 기사를 작성해주세요." > article.txt

특정 질문에 답변:

ollama run llama3.2 "AI의 최신 트렌드는 무엇이며, 이는 의료에 어떤 영향을 미칠까요?"

데이터 처리 및 분석:
- 텍스트를 긍정, 부정, 중립 감정으로 분류:
```
ollama run llama3.2 "이 고객 리뷰의 감정을 분석해주세요: '제품은 훌륭하지만 배송이 느렸습니다.'"
```
- 사전 정의된 범주로 텍스트 분류: 유사한 명령어를 사용하여 사전 정의된 기준에 따라 텍스트를 분류하거나 범주화할 수 있습니다.

Python과 함께 Ollama 사용

Ollama Python 라이브러리 설치:
```
pip install ollama
```
Python을 사용한 텍스트 생성:
```
import ollama

response = ollama.generate(model='gemma:2b', prompt='큐비트란 무엇인가요?')
print(response['response'])
```
이 코드 조각은 지정된 모델과 프롬프트를 사용하여 텍스트를 생성합니다.

설치