Ollama

Autonomiczne hostowanie Cognee: Testy wydajności modelu LLM

Cognee to framework w języku Python do tworzenia grafów wiedzy z dokumentów za pomocą LLM. Ale działa on z modelami samowystawianymi?

BAML vs Instruktor: Strukturalne wyjścia modeli językowych

Pracując z modelami dużych języków w środowisku produkcyjnym, uzyskiwanie strukturalnych, typowo bezpiecznych wyjść jest krytyczne. Dwa popularne frameworki – BAML i Instructor – podejmują różne podejścia do rozwiązywania tego problemu.

Wybór odpowiedniego LLM dla Cognee: lokalna konfiguracja Ollama

Wybór najlepszego LLM dla Cognee wymaga balansowania jakości budowania grafów, poziomu halucynacji i ograniczeń sprzętowych.
Cognee wyróżnia się w przypadku większych modeli o niskim poziomie halucynacji (32B+) za pomocą Ollama, ale opcje średniego rozmiaru działają dobrze w przypadku prostszych konfiguracji.

Użycie interfejsu API Ollama Web Search w Pythonie

Biblioteka Pythona Ollama zawiera teraz natywne możliwości wyszukiwania w sieci OLlama web search. Dzięki kilku linijkom kodu możesz wzbogacić swoje lokalne modele językowe o rzeczywiste informacje z sieci, zmniejszając halucynacje i poprawiając dokładność.

Użycie interfejsu API Ollama Web Search w Go

API do wyszukiwania w sieci Ollama pozwala na wzbogacenie lokalnych modeli językowych danymi z sieci w czasie rzeczywistym. Niniejszy przewodnik pokazuje, jak zaimplementować możliwości wyszukiwania w sieci w Go, od prostych wywołań API po pełne agenty wyszukiwania.

Lokalne hostowanie LLM: Pełny przewodnik 2025 - Ollama, vLLM, LocalAI, Jan, LM Studio i inne

Lokalna wdrażanie LLM stało się coraz bardziej popularne, ponieważ programiści i organizacje poszukują większej prywatności, mniejszej opóźnienia i większej kontroli nad swoją infrastrukturą AI.

Infrastruktura AI na sprzęcie konsumentowym

Demokratyzacja AI jest tu. Z powodu otwartych źródeł LLM takich jak Llama 3, Mixtral i Qwen, które teraz rywalizują z modelami prywatnymi, zespoły mogą tworzyć potężną infrastrukturę AI za pomocą sprzętu konsumenta - znacznie obniżając koszty, jednocześnie utrzymując pełną kontrolę nad prywatnością danych i wdrażaniem.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama

Znalazłem kilka ciekawych testów wydajności GPT-OSS 120b działającego na Ollama na trzech różnych platformach: NVIDIA DGX Spark, Mac Studio i RTX 4080. Model GPT-OSS 120b z biblioteki Ollama waży 65 GB, co oznacza, że nie mieści się w 16 GB VRAM na RTX 4080 (ani w nowszej RTX 5080).

Docker Model Runner vs Ollama: Który wybrać?

Uruchamianie dużych modeli językowych (LLM) lokalnie staje się coraz bardziej popularne ze względu na prywatność, kontrolę kosztów i możliwości offline. Landscape zmienił się znacząco w kwietniu 2025 roku, gdy Docker wprowadził Docker Model Runner (DMR), oficjalne rozwiązanie do wdrażania modeli AI.

Klienci Go dla Ollama: porównanie SDK oraz przykłady Qwen3/GPT-OSS

Ten przewodnik oferuje kompleksowy przegląd dostępnych Go SDKs dla Ollama i porównuje ich zestawy funkcji.

Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości:

Integracja Ollama z Pythonem: Przykłady API REST i klienta w Pythonie

W tym wpisie omówimy dwa sposoby łączenia swojej aplikacji Python z Ollama: 1. Poprzez HTTP REST API; 2. Poprzez oficjalną bibliotekę Pythona dla Ollama.

Problemy z wyjściowym formatem strukturyzowanym w Ollama GPT-OSS

Modele GPT-OSS z Ollama mają powtarzające się problemy z obsługą strukturalnego wyjścia, zwłaszcza gdy są używane wraz z frameworkami takimi jak LangChain, OpenAI SDK, vllm i innymi.

Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go

Duże modele językowe (LLMs)
są potężne, ale w środowisku produkcyjnym rzadko chcemy wolnych paragrafów.
Zamiast tego chcemy przewidywalne dane: atrybuty, fakty lub strukturalne obiekty, które można przekazać do aplikacji.
To Strukturalne wyjście LLM.

Model planowania przydzielania pamięci w nowej wersji Ollama - v0.12.1

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi
z poprzednią wersją Ollama. Nowa wersja jest gorsza.

Enshittification Ollama – wczesne objawy

Ollama szybko stało się jednym z najpopularniejszych narzędzi do lokalnego uruchamiania modeli językowych. Jego prosty interfejs CLI oraz zoptymalizowany zarządzanie modelami sprawiły, że stał się pierwszym wyborem dla programistów, którzy chcą pracować z modelami AI poza chmurą. Ale tak jak w przypadku wielu obiecujących platform, już teraz pojawiają się pierwsze oznaki Enshittification: