Ollama

Самостоятельное размещение Cognee: тесты производительности LLM

Cognee — это фреймворк на Python для создания знаний из документов с использованием LLMs. Но работает ли он с локальными моделями?

BAML против Instructor: Структурированные выходные данные LLM

При работе с большими языковыми моделями в производственной среде получение структурированных, типизированных выходных данных имеет критическое значение. Два популярных фреймворка - BAML и Instructor - предлагают разные подходы к решению этой проблемы.

Выбор правильного LLM для Cognee: настройка локального Ollama

Выбор лучшей LLM для Cognee требует баланса между качеством построения графов, уровнем галлюцинаций и ограничениями оборудования. Cognee лучше всего работает с крупными моделями с низким уровнем галлюцинаций (32B+) через Ollama, но средние по размеру варианты подходят для более легких настроек.

Библиотека Python для Ollama теперь включает в себя нативные возможности поиска в интернете с Ollama. С несколькими строками кода вы можете дополнить свои локальные LLMs актуальной информацией из интернета, снижая вероятность галлюцинаций и повышая точность.

Ollama’s Web Search API позволяет дополнять локальные LLMs актуальной информацией из интернета. Это руководство показывает, как реализовать возможности веб-поиска на Go, от простых API-запросов до полнофункциональных поисковых агентов.

Размещение локальных языковых моделей: Полное руководство на 2025 год - Ollama, vLLM, LocalAI, Jan, LM Studio и другие

Локальное развертывание LLMs стало increasingly popular, так как разработчики и организации стремятся к повышенной конфиденциальности, снижению задержек и большему контролю над своей инфраструктурой ИИ.

Инфраструктура ИИ на потребительском оборудовании

Демократизация ИИ уже здесь. С открытыми моделями ИИ с открытым исходным кодом, такими как Llama 3, Mixtral и Qwen, которые теперь соперничают с проприетарными моделями, команды могут создавать мощную инфраструктуру ИИ с использованием потребительского оборудования - снижая затраты, сохраняя при этом полный контроль над конфиденциальностью данных и развертыванием.

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающей на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).

Docker Model Runner против Ollama: что выбрать?

Запуск больших языковых моделей (LLM) локально стал все более популярным благодаря конфиденциальности, контролю затрат и возможностям работы офлайн. Ландшафт значительно изменился в апреле 2025 года, когда Docker представил Docker Model Runner (DMR), свое официальное решение для развертывания моделей ИИ.

Клиенты Go для Ollama: сравнение SDK и примеры Qwen3/GPT-OSS

Это руководство предоставляет всесторонний обзор доступных Go SDK для Ollama и сравнивает их функциональные возможности.

Вот сравнение между Qwen3:30b и GPT-OSS:20b с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость:

Интеграция Ollama с Python: примеры REST API и клиента на Python

В этой статье мы рассмотрим два способа подключения вашего Python-приложения к Ollama: 1. Через HTTP REST API; 2. Через официальную библиотеку Ollama для Python.

Проблемы со структурированным выводом в Ollama GPT-OSS

Модели GPT-OSS от Ollama регулярно сталкиваются с проблемами при работе со структурированным выводом, особенно в сочетании с фреймворками, такими как LangChain, OpenAI SDK, vllm и другими.

LLM и структурированный вывод: Ollama, Qwen3 & Python или Go

Большие языковые модели (LLM) мощные, но в производстве мы редко хотим свободноформатных абзацев. Вместо этого нам нужны предсказуемые данные: атрибуты, факты или структурированные объекты, которые можно передать в приложение. Это Структурированный вывод LLM.

Планировщик моделей и распределения памяти в новой версии Ollama - v0.12.1

Здесь я сравниваю, сколько видеопамяти новая версия Ollama выделяет для модели по сравнению с предыдущей версией. Новая версия работает хуже.

Ollama быстро стал одним из самых популярных инструментов для запуска локальных больших языковых моделей. Его простой интерфейс командной строки и упрощенное управление моделями сделали его предпочтительным вариантом для разработчиков, желающих работать с моделями ИИ вне облака. Но как и многие перспективные платформы, уже появляются признаки Enshittification:

Ollama

Самостоятельное размещение Cognee: тесты производительности LLM

BAML против Instructor: Структурированные выходные данные LLM

Выбор правильного LLM для Cognee: настройка локального Ollama

API веб-поиска Ollama в Python

API веб-поиска Ollama в Go

Размещение локальных языковых моделей: Полное руководство на 2025 год - Ollama, vLLM, LocalAI, Jan, LM Studio и другие

Инфраструктура ИИ на потребительском оборудовании

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Docker Model Runner против Ollama: что выбрать?

Клиенты Go для Ollama: сравнение SDK и примеры Qwen3/GPT-OSS

Сравнение: Qwen3:30b против GPT-OSS:20b

Интеграция Ollama с Python: примеры REST API и клиента на Python

Проблемы со структурированным выводом в Ollama GPT-OSS

LLM и структурированный вывод: Ollama, Qwen3 & Python или Go

Планировщик моделей и распределения памяти в новой версии Ollama - v0.12.1

Оллама Эншитификация - ранние признаки