Интерфейсы LLM

Когда я начал экспериментировать с ЛЛМ, интерфейсы для них находились в стадии активной разработки, и теперь некоторые из них действительно хороши.

!- Jan - мультиплатформенный интерфейс для ЛЛМ(jan-site_w678.jpg Jan - Frontend для ЛЛМ - установка)

Jan

Есть темные, светлые и прозрачные темы.

!- Jan LLM frontend - главное окно(jan-self_w678.jpg Jan - Frontend для ЛЛМ - пример ответа на вопрос о самозапуске)

Может подключаться к нескольким существующим бэкендам, таким как Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI и другим, а также размещать модели на своем сервере - см. раздел Cortex на скриншоте ниже - показывающий, что Jan загрузил и разместил локально Llama3 8b q4 и Phi3 medium (q4).

!- Jan LLM frontend - опции конфигурации(jan-config_w678.jpg Jan LLM frontend - опции конфигурации)

Преимущества (что мне понравилось):

  • Интуитивно понятный интерфейс
  • Возможность экспериментировать с температурой модели, topp, частотными и присутствующими штрафами и системными подсказками.
  • Предоставляет API-сервер

Недостатки:

  • Как-то медленно работает на моей ubuntu-системе. На Windows он работал нормально.
  • Может подключаться ко многим бэкендам, но все они управляемые. Было бы хорошо использовать опцию Ollama.
  • Не так много вариантов моделей доступно для саморазмещения в Cortex. Не так много вариантов квантования.
  • Да, Huggingface gguf отличный. Но я хотел
    • использовать то, что уже загрузил ollama и загрузил в VRAM
    • не размещать одну и ту же модель везде

KoboldAI

KoboldAI

Очень популярный

Silly Tavern

Silly Tavern

Еще один очень универсальный

LLM Studio

LLM Studio не мой любимый интерфейс для ЛЛМ, но у него лучше доступ к моделям Huggingface.

Командная строка Ollama

Да, это тоже пользовательский интерфейс, просто командная строка.

Нужно запустить для llama3.1 LLM:

ollama run llama3.1

Когда закончите, отправьте команду для выхода из командной строки ollama:

/bye

cURL Ollama

Установите cUrl, если вы еще этого не сделали

sudo apt-get install curl

Чтобы вызвать локальный mistral nemo q8 llm, размещенный на ollama - создайте локальный файл с подсказкой p.json:

{
  model: mistral-nemo:12b-instruct-2407-q8_0,
  prompt: Что такое постмодернизм?,
  stream: false
}

и теперь выполните в терминале bash

curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json

результат будет в файле p-result.json

если вы хотите просто вывести результат:

curl -X POST http://localhost:11434/api/generate -d @p.json

Также:

Я не тестировал эти, но довольно полный список интерфейсов ЛЛМ:

Полезные ссылки

Интерфейсы чатов для локальных экземпляров Ollama

Интерфейсы чатов для локальных экземпляров Ollama

Краткий обзор наиболее заметных интерфейсов для Ollama в 2025 году

Локально размещённый Ollama позволяет запускать большие языковые модели на вашем собственном устройстве, но использование его через командную строку не очень удобно. Вот несколько открытых проектов, которые предоставляют интерфейсы в стиле ChatGPT, подключающиеся к локальному Ollama.

Самостоятельное размещение Perplexica с использованием Ollama

Самостоятельное размещение Perplexica с использованием Ollama

Запуск сервиса в стиле Copilot на локальном компьютере? Легко!

Это очень волнующе! Вместо того чтобы звонить в Copilot или Perplexity.ai и рассказывать всему миру, что вы ищете, теперь вы можете разместить аналогичную службу на своем ПК или ноутбуке!