Frontend per LLM

Quando ho iniziato a sperimentare con gli LLM, le interfacce utente per loro erano in fase attiva di sviluppo e ora alcune di esse sono davvero buone.

!- Jan - interfaccia multiplatform per LLMs(jan-site_w678.jpg Jan - Frontend per LLMs - install)

Jan

Jan(https://jan.ai/) è disponibile per Windows, Linux e Mac.

Ha temi scuri, chiari e trasparenti.

!- Jan LLM frontend - finestra principale(jan-self_w678.jpg Jan - Frontend per LLMs - esempio di risposta a perché selfhost)

Può connettersi a diversi backend esistenti come Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI, ecc., e ospitare modelli autonomamente - vedere la sezione Cortex nell’immagine sottostante - che mostra Jan scaricato e ospitato localmente Llama3 8b q4 e Phi3 medium (q4).

!- Jan LLM frontend - opzioni di configurazione(jan-config_w678.jpg Jan LLM frontend - opzioni di configurazione)

Punti di forza (ciò che ho apprezzato):

Interfaccia intuitiva
La possibilità di sperimentare con la temperatura del modello, topp, frequenza e penalità di presenza e prompt del sistema.
Fornisce un server API

Punti di debolezza:

Per qualche motivo lento sul mio sistema operativo basato su Ubuntu. Su Windows ha funzionato bene.
Può connettersi a molti backend, ma tutti sono gestiti. Sarebbe stato bello poter usare l’opzione Ollama.
Non molte varianti dei modelli disponibili per l’hosting autonomo in Cortex. Non troppe opzioni di quantizzazione nemmeno.
Sì, Huggingface gguf è fantastico. Ma volevo
- riutilizzare ciò che Ollama ha già scaricato e caricato in VRAM
- non ospitare lo stesso modello ovunque

KoboldAI

Uno molto prominente

Silly Tavern

Un altro molto versatile

LLM Studio

LLM Studio non è il mio UI preferito per gli LLM, ma ha un accesso migliore ai modelli Huggingface.

Ollama da riga di comando

Sì, è anche un’interfaccia utente, solo una da riga di comando.

Per eseguire il LLM llama3.1:

ollama run llama3.1

quando finito, invia un comando per uscire dalla riga di comando di Ollama:

/bye

cURL Ollama

Installa cUrl se non l’hai già fatto

sudo apt-get install curl

Per chiamare il llm mistral nemo q8 ospitato localmente su Ollama - crea un file locale con il prompt p.json:

{
  model: mistral-nemo:12b-instruct-2407-q8_0,
  prompt: Che cos'è il post-modernismo?,
  stream: false
}

e ora esegui nel terminale bash

curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json

il risultato sarà nel file p-result.json

se desideri solo stampare il risultato:

curl -X POST http://localhost:11434/api/generate -d @p.json

Anche:

Non ho testato questi, ma è una lista abbastanza completa di UI per LLM:

Link utili

Open WebUI: interfaccia self-hosted per LLM

Open WebUI è una potente, estensibile e ricca di funzionalità interfaccia web autoospitata per interagire con i grandi modelli linguistici.

Interfacce di chat per istanze locali di Ollama

Locally hosted Ollama consente di eseguire modelli linguistici di grandi dimensioni sul proprio computer, ma l’utilizzo tramite riga di comando non è particolarmente utente-friendly. Ecco diversi progetti open-source che forniscono interfacce simili a ChatGPT che si connettono a un Ollama locale.

La buona cucina è un piacere per gli occhi. Ma in questo post compariamo due sistemi di ricerca basati sull’AI, Farfalle e Perplexica.

Questo è molto eccitante! Invece di chiamare Copilot o Perplexity.ai e raccontare a tutti del mondo cosa stai cercando, ora puoi ospitare un servizio simile sul tuo PC o laptop!

Frontend per LLM

Jan

KoboldAI

Silly Tavern

LLM Studio

Ollama da riga di comando

cURL Ollama

Anche:

Link utili

Open WebUI: interfaccia self-hosted per LLM

Interfacce di chat per istanze locali di Ollama

Farfalle vs Perplexica

Self-hosting Perplexica - con Ollama