Frontends de LLM

Cuando empecé a experimentar con LLMs, las interfaces de usuario para ellos estaban en desarrollo activo y ahora algunas de ellas son realmente buenas.

!- Jan - interfaz multiplataforma para LLMs(jan-site_w678.jpg Jan - Interfaz frontend para LLMs - instalación)

Jan

Jan(https://jan.ai/) está disponible para Windows, Linux y Mac.

Tiene temas oscuros, claros y transparentes.

!- Jan LLM frontend - ventana principal(jan-self_w678.jpg Jan - Interfaz frontend para LLMs - ejemplo de respuesta a por qué autohospedar)

Puede conectarse a varios backends existentes como Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI, etc., y alojar modelos en su propio servidor - véase la sección Cortex en la captura de pantalla a continuación - mostrando Jan descargado y alojando localmente Llama3 8b q4 y Phi3 medium (q4).

!- Jan LLM frontend - opciones de configuración(jan-config_w678.jpg Jan LLM frontend - opciones de configuración)

Ventajas (lo que me gustó):

Interfaz intuitiva
Posibilidad de experimentar con la temperatura del modelo, topp, frecuencia y penalizaciones de presencia y prompts del sistema.
Proporciona un servidor API

Desventajas:

De alguna manera lento en mi sistema operativo basado en Ubuntu. En Windows funcionó bien.
Puede conectarse a muchos backends, pero todos están gestionados. Sería útil tener la opción de Ollama.
No hay muchas variantes de modelos disponibles para autohospedaje en Cortex. Tampoco hay muchas opciones de cuantización.
Sí, Huggingface gguf es increíble. Pero quería
- reutilizar lo que ya descargó y cargó en VRAM de Ollama
- no alojar el mismo modelo en todos lados

KoboldAI

Uno muy destacado

Silly Tavern

Otro muy versátil

LLM Studio

LLM Studio no es mi interfaz favorita para LLMs, pero tiene mejor acceso a modelos de Huggingface.

Ollama desde la línea de comandos

Sí, también es una interfaz de usuario, solo una de línea de comandos.

Para ejecutar el LLM llama3.1:

ollama run llama3.1

cuando termines, envía un comando para salir de la línea de comandos de Ollama:

/bye

cURL Ollama

Instala cUrl si aún no lo has hecho

sudo apt-get install curl

Para llamar al mistral nemo q8 llm alojado en Ollama localmente - crea un archivo local con el prompt p.json:

{
  model: mistral-nemo:12b-instruct-2407-q8_0,
  prompt: ¿Qué es el posmodernismo?,
  stream: false
}

y ahora ejecuta en el terminal de bash

curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json

el resultado estará en el archivo p-result.json

si solo quieres imprimir el resultado:

curl -X POST http://localhost:11434/api/generate -d @p.json

También:

No probé estos, pero es una lista bastante completa de interfaces de usuario para LLMs:

Enlaces útiles

Open WebUI: Interfaz de LLM autohospedada

Open WebUI es una poderosa, extensible y rica en características interfaz web autogestionada para interactuar con modelos de lenguaje grandes.

Interfaz de chat para instancias locales de Ollama

Locally hosted Ollama permite ejecutar modelos de lenguaje grandes en tu propia máquina, pero usarlo desde la línea de comandos no es muy amigable para el usuario. Aquí hay varios proyectos de código abierto que ofrecen interfaces estilo ChatGPT que se conectan a un Ollama local.

La comida deliciosa también es un placer para los ojos.
Pero en este post compararemos dos sistemas de búsqueda basados en IA, Farfalle y Perplexica.

¡Eso es muy emocionante!

En lugar de llamar a Copilot o Perplexity.ai y contarle al mundo lo que buscas, ahora puedes alojar un servicio similar en tu propio PC o laptop.

Frontends de LLM

Jan

KoboldAI

Silly Tavern

LLM Studio

Ollama desde la línea de comandos

cURL Ollama

También:

Enlaces útiles

Open WebUI: Interfaz de LLM autohospedada

Interfaz de chat para instancias locales de Ollama

Farfalle vs. Perplexica

Autohospedaje de Perplexica con Ollama