Frontends de LLM

Não há tantas opções, mas ainda assim...

Conteúdo da página

Quando comecei a experimentar com LLMs, as interfaces deles estavam em desenvolvimento ativo e agora algumas delas são realmente boas.

!- Jan - interface multiplataforma para LLMs(jan-site_w678.jpg Jan - Frontend para LLMs - instalação)

Jan

Tem temas escuros, claros e transparentes.

!- Jan LLM frontend - janela principal(jan-self_w678.jpg Jan - Frontend para LLMs - exemplo de resposta para por que auto-hospedar)

Pode se conectar a vários backends existentes, como Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI, etc., e hospedar modelos por conta própria - veja a seção Cortex na captura de tela abaixo - mostrando Jan baixado e hospedando localmente Llama3 8b q4 e Phi3 medium (q4).

!- Jan LLM frontend - opções de configuração(jan-config_w678.jpg Jan LLM frontend - opções de configuração)

Pontos fortes (o que eu gostei):

  • Interface intuitiva
  • Possibilidade de experimentar com a temperatura do modelo, topp, penalidades de frequência e presença e prompts do sistema.
  • Fornece servidor de API

Pontos fracos:

  • De alguma forma lento no meu sistema baseado em Ubuntu. No Windows, funcionou bem.
  • Pode se conectar a muitos backends, mas todos são gerenciados. Seria bom usar a opção Ollama.
  • Poucas variantes dos modelos disponíveis para auto-hospedagem no Cortex. Não há muitas opções de quantização também.
  • Sim, Huggingface gguf é incrível. Mas eu queria
    • reutilizar o que o Ollama já baixou e carregou na VRAM
    • não hospedar o mesmo modelo em todos os lugares

KoboldAI

KoboldAI

Muito proeminente

Silly Tavern

Silly Tavern

Outro muito versátil

LLM Studio

LLM Studio não é minha interface favorita para LLMs, mas tem melhor acesso aos modelos do Huggingface.

Ollama via Linha de Comando

Sim, também é uma interface de usuário, apenas uma via linha de comando.

Para executar o LLM llama3.1:

ollama run llama3.1

quando terminar, envie um comando para sair da linha de comando do ollama:

/bye

cURL Ollama

Instale o cUrl se ainda não o fez:

sudo apt-get install curl

Para chamar localmente o mistral nemo q8 llm hospedado no ollama - crie um arquivo local com o prompt p.json:

{
  model: mistral-nemo:12b-instruct-2407-q8_0,
  prompt: O que é pós-modernismo?,
  stream: false
}

e agora execute no terminal bash:

curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json

o resultado estará no arquivo p-result.json

se quiser apenas imprimir o resultado:

curl -X POST http://localhost:11434/api/generate -d @p.json

Também:

Não testei esses, mas é uma lista bastante abrangente de interfaces para LLMs: