Frontends de LLM
Não há tantas opções, mas ainda assim...
Quando comecei a experimentar com LLMs, as interfaces deles estavam em desenvolvimento ativo e agora algumas delas são realmente boas.
!- Jan - interface multiplataforma para LLMs(jan-site_w678.jpg Jan - Frontend para LLMs - instalação)
Jan
- Jan(https://jan.ai/) está disponível para Windows, Linux e Mac.
Tem temas escuros, claros e transparentes.
!- Jan LLM frontend - janela principal(jan-self_w678.jpg Jan - Frontend para LLMs - exemplo de resposta para por que auto-hospedar)
Pode se conectar a vários backends existentes, como Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI, etc., e hospedar modelos por conta própria - veja a seção Cortex na captura de tela abaixo - mostrando Jan baixado e hospedando localmente Llama3 8b q4 e Phi3 medium (q4).
!- Jan LLM frontend - opções de configuração(jan-config_w678.jpg Jan LLM frontend - opções de configuração)
Pontos fortes (o que eu gostei):
- Interface intuitiva
- Possibilidade de experimentar com a temperatura do modelo, topp, penalidades de frequência e presença e prompts do sistema.
- Fornece servidor de API
Pontos fracos:
- De alguma forma lento no meu sistema baseado em Ubuntu. No Windows, funcionou bem.
- Pode se conectar a muitos backends, mas todos são gerenciados. Seria bom usar a opção Ollama.
- Poucas variantes dos modelos disponíveis para auto-hospedagem no Cortex. Não há muitas opções de quantização também.
- Sim, Huggingface gguf é incrível. Mas eu queria
- reutilizar o que o Ollama já baixou e carregou na VRAM
- não hospedar o mesmo modelo em todos os lugares
KoboldAI
Muito proeminente
Silly Tavern
Outro muito versátil
LLM Studio
LLM Studio não é minha interface favorita para LLMs, mas tem melhor acesso aos modelos do Huggingface.
Ollama via Linha de Comando
Sim, também é uma interface de usuário, apenas uma via linha de comando.
Para executar o LLM llama3.1:
ollama run llama3.1
quando terminar, envie um comando para sair da linha de comando do ollama:
/bye
cURL Ollama
Instale o cUrl se ainda não o fez:
sudo apt-get install curl
Para chamar localmente o mistral nemo q8 llm hospedado no ollama - crie um arquivo local com o prompt p.json
:
{
model: mistral-nemo:12b-instruct-2407-q8_0,
prompt: O que é pós-modernismo?,
stream: false
}
e agora execute no terminal bash:
curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json
o resultado estará no arquivo p-result.json
se quiser apenas imprimir o resultado:
curl -X POST http://localhost:11434/api/generate -d @p.json
Também:
Não testei esses, mas é uma lista bastante abrangente de interfaces para LLMs:
- Streamlit
- Gradio
- Lobe Chat
- Text Generation WebUI
- Ollama WebUI
- Hugging Face Chat UI
- GPT-4All
- LocalGPT
- ChainFury
- Verba por Weaviate
- Chat UI Kit para React por ChatScope
- Reflex Chat
- Silly Tavern
- Amica
- Serge Chat
- LLM Multitool
- Sanctum AI
- KoboldAI
- AI Messenger
- Exui
- Spellbook Docker
- Lollms WebUI
- H2O GPT
Links úteis
- Modelos Qwen3 de Embedding e Reranker no Ollama: Desempenho de Estado da Arte
- Teste: Como o Ollama está usando o desempenho da CPU Intel e núcleos eficientes
- Como o Ollama lida com solicitações paralelas
- Testando Deepseek-r1 no Ollama
- Instale e configure o Ollama
- Comparando as habilidades de resumo de LLMs
- Comparando a velocidade de diferentes LLMs
- Auto-hospedagem do Perplexica - com Ollama
- Comparação de LLMs: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi
- Dica rápida do Ollama
- Dica rápida do Markdown
- Fornecedores de LLMs na nuvem