SelfHosting

Démarrage rapide de Vane (Perplexica 2.0) avec Ollama et llama.cpp

Démarrage rapide de Vane (Perplexica 2.0) avec Ollama et llama.cpp

Recherche IA auto-hébergée avec des LLM locaux

Vane est l’une des entrées les plus pragmatiques dans le domaine de la « recherche IA avec citations » : un moteur de réponse auto-hébergé qui combine la récupération web en direct avec des LLM locaux ou cloud, tout en gardant toute la pile sous votre contrôle.

Prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles avec OpenAI

Prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles avec OpenAI

Remplacement à chaud des LLM locaux sans modifier les clients.

Bientôt, vous jonglerez avec vLLM, llama.cpp et bien plus encore — chaque pile fonctionnant sur son propre port. Tout le reste de votre infrastructure souhaite toujours une URL de base unique /v1 ; sinon, vous finissez par réorganiser constamment les ports, les profils et les scripts ponctuels. llama-swap est le proxy /v1 qui précède ces piles.

Démarrage rapide de llama.cpp avec l'interface CLI et le serveur

Démarrage rapide de llama.cpp avec l'interface CLI et le serveur

Comment installer, configurer et utiliser OpenCode

Je reviens constamment vers llama.cpp pour l’inférence locale — cela vous donne un contrôle que Ollama et d’autres abstraigent, et cela fonctionne parfaitement. Il est facile d’exécuter des modèles GGUF de manière interactive avec llama-cli ou d’exposer une API HTTP compatible avec OpenAI avec llama-server.