Snelle start met Vane (Perplexica 2.0), Ollama en llama.cpp
Zelf gehoste AI-zoekopdrachten met lokale LLM's
Vane is een van de meest pragmatische opties binnen het domein van “AI-zoekmachines met bronvermelding”: een zelfgehoste antwoorden-engine die live web-ophaal met lokale of cloud-LLM’s combineert, waarbij de volledige stack onder uw controle blijft.
Het project stond oorspronkelijk bekend als Perplexica, en de naamswijziging naar Vane is niet alleen cosmetisch: het weerspiegelt zowel een branding-opruiming als een geleidelijke verschuiving weg van het label “een kloon” en naar het zijn van een algemene antwoorden-engine.

Omdat het nuttige deel van de stack niet alleen de UI is, maar ook waar inferentie en data wonen, trekt deze vergelijking van LLM-hosting in 2026 lokale, zelfgehoste en cloud-opstellingen samen, zodat u Vane naast andere runtime- en implementiekeuzes kunt plaatsen.
Dit artikel richt zich op de onderdelen waar technische lezers echt om geven: hoe het systeem werkt, een minimale Docker-snelstart en hoe u het lokaal kunt draaien met inferentie via Ollama en llama.cpp (direct of via LM Studio). Onderweg wordt elk FAQ-onderwerp in context beantwoord, in plaats van onderaan de pagina te parkeren.
Wat Vane is en hoe AI-zoekmachines werken
Op hoog niveau is Vane een Next.js-toepassing die een chat-UI combineert met zoekopdrachten en bronvermeldingen. De kernarchitectuurdelen zijn precies wat u zou verwachten van een moderne AI-zoekmachine: API-routes voor chat en zoeken, orkestratie die beslist wanneer er opgehaald moet worden, en een schrijver die rekening houdt met bronvermeldingen.
Wanneer u een query indient in de UI, roept Vane POST /api/chat op. Intern is het workflow bewust gestructureerd:
- Het classificeert eerst de vraag om te beslissen of onderzoek nodig is en welke helpers moeten draaien.
- Het voert onderzoek en widgets parallel uit.
- Het genereert het eindantwoord en bevat bronvermeldingen.
Die label “AI-zoekmachine” is van belang, omdat dit niet slechts een chat-frontend is. Het belangrijkste verschil is retrieval-augmented generation: in plaats van puur te vertrouwen op de parameters van de LLM, haalt Vane externe context op (webresultaten en optioneel door gebruikers geüploade bestanden) en gebruikt dat materiaal als de grondstof voor het eindantwoord. De documentatie noemt expliciet web-opzoeken en “het doorzoeken van door gebruikers geüploade bestanden” als onderdeel van het onderzoek, waarbij embeddings worden gebruikt voor semantisch zoeken over uploads.
Bronvermeldingen zijn geen afterthought. Vane vraagt het model om de gebruikte referenties te citeren, waarna de UI deze bronvermeldingen naast het antwoord weergeeft. In de praktijk is dit wat “nuttige” AI-zoekmachines onderscheidt van een zelfverzekerde hallucinatiegenerator die toevallig een zoekknop heeft.
SearxNG zit onder de web-ophaal-laag voor de meeste opstellingen. SearxNG is een gratis metazoekmachine die resultaten van vele zoekdiensten verzamelt en, bij ontwerp, gebruikers niet traceert of profileert. Dat is een fundamenteel andere filosofie dan betaalde zoek-API’s, die u doorgaans een enkele vendor-index en een commercieel datacontract bieden.
Geschiedenis van Perplexica naar Vane en de naamswijziging
Perplexica begon als een open-source, zelfhostbare antwoorden-engine die geïnspireerd was door Perplexity AI. Verschillende openbare gidsen beschrijven het project nog steeds als “earlier bekend als Perplexica” en behandelen Vane als de voortzetting in plaats van een vijandige fork.
De naamswijziging werd direct in de upstream-repo geïmplementeerd. In de commit-historie van de master-tak verschijnt de commit met de titel feat(app): rename to 'vane' op 9 maart 2026 (SHA 39c0f19).
Het “hoe” is interessanter dan de koptekst. Die rename-commit is niet slechts een README-aanpassing: het update Docker-afbeeldingsnamen van itzcrazykns1337/perplexica naar itzcrazykns1337/vane, past containersysteempaden aan van /home/perplexica naar /home/vane en update projecttekst en assets dienovereenkomstig.
Als u zich afvraagt waarom open-source AI-projecten een nieuwe naam krijgen, is Vane een leerboekvoorbeeld van de gebruikelijke drijfveren:
- Naam nabijheid aan een commercieel merk creëert verwarring (en soms juridisch risico).
- De projectscope breidt zich uit over de oorspronkelijke framing (van “kloon” naar “antwoorden-engine”).
- Distributie-artefacten hebben een coherente identiteit nodig (Docker-afbeeldingen, documentatie, UI-labels).
Ook schakelt het ecosysteem niet van de ene dag op de andere naar nieuwe namen. Docker Hub toont nog steeds beide repositories onder het maintainer-account, inclusief itzcrazykns1337/vane en itzcrazykns1337/perplexica. U zult dus nog steeds oudere blogposts, compose-bestanden en registry-referenties zien die de Perplexica-naamgeving gebruiken, zelfs na de rebranding van de repo.
Docker-snelstart en basisconfiguratie
De officiële README van Vane is verfrissend direct: start één container en u krijgt Vane plus een ingebouwde SearxNG-zoekbackend. De minimale Docker-snelstart ziet er als volgt uit.
docker run -d -p 3000:3000 -v vane-data:/home/vane/data --name vane itzcrazykns1337/vane:latest
Die afbeelding is gepositioneerd als de “werkt direct”-pad omdat het SearxNG al bevat, zodat u geen externe zoekbackend nodig heeft om de UI te testen. Configuratie gebeurt in het instelscherm nadat u de web-UI opent op http://localhost:3000.
Als u al SearxNG draait (gemeenschappelijk in homelabs), verwacht de “slim” Vane-afbeelding dat u het naar een externe SearxNG-instantie wijst met behulp van SEARXNG_API_URL. De README noemt ook twee praktische SearxNG-instellingseisen: JSON-uitvoer ingeschakeld en de Wolfram Alpha-engine ingeschakeld.
docker run -d -p 3000:3000 \
-e SEARXNG_API_URL=http://your-searxng-url:8080 \
-v vane-data:/home/vane/data \
--name vane \
itzcrazykns1337/vane:slim-latest
Het updaten van Vane is ook in-repo gedocumenteerd. De officiële update-workflow is in wezen het ophalen van de nieuwste afbeelding en herstarten met hetzelfde volume, wat instellingen behoudt.
docker pull itzcrazykns1337/vane:latest
docker stop vane
docker rm vane
docker run -d -p 3000:3000 -v vane-data:/home/vane/data --name vane itzcrazykns1337/vane:latest
Zodra u het draait, kan Vane worden gebruikt als een snelkoppeling voor een browsersoekmachine door een aangepaste engine te wijzen op http://localhost:3000/?q=%s. Dat is een kleine functie met een groot effect als u wilt dat “AI-zoeken” voelt als zoeken in plaats van een app die u bezoekt.
Voor automatisering en integratie exposeert Vane een API. De documentatie beschrijft GET /api/providers om geconfigureerde providers en modellen te ontdekken, en POST /api/search om een zoekopdracht uit te voeren met een gekozen chatmodel, embeddingmodel, bronnen en een optimizationMode (snelheid, gebalanceerd, kwaliteit).
Lokale LLM-instelling met Ollama
Vane ondersteunt lokale LLM’s via Ollama en cloudproviders in dezelfde UI, wat de juiste abstractie is als u denkt in termen van “connecties” en “modellen” in plaats van “leveranciers”.
Het meest voorkomende probleem is niet de modelkeuze, maar netwerken. Wanneer Vane in Docker draait en Ollama op de host, betekent “localhost” niet wat u denkt dat het betekent vanuit de container. Vane documenteert OS-specifieke basis-URL’s voor het verbinden met Ollama vanuit een container.
Connectiviteitsvalkuilen met Docker
De probleemoplossingssectie van Vane adviseert expliciet:
- Windows en macOS:
http://host.docker.internal:11434 - Linux:
http://<private_ip_of_host>:11434
Voor Linux merkt Vane ook op dat Ollama standaard gebonden kan zijn aan 127.0.0.1 en moet worden blootgesteld. De README suggereert het instellen van OLLAMA_HOST=0.0.0.0:11434 in de systemd-service en het opnieuw starten van de service.
Dit komt overeen met de eigen serve-omgevingsvariabelen van Ollama, waarbij OLLAMA_HOST het server-bind-adres beheert en standaard 127.0.0.1:11434 is.
Houd modellen warm en kies modellen
Als u lokale inferentie draait, zult u koude starts voelen. Ollama heeft twee gerelateerde mechanismen om modellen geladen te houden:
OLLAMA_KEEP_ALIVEals server-instelling.keep_aliveals parameter per aanvraag voor/api/generateen/api/chat, wat de serverstandaard overschrijft.
Vane heeft zijn eigen keep_alive-ondersteuning toegevoegd voor Ollama-modellen (zodat de app kan beïnvloeden hoe lang een model in het geheugen blijft). Die functie verschijnt in de release-opmerkingen van Vane v1.10.0.
Modelselectie is het deel dat op internet te ingewikkeld wordt. Voor Vane-achtig werk is de meest praktische splitsing:
- Een chatmodel dat instruct-getuned is (voor samenvatting en synthese).
- Een embeddingmodel voor similariteitsonderzoek over uploads en opgehaalde tekst. De API-documentatie van Vane toont aan dat de zoekaanvraag expliciet zowel een chatmodel als een embeddingmodel kiest.
Ollama zelf ondersteunt embeddings-workflows, en zelfs de CLI-documentatie bevat een voorbeeld dat nomic-embed-text gebruikt voor embeddings.
Dit is ook het antwoord op de FAQ over het lokaal draaien van AI-zoekmachines zonder cloud-API’s: met Vane in Docker, SearxNG lokaal en Ollama op uw hardware, kunt u zowel uw zoekopdrachten als uw privé documentuploads binnen uw eigen netwerklimiet houden. (Als u besluit om in plaats daarvan verbinding te maken met een cloudprovider, verandert de verbinding natuurlijk het datapad.)
Lokale LLM-instelling met llama.cpp
Er zijn twee realistische manieren om Vane te koppelen aan llama.cpp:
- Gebruik LM Studio als de serverlaag (en laat Vane ermee communiceren).
- Draai de eigen HTTP-server van llama.cpp (llama-server) en verbind via een OpenAI-compatibel eindpunt.
Vane ondersteunt expliciet “Local OpenAI-API-Compliant Servers” en noemt de gebruikelijke vereisten: binden aan 0.0.0.0 in plaats van 127.0.0.1, het juiste poort gebruiken, een modelnaam instellen die op de server bestaat, en het API-slehtveld niet leeg laten, zelfs als de server geen authenticatie afdwingt.
LM Studio is hier relevant omdat het bovenop lokale backends zit (vaak llama.cpp) terwijl het een OpenAI-compatibele API exposeert. Vane v1.12.1 merkt specifiek de toevoeging van een LM Studio-provider op.
De documentatie van LM Studio lijst de ondersteunde OpenAI-compatibele eindpunten op en toont een basis-URL-voorbeeld dat http://localhost:1234/v1 gebruikt (aannemend poort 1234). Dat is van belang omdat, vanuit het perspectief van Vane, het “slechts een andere OpenAI-stijl server” is.
Als u liever llama.cpp direct draait, ondersteunt de officiële llama.cpp HTTP-server OpenAI-API-compatibele chat-completies, antwoorden en embeddings-routes, samen met een lange lijst serverfuncties (batching, monitoring, toolgebruik).
Zelfs als u de vlaggen niet uit het hoofd leert, zijn de belangrijke delen:
- De server bestaat en wordt actief gedocumenteerd.
- Het API-superficie is compatibel genoeg dat OpenAI-stijl clients ermee kunnen communiceren, wat precies is wat Vane nodig heeft voor zijn “OpenAI-compatibel” verbindingspatroon.
Wat recent is uitgebracht en wat er nu verandert
Als u wilt begrijpen wat Vane in het afgelopen jaar is geworden, volg dan de release-opmerkingen en de master-takgeschiedenis in plaats van de hype.
Per 10 april 2026 (Australië/Melbourne) is de nieuwste getagde GitHub-release die zichtbaar is op de releases-pagina v1.12.1 (31 december 2025). Die release-opmerkingen noemen het toevoegen van een LM Studio-provider en fixes rond functieaanroepen met OpenAI-compatibele providers en JSON-parsing.
De voorgaande releases schetsen de grotere verschuivingen:
- v1.11.0 (21 oktober 2025) introduceerde een nieuwe instellingswizard en een opnieuw ontworpen configuurstelsysteem, samen met bredere providerondersteuning en een installatiepad voor Docker met één commando. Het noemt ook dynamisch ophalen van modellen en diverse UI- en ontwikkelaarsexperience-verbeteringen.
- v1.12.0 (27 december 2025) is een architectonische reset: het verwijdert LangChain ten gunste van een aangepaste implementatie voor streaming, generatie en provider-specifiek gedrag. Het hernoemt ook “providers” naar “connecties”, voegt UI- en code-renderingsverbeteringen toe en verplaatst meer capaciteit naar de eigen abstracties van het project (inclusief verbeterde functieaanroepen ten opzichte van eerdere aanpakken voor parsing).
- Vroeger, v1.10.0 (20 maart 2025), voegde bestandsuploads toe (PDF, TXT, DOCX), voegde een Ollama
keep_alive-parameter toe, voegde een meta-zoekagent-klasse toe om maintainability en focus-mode-creatie te verbeteren, en voegde automatische beeld- en videosoekfunctionaliteit toe.
Op het gebied van branding landde de hernoeming naar Vane op 9 maart 2026 in master (feat(app): rename to 'vane'), waarbij zowel de codebasenaamgeving als Docker-artefacten werden bijgewerkt.
En het project stopte niet met evolueren na de release van december 2025. Master-takcommits op 8-9 april 2026 omvatten werk dat wordt beschreven als “bijgewerkte diepzonderzoekmodus, contextbeheer” en nieuwe zoekuitvoerings- en scraping-gerelateerde wijzigingen. Met andere woorden, het “AI-zoekmachine”-gedeelte wordt nog steeds actief geïtereerd, niet bevroren achter release-tags.