Interfejsy LLM

Nieco mniej do wyboru, ale nadal...

Page content

Kiedy zacząłem eksperymentować z LLM, interfejsy do nich były w aktywnym rozwoju, a teraz niektóre z nich są naprawdę dobre.

!- Jan - multiplatform ui for LLMs(jan-site_w678.jpg Jan - Frontend for LLMs - install)

Jan

Ma tematy ciemne, jasne i przezroczyste.

!- Jan LLM frontend - main window(jan-self_w678.jpg Jan - Frontend for LLMs - example of reply to why selfhost)

Może łączyć się z kilkoma istniejącymi backendami, takimi jak Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI itp., a także może hostować modele samodzielnie – zobacz sekcję Cortex na poniższym zrzucie ekranu – pokazuje Jan pobrany i lokalnie hostowany Llama3 8b q4 i Phi3 medium (q4).

!- Jan LLM frontend - config options(jan-config_w678.jpg Jan LLM frontend - config options)

Zalety (to, co lubiłem):

  • Intuicyjny interfejs
  • Możliwość eksperymentowania z temperaturą modelu, topp, częstotliwością i karą za obecność oraz promptami systemowymi.
  • Udostępnia serwer API

Wady:

  • Dla jakiegoś powodu wolny na moim systemie opartym na Ubuntu. Na Windows działał dobrze.
  • Może łączyć się z wieloma backendami, ale wszystkie są zarządzane. Byłoby fajnie, żeby można było użyć opcji Ollama.
  • Nie ma wiele wersji modeli dostępnych do samodzielnej instalacji w Cortex. Nie ma też zbyt wielu opcji kwantyzacji.
  • Tak, Huggingface gguf to świetna opcja. Ale chciałem
    • ponownie wykorzystać to, co Ollama już pobrało i załadowało do VRAM
    • nie hostować tego samego modelu wszędzie

KoboldAI

KoboldAI

Bardzo znany

Silly Tavern

Silly Tavern

Inny bardzo wszechstronny

LLM Studio

LLM Studio nie jest moim ulubionym interfejsem do LLM, ale ma lepszy dostęp do modeli Huggingface.

Commandline Ollama

Tak, to także interfejs użytkownika, tylko w formie linii poleceń.

Aby uruchomić LLM llama3.1:

ollama run llama3.1

po zakończeniu wysyłaj polecenie, aby wyjść z linii poleceń Ollama:

/bye

cURL Ollama

Zainstaluj cUrl, jeśli jeszcze tego nie zrobiłeś

sudo apt-get install curl

Aby wywołać lokalny mistral nemo q8 llm hostowany na Ollama – utwórz lokalny plik z promptem p.json:

{
  model: mistral-nemo:12b-instruct-2407-q8_0,
  prompt: Co to jest postmodernizm?,
  stream: false
}

a następnie wykonaj w terminalu bash:

curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json

wynik będzie w pliku p-result.json

jeśli chcesz tylko wypisać wynik:

curl -X POST http://localhost:11434/api/generate -d @p.json

Także:

Nie przetestowałem tych, ale lista UI do LLM jest dość kompletna:

Przydatne linki