llama.swap モデルスイッチャーのクイックスタート(OpenAI 互換ローカル LLM 向け) クライアントを変更せずに、ローカル LLM をホットスワップします。 まもなく、vLLM や llama.cpp、さらに多くのスタックをそれぞれのポートで並行して管理することになるでしょう。しかし、下流のシステムはすべて単一の /v1 ベース URL を望みます。そうしないと、ポート、プロファイル、ワンオフスクリプトを絶えず整理し続ける羽目になります。llama-swap は、それらのスタックの前に置かれる /v1 プロキシです。
llama.cpp の CLI とサーバーを使用したクイックスタート 「OpenCode のインストール、設定、および使用方法」 llama.cpp(https://www.glukhov.org/ja/llm-hosting/llama-cpp/ “llama.cpp”)はローカルでの推論に最適です。Ollamaや他のツールが抽象化しているコントロールを提供し、簡単に動作します。llama-cliを使用してGGUFモデルをインタラクティブに実行したり、llama-serverを使用してOpenAIと互換性のあるHTTP APIを公開したりするのが簡単です。
2026 年の LLM ホスティング:ローカル、セルフホスト、クラウドインフラの比較 Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.