LLM Hosting

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

Text Generation Inference (TGI) は、非常に特有の雰囲気を持っています。推論の分野で最も新しい子供ではありませんが、すでに本番環境でのトラブルを学び、その教訓をデフォルト設定に焼き付けているのが TGI です。

Tailscale または WireGuard を介した Ollama のリモートアクセス（パブリックポートなし）

Ollama は、ローカルデーモンとして扱われるときに最も快適に動作します。CLI とアプリケーションがループバック HTTP API と通信し、残りのネットワークにはその存在が知られない状態です。

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

Ollama は、メタル（物理マシン）上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。

Caddy または Nginx をリバースプロキシとして使用し、HTTPS ストリーミングを有効にした Ollama

リバースプロキシの背後で Ollama を実行することは、HTTPS、オプションのアクセス制御、予測可能なストリーミング動作を実現する最も簡単な方法です。

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang は、大規模言語モデルおよびマルチモーダルモデル向けの高パフォーマンスなサービングフレームワークであり、単一の GPU から分散クラスターに至るまで、低レイテンシかつ高スループットの推論を提供するために設計されています。

llama.swap モデルスイッチャーのクイックスタート（OpenAI 互換ローカル LLM 向け）

まもなく、vLLM や llama.cpp、さらに多くのスタックをそれぞれのポートで並行して管理することになるでしょう。しかし、下流のシステムはすべて単一の /v1 ベース URL を望みます。そうしないと、ポート、プロファイル、ワンオフスクリプトを絶えず整理し続ける羽目になります。llama-swap は、それらのスタックの前に置かれる /v1 プロキシです。

LocalAI QuickStart: ローカルで OpenAI 互換 LLM を実行する

LocalAI は、ご自身のハードウェア（ノート PC、ワークステーション、オンプレミスサーバー）上で AI ワークロードを実行できるように設計された、自己完結型でローカルファーストの推論サーバーです。これは、OpenAI API と互換性のある「差し替え可能な」APIとして動作します。

llama.cpp の CLI とサーバーを使用したクイックスタート

llama.cpp（https://www.glukhov.org/ja/llm-hosting/llama-cpp/ “llama.cpp”）はローカルでの推論に最適です。Ollamaや他のツールが抽象化しているコントロールを提供し、簡単に動作します。llama-cliを使用してGGUFモデルをインタラクティブに実行したり、llama-serverを使用してOpenAIと互換性のあるHTTP APIを公開したりするのが簡単です。

LLMのセルフホスティングとAI主権

LLMを自社でホストすることで、データ、モデル、推論を自らの管理下に置くことができます。これは、チームや企業、国家にとっても実用的な**AI主権**への道です。

オープンウェブUI: 自己ホスト型LLMインターフェース

Open WebUI は、大規模言語モデルと対話するための強力で拡張性があり、機能豊富な自己ホスト型ウェブインターフェースです。

vLLM クイックスタート：2026 年の高性能 LLM サービング

vLLM は、UC Berkeley の Sky Computing Lab によって開発された、大規模言語モデル（LLM）向けの高速スループットかつメモリエフィレントな推論およびサーバーエンジンです。

正しいLLMの選択：Cognee用のローカルOllama設定

Best LLM for Cognee を選ぶ際には、グラフ構築の質、幻覚率、ハードウェアの制約のバランスが求められます。
Cognee は、Ollama を介して 32B 以上の低幻覚モデルで優れた性能を発揮しますが、軽量な設定では中規模のオプションも使用可能です。

Ollama、vLLM、LM Studio：2026 年にローカルで LLM を実行する最善の方法は？

LLM をローカルで実行することは、現在、開発者、スタートアップ、そして企業チームにとって現実的な選択肢となっています。しかし、適切なツール（Ollama、vLLM、LM Studio、LocalAI、その他）を選ぶことは、あなたの目標に依存します。

Dockerモデルランナー: コンテキストサイズ設定ガイド

Docker Model Runnerにおけるコンテキストサイズの設定は、本来よりも複雑です。

DockerモデルランナーへのNVIDIA GPUサポートの追加

Docker Model Runner は、Dockerが公式に提供するローカルでAIモデルを実行するためのツールですが、
Docker Model RunnerにおけるNVidia GPUの加速の有効化には特定の設定が必要です。

Docker Model Runner チートシート: コマンドと例

Docker Model Runner (DMR) は、2025年4月に導入された Docker の公式ソリューションで、AIモデルをローカルで実行するためのものです。このチートシートでは、すべての必須コマンド、構成、およびベストプラクティスのクイックリファレンスを提供しています。

1/2 »