LLM

この記事は、チャネル、モデルプロバイダー、ツール、音声、メモリ、メディア、Web 検索、その他ランタイムの表面機能などを追加するネイティブゲートウェイパッケージであるOpenClaw プラグインについて解説します。

OpenClaw はデモではシンプルに見えますが、本番環境ではシステムへと変わります。

エージェント実験の波を後押ししていた静かな抜け穴は、今、閉じられました。

Vane（Perplexica 2.0）Ollama と llama.cpp を使用したクイックスタート

Vane は、「出典付き AI 検索」領域において、より実用的な選択肢の一つです。これは、リアルタイムのウェブ取得とローカルまたはクラウド上の LLM（大規模言語モデル）を組み合わせた、セルフホスティング可能な回答エンジンであり、スタック全体をユーザーの管理下に置くことができます。

Ollama、llama.cpp用のClaude Codeのインストールと設定、および料金

Claude Codeは、マーケティングが上手な自動補完ツールではありません。これはエージェント型コーディングツールです。コードベースを読み取り、ファイルを編集し、コマンドを実行し、開発ツールと統合します。

Hermes AI アシスタント - インストール、設定、ワークフロー、およびトラブルシューティング

Hermes Agent は、ローカルマシンまたは低コストのVPS上で動作する、自己ホスト型のモデル非依存AIアシスタントです。ターミナルやメッセージングインターフェースを通じて動作し、繰り返されるタスクを再利用可能なスキルに変換することで、時間を経るにつれて能力を向上させます。

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

Text Generation Inference (TGI) は、非常に特有の雰囲気を持っています。推論の分野で最も新しい子供ではありませんが、すでに本番環境でのトラブルを学び、その教訓をデフォルト設定に焼き付けているのが TGI です。

16GB VRAM LLM ベンチマーク：llama.cpp による速度とコンテキスト評価

ここでは、VRAM 16GB の GPU で動作するいくつかの LLM の速度を比較し、セルフホスティングに最適なモデルを選定しています。

オーストラリアにおける RTX 5090 の 2026 年 3 月の価格と在庫の実態

オーストラリアにはRTX 5090の在庫があります。ただし、ごくわずかです。もし見つけたとしても、現実感の欠けた、莫大なプレミアム価格を支払わなければなりません。

Tailscale または WireGuard を介した Ollama のリモートアクセス（パブリックポートなし）

Ollama は、ローカルデーモンとして扱われるときに最も快適に動作します。CLI とアプリケーションがループバック HTTP API と通信し、残りのネットワークにはその存在が知られない状態です。

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

Ollama は、メタル（物理マシン）上で非常に良好に動作します。それをサービスとして扱うと、さらに興味深くなります。安定したエンドポイント、固定されたバージョン、永続的なストレージ、そして GPU が利用可能か不可かの明確な状態が確保されます。

Caddy または Nginx をリバースプロキシとして使用し、HTTPS ストリーミングを有効にした Ollama

リバースプロキシの背後で Ollama を実行することは、HTTPS、オプションのアクセス制御、予測可能なストリーミング動作を実現する最も簡単な方法です。

RAG と検索向けのテキスト埋め込み - Python、Ollama、OpenAI 互換 API

検索拡張生成 (RAG) を実装されている方に向けて、このセクションではテキスト埋め込み（text embeddings）について平易な言葉で解説します。埋め込みとは何か、検索や検索（リトリバル）にどのように組み込まれるか、そしてOllamaやllama.cppベースのサーバーが提供するOpenAI 互換の HTTP API を使用して、Pythonから 2 つの一般的なローカル環境を呼び出す方法を説明します。

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang は、大規模言語モデルおよびマルチモーダルモデル向けの高パフォーマンスなサービングフレームワークであり、単一の GPU から分散クラスターに至るまで、低レイテンシかつ高スループットの推論を提供するために設計されています。

llama.swap モデル切り換え器の OpenAI 互換ローカル LLM 向けクイックスタート

まもなく vLLM や llama.cpp など、それぞれのスタックが独自のポートで稼働している状態に陥ります。下流のシステムはすべて**/v1というベース URL を求めるため、ポート、プロファイル、ワンオフスクリプトを頻繁に変更することになります。llama-swapは、これらのスタックの前に配置される/v1**プロキシです。

AIシステム：セルフホスト型アシスタント、RAG、およびローカルインフラストラクチャ

地元のAI環境の構築は、一般的にモデルとランタイムから始まります。

OpenClaw プラグイン — エコシステムガイドと実用的な選択

プラグインとスキルによる OpenClaw 的生产環境設定パターン

Claude、OpenClaw、およびエージェントのフラット価格付けの終焉

Vane（Perplexica 2.0）Ollama と llama.cpp を使用したクイックスタート

Ollama、llama.cpp用のClaude Codeのインストールと設定、および料金

Hermes AI アシスタント - インストール、設定、ワークフロー、およびトラブルシューティング

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

16GB VRAM LLM ベンチマーク：llama.cpp による速度とコンテキスト評価

オーストラリアにおける RTX 5090 の 2026 年 3 月の価格と在庫の実態

Tailscale または WireGuard を介した Ollama のリモートアクセス（パブリックポートなし）

GPU および永続的なモデルストレージを使用する Docker Compose での Ollama

Caddy または Nginx をリバースプロキシとして使用し、HTTPS ストリーミングを有効にした Ollama

RAG と検索向けのテキスト埋め込み - Python、Ollama、OpenAI 互換 API

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

llama.swap モデル切り換え器の OpenAI 互換ローカル LLM 向けクイックスタート

AIシステム：セルフホスト型アシスタント、RAG、およびローカルインフラストラクチャ