AI - Page 2 - Rost Glukhov | 個人サイトとテクニカルブログ

正しいベクトルストアを選択することで、RAGアプリケーションの性能、コスト、拡張性が大きく左右されます。この包括的な比較では、2024年～2025年の最も人気のあるオプションをカバーしています。

OllamaのWeb検索APIは、ローカルLLMにリアルタイムのウェブ情報を補完する機能を提供します。このガイドでは、GoでのWeb検索の実装について、単純なAPI呼び出しからフル機能の検索エージェントまでの実装方法を示します。

2025年後半にかけて、メモリ市場はかつてない価格のボラティリティに直面しています。すべてのセグメントにわたってRAMの価格が急騰しており、RAM価格の急騰が深刻な状況となっています。

ローカルLLMホスティング：2026年完全ガイド - Ollama、vLLM、LocalAI、Jan、LM Studio など

ローカルでのLLMの展開は、開発者や組織がプライバシーを高め、レイテンシーを減らし、AIインフラストラクチャの制御を強化するための手段として、ますます人気になってきています。

AIおよび機械学習（ML）ワークロードがますます複雑になるにつれて、強固なオーケストレーションシステムの必要性が高まっています。Goのシンプルさ、パフォーマンス、並行処理能力は、MLパイプラインのオーケストレーションレイヤーを構築する際に理想的な選択肢です。モデル自体がPythonで書かれている場合でも、Goは理想的な選択肢です。https://www.glukhov.org/ja/post/2025/11/go-microservices-for-ai-ml-orchestration-patterns/ “Go in ML orchestration pipelines”。

クロスモーダル埋め込みは、人工知能において画期的な進展をもたらし、統一された表現空間内で異なるデータタイプ間の理解と推論を可能にします。

AIの民主化はここにあります。 Llama 3、Mixtral、QwenなどのオープンソースLLMが、今やプロプライエタリモデルと同等の性能を発揮するようになり、チームは消費者ハードウェアを使用して強力なAIインフラストラクチャを構築できるようになりました。これにより、コストを削減しながらも、データプライバシーやデプロイメントに関する完全なコントロールを維持することが可能です。

リトリーバル・オーガナイズド・ジェネレーション (RAG) は単純なベクトル類似性検索を超えています。 LongRAG、Self-RAG、GraphRAGはこれらの能力の最先端を代表しています。

FLUX.1-dev は、驚くほど美しい画像を生成できる強力なテキストから画像生成モデルですが、24GB以上のメモリが必要なため、多くのシステムでは実行が難しいです。 GGUF量化されたFLUX.1-dev は、メモリ使用量を約50％削減しながらも、優れた画像品質を維持するという解決策を提供します。

ドッカー・モデル・ランナーでのコンテキストサイズの設定は、本来よりも複雑です。

ブラックフォレスト・ラボズは、FLUX.1-Kontext-devという高度な画像から画像へのAIモデルをリリースしました。このモデルは、テキストの指示を使って既存の画像を補強します。

Docker Model Runner は、AIモデルをローカルで実行するためのDocker公式ツールですが、NVIDIA GPU加速をDocker Model Runnerで有効にするには特定の設定が必要です。

トークン最適化は、コスト効率の良いLLMアプリケーションから予算を圧迫する実験を分ける重要なスキルです。

Immich は、あなたの思い出を完全にコントロールできる、革新的なオープンソースでセルフホスト型の写真および動画管理ソリューションです。Google Photos と競合する機能を備えており、AI による顔認識、スマート検索、自動モバイルバックアップを含みながら、あなたのデータをプライバシーとセキュリティを保ったまま、あなたのサーバー上に保管します。

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaのパフォーマンス比較

私は、NVIDIA DGX Spark、Mac Studio、およびRTX 4080の3つの異なるプラットフォーム上で、Ollama上で動作するGPT-OSS 120bの興味深いパフォーマンステストをいくつか見つけました。OllamaライブラリのGPT-OSS 120bモデルは65GBあり、これはRTX 4080（または新しいRTX 5080の16GBのVRAMには収まらないことを意味します。

モデルコンテキストプロトコル（MCP）は、AIアシスタントが外部データソースやツールとどのように相互作用するかを革命的に変えてきました。本ガイドでは、ウェブ検索およびスクレイピング機能に焦点を当てた例を用いて、MCPサーバーをPythonで構築する方法について説明します。

AI

RAG用ベクターストアの比較

GoでOllama Web Search APIを使用する

RAM価格の急騰：2025年には最大619％上昇

ローカルLLMホスティング：2026年完全ガイド - Ollama、vLLM、LocalAI、Jan、LM Studio など

AI/MLオーケストレーション用のGoマイクロサービス

クロスモーダル埋め込み: AIモダリティの橋渡し

コンシューマーハードウェア上のAIインフラ

高度なRAG：LongRAG、Self-RAGおよびGraphRAGの解説

PythonでFLUX.1-dev GGUF Q8を実行しています

Dockerモデルランナー: コンテキストサイズ設定ガイド

FLUX.1-Kontext-dev: 画像拡張AIモデル

DockerモデルランナーにNVIDIA GPUサポートを追加する

LLMコストの削減：トークン最適化戦略

Self-Hosting Immich: プライベート写真クラウド

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaのパフォーマンス比較

PythonでMCPサーバーを構築する：ウェブ検索とスクレイピングガイド