RAG - Rost Glukhov | 個人サイトとテクニカルブログ

RAG と検索向けのテキスト埋め込み - Python、Ollama、OpenAI 互換 API

検索拡張生成 (RAG) を実装されている方に向けて、このセクションではテキスト埋め込み（text embeddings）について平易な言葉で解説します。埋め込みとは何か、検索や検索（リトリバル）にどのように組み込まれるか、そしてOllamaやllama.cppベースのサーバーが提供するOpenAI 互換の HTTP API を使用して、Pythonから 2 つの一般的なローカル環境を呼び出す方法を説明します。

Chunking は、Retrieval ‑ Augmented Generation (RAG) において 最も過小評価されている ハイパラメータです。
静かに、LLM が「何を見ているか」を決定し、インジェストのコストをどのくらい高めるか、そしてLLMのコンテキストウィンドウがどのくらい使われるかを決めています。

検索拡張生成（RAG）チュートリアル：アーキテクチャ、実装、および本番導入ガイド

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.