Получение данных против репрезентации в системах знаний

Поиск — это не структура знаний

Содержимое страницы

Большинство современных систем знаний оптимизируют процесс поиска, и это вполне понятно. Поиск нагляден, его легко продемонстрировать, и он кажется магией, когда работает. Введи вопрос — получи ответ.

Но поиск — это лишь половина проблемы. Более глубокий вопрос заключается в следующем:

Какую форму имеет знание до того, как кто-либо попытается его найти?

retrieval vs representation

Это и есть представление — структура, стоящая за знанием:

  • заметки
  • страницы
  • схемы
  • графы
  • сущности
  • отношения
  • резюме
  • таксономии
  • границы источников
  • канонические версии

Поиск спрашивает:

Могу ли я найти что-то релевантное?

Представление спрашивает:

Организовано ли знание так, чтобы оно имело смысл?

Это не одна и та же проблема. Система RAG с плохим представлением становится быстрым интерфейсом к беспорядочному архиву. Она может извлекать фрагменты, но не способна исправить сломанную структуру. Она может цитировать документы, но не может определить, какой из них является каноническим. Она может собрать контекст, но не может гарантировать, что базовое знание является связным.

Вот почему системы в стиле LLM Wiki интересны: они смещают усилия со времени запроса на время загрузки данных. Вместо того чтобы только извлекать фрагменты, когда пользователь задает вопрос, они пытаются заранее структурировать знания в страницы, концепции, резюме и ссылки. Это не делает RAG устаревшим — это означает, что поиск и представление — это разные слои, и хорошим системам знаний нужны оба.

Ключевое различие

Поиск — это вопрос доступа; представление — вопрос смысла.

Слой Вопрос Примеры
Поиск Как мне найти нужную информацию? поиск, эмбеддинги, BM25, пере ранжирование, векторные хранилища
Представление Как структурировано знание? заметки, вики, графы, схемы, онтологии
Рассуждение Как я использую знание? синтез, сравнение, умозаключения, принятие решений

Слабая система часто сразу переходит к поиску; сильная система сначала задает вопросы:

  1. Каковы основные концепции?
  2. Каков канонический источник?
  3. Какие отношения имеют значение?
  4. Что меняется со временем?
  5. Что должно быть найдено?
  6. Что уже должно быть представлено?

В этом разница между поиском по документам и настоящей системой знаний.

Почему поиск стал доминирующим

Поиск стал доминирующим, потому что он хорошо вписывается в современный стек ИИ. Типичный конвейер RAG выглядит следующим образом:

  1. Загрузка документов
  2. Разбиение их на фрагменты (чанки)
  3. Генерация эмбеддингов
  4. Хранение векторов
  5. Извлечение релевантных фрагментов
  6. Опциональное пере ранжирование
  7. Помещение их в промпт LLM
  8. Генерация ответа

Этот конвейер практичен: его относительно легко построить, он работает с хаотичными документами, масштабируется до больших корпусов, избегает переобучения моделей и предоставляет LLM доступ к актуальной информации. Именно поэтому RAG стал стандартным паттерном для «ИИ поверх документов».

Но здесь есть ловушка:

RAG улучшает доступ к знаниям. Он не автоматически улучшает сами знания.

Если ваше содержание дублируется, устарело, противоречиво, плохо разбито на фрагменты или плохо названо, поиск выявит эти проблемы — часто с высокой уверенностью.

Что означает представление

Представление — это то, как знание формируется до того, как происходит поиск. Оно отвечает на такие вопросы, как:

  • Хранится ли это знание в виде документов, заметок, сущностей или фактов?
  • Являются ли отношения явными или неявными?
  • Существуют ли канонические страницы?
  • Есть ли резюме?
  • Связаны ли концепции?
  • Организована ли система по темам, рабочим процессам, времени или владению?
  • Может ли человек поддерживать его?
  • Может ли машина рассуждать на его основе?

Представление — это не украшение — оно определяет, какие виды операций возможны.

Формы представления

Документы

Документы — самая распространенная форма представления. Примеры включают:

  • статьи
  • PDF-файлы
  • руководства
  • отчеты
  • файлы README
  • страницы поддержки
  • посты в блогах

Документы легко писать людям, но они часто трудно поддаются использованию машинами, поскольку смешивают факты, повествование, контекст, примеры, мнения, устаревшие разделы и повторяющиеся объяснения в один контейнер. Документы — хорошие контейнеры, но они не всегда являются хорошей структурой знаний.

Заметки

Заметки более гибки, чем документы. Они могут быть:

  • атомарными
  • связанными
  • частными
  • незавершенными
  • сфокусированными на концепциях

Система заметок, такая как PKM или second brain, может лучше представлять развивающиеся знания, чем отполированный репозиторий документов. Хорошие заметки фиксируют мысли в процессе; плохие заметки становятся ненаходимым ящиком для хлама.

Вики

Вики представляют знания в виде поддерживаемых страниц. Хорошая вики имеет:

  • стабильные страницы
  • четкие темы
  • внутренние ссылки
  • ответственность за содержание
  • канонические ответы
  • паттерны обновления

Вики сильнее, чем беспорядочная свалка документов, потому что она дает знаниям дом. «Чек-лист развертывания» находится в одном месте. «Реакция на инциденты» — в одном месте. «Архитектура RAG» — в одном месте. Это имеет значение, потому что поиск работает лучше, когда знания имеют стабильную структуру.

Графы знаний

Графы знаний представляют знания в виде сущностей и отношений. Вместо того чтобы хранить только текст, они моделируют такие вещи, как:

  • Персона работает над Проектом
  • Модель поддерживает ContextLength
  • Страница зависит от Концепции
  • Сервис подключается к Базе Данных
  • Инструмент реализует Протокол

Графы мощны, потому что отношения становятся явными, что помогает с обходом, анализом зависимостей, разрешением сущностей, происхождением, рассуждениями и рекомендациями. Но графы дорого поддерживать, и они не являются магией — плохой граф — это просто структурированная путаница.

Схемы и онтологии

Схемы определяют ожидаемую структуру; онтологии идут дальше и определяют типы, отношения и ограничения. Они отвечают на вопросы:

  • Какие виды вещей существуют?
  • Какие у них свойства?
  • Как они могут быть связаны?
  • Какие правила применяются?

Это полезно, когда важны правильность, например, в медицинских знаниях, юридических знаниях, корпоративных каталогах данных, таксономиях продуктов и системах соответствия. Компромисс заключается в жесткости: чем более формальным является представление, тем дороже его развитие.

Представления, сгенерированные LLM

Современные системы все чаще используют LLM для создания представлений. Примеры включают:

  • резюме
  • извлеченные сущности
  • тематические страницы
  • карты концепций
  • синтетические FAQ
  • планы документов
  • перекрестные ссылки
  • записи глоссария

Именно здесь находятся системы в стиле LLM Wiki. Они используют модель не только для ответа на запросы, но и для предварительной обработки и структурирования знаний до того, как произойдет запрос. RAG говорит: «извлекайте релевантные фрагменты во время запроса»; LLM Wiki говорит: «компилируйте полезные структуры знаний во время загрузки». Оба паттерна могут сосуществовать в одной архитектуре.

Что означает поиск

Поиск — это процесс нахождения релевантной информации. К распространенным методам поиска относятся:

  • поиск по ключевым словам
  • полнотекстовый поиск
  • векторный поиск
  • гибридный поиск
  • фильтрация по метаданным
  • обход графа
  • пере ранжирование
  • переписывание запроса
  • агентный поиск

Поиск — это не одна вещь — это многослойный стек взаимодополняющих методов.

Поиск по ключевым словам

Поиск по ключевым словам сопоставляет термины и по-прежнему полезен, потому что он предсказуем, отлаживаем, быстр и хорош для точных терминов, идентификаторов, сообщений об ошибках, имен и кода. Его слабость — семантическое несоответствие: если пользователь ищет «как остановить повторяющиеся ответы», но документ говорит о «штрафе за присутствие» (presence penalty), поиск по ключевым словам может пропустить лучший результат.

Векторный поиск

Векторный поиск извлекает данные на основе семантического сходства. Он полезен, когда:

  • формулировки различаются
  • концепции размыты
  • пользователи задают вопросы на естественном языке
  • документы используют непротиворечивую терминологию

Его слабость — точность: векторный поиск может извлекать вещи, которые кажутся связанными, но на самом деле не являются правильными, что особенно рискованно в технических системах.

Гибридный поиск

Гибридный поиск сочетает поиск по ключевым словам и векторный поиск, что часто лучше, чем каждый из них по отдельности. Поиск по ключевым словам улавливает точные совпадения; векторный поиск улавливает концептуальные совпадения. Для технических баз знаний гибридный поиск обычно является сильным значением по умолчанию.

Пере ранжирование

Пере ранжирование берет начальный набор извлеченных результатов и переупорядочивает их, используя более сильную модель. Это улучшает качество, потому что первый шаг поиска часто бывает широким. Типичный паттерн извлекает 50 фрагментов, пере ранжирует до топ-5 или топ-10, а затем передает LLM только лучший контекст. Пере ранжирование — один из самых практичных способов улучшения качества RAG.

Агентный поиск

Агентный поиск превращает поиск в процесс. Вместо одного запроса агент может:

  1. Задать начальный вопрос
  2. Поискать
  3. Осмотреть результаты
  4. Переформулировать запрос
  5. Поискать снова
  6. Сравнить источники
  7. Синтезировать ответ

Это ближе к исследованиям, чем к поиску. Это полезно для сложных вопросов, но это медленнее и сложнее контролировать.

Поиск без представления хрупок

Система поиска может извлечь только то, что существует. Она не может надежно исправить:

  • неясные концепции
  • дублирующиеся страницы
  • противоречивую терминологию
  • устаревшую документацию
  • отсутствие ответственности за источник
  • противоречивые утверждения
  • слабое внутреннее связывание
  • плохие границы документов

Это самая распространенная ошибка в проектах RAG: команды строят векторную базу данных и ожидают, что она станет системой знаний. Векторная база данных — это не архитектура знаний — это слой доступа.

Представление без поиска изолировано

Существует и противоположная неудача. У вас может быть красиво структурированная база знаний, которую никто не может найти. Это происходит с:

  • чрезмерно разработанными вики
  • глубокими деревьями папок
  • жесткими таксономиями
  • плохо индексированной документацией
  • частными системами заметок без возможности обнаружения
  • графами без удобных интерфейсов

Представление дает знаниям структуру; поиск дает знаниям охват. Вам нужны оба.

Карта компромиссов

Скорость против связности

Поиск быстр в построении, а представление занимает больше времени. Если вам нужен прототип, поиск побеждает; если вам нужно долгосрочное доверие, представление имеет большее значение.

Приоритет Лучшая отправная точка
Быстрые вопросы и ответы по многим документам Поиск
Стабильные технические знания Представление
Исследовательские исследования PKM плюс поиск
Корпоративный ассистент Структурированный корпус плюс RAG
Память агента Представление плюс избирательный поиск

Чистый прототип RAG можно собрать быстро, но надежная система знаний требует кураторства.

Гибкость против согласованности

Свободные документы гибки; структурированные знания согласованны. Гибкость помогает, когда:

  • домен быстро меняется
  • знания неполны
  • пользователи исследуют
  • система персональная

Согласованность помогает, когда:

  • на это полагаются несколько человек
  • ответы должны вызывать доверие
  • рабочие процессы зависят от этого
  • системы ИИ потребляют это

Чем больше людей или агентов зависят от знаний, тем важнее представление.

Полнота против точности

Системы поиска часто оптимизируют полноту (recall) в первую очередь, что означает нахождение всего, что может быть релевантным. Но хорошие ответы требуют точности, что означает нахождение лучших доказательств, а не просто связанных доказательств. Представление улучшает точность, делая концепции и границы более четкими — хорошо структурированную страницу легче точно извлечь, чем случайный абзац, похороненный внутри длинного документа.

Стоимость на этапе загрузки против стоимости на этапе запроса

RAG обычно переносит работу на время запроса. Во время запроса система:

  • переписывает запрос
  • извлекает фрагменты
  • пере ранжирует результаты
  • собирает контекст
  • просит модель рассуждать над фрагментами

Системы в стиле LLM Wiki переносят больше работы на время загрузки. Во время загрузки система:

  • читает источники
  • извлекает концепции
  • пишет резюме
  • создает страницы
  • связывает связанные идеи
  • поддерживает структуру
Архитектура Дорогостоящий шаг Преимущество
RAG Время запроса Гибкий поиск
LLM Wiki Время загрузки Предварительно скомпилированная структура
Граф знаний Время моделирования Явные отношения
Вики Время обслуживания Канонические знания

Ни один из них не является универсально лучшим — они оптимизируют разные затраты.

Почему существует LLM Wiki

LLM Wiki существует, потому что один только поиск часто повторяет работу. В обычной системе RAG каждый запрос может заставлять модель снова интерпретировать необработанные фрагменты:

  1. Извлечь фрагменты о теме
  2. Попросить LLM вывести концепцию
  3. Сгенерировать ответ
  4. Забыть синтез
  5. Повторить в следующий раз

LLM Wiki говорит:

Перестаньте пере выводить один и тот же синтез. Скомпилируйте его.

Вместо того чтобы хранить только необработанные документы, она создает структурированные страницы, которые суммируют и связывают знания, что может улучшить связность, повторное использование, эффективность токенов, читаемость человеком и долгосрочное обслуживание. Но у этого есть цена: система должна поддерживать вики, и если вики неверна, устарела или сгаллюцинирована, структура становится опасной.

Галлюцинации RAG против плохого представления

Люди часто обвиняют LLM, когда система RAG дает плохой ответ, и иногда это правильно. Но многие неудачи на самом деле являются неудачами поиска или представления.

Режим отказа 1. Правильный документ, неправильный фрагмент

Ответ существует, но разбиение на фрагменты разбивает его плохо. Модель получает:

  • половину абзаца
  • отсутствующий контекст
  • таблицу без объяснения
  • определение без ограничений

LLM заполняет эти пробелы, что выглядит как галлюцинация, но более глубокая проблема — сломанное представление.

Режим отказа 2. Связанный фрагмент, неправильный ответ

Векторный поиск извлекает что-то семантически похожее, но операционно неправильное. Запрос касается развертывания в производстве; извлеченный фрагмент обсуждает локальную разработку. Термины перекрываются, но смысл различен, поэтому модель отвечает инструкциями по локальной настройке для проблемы производства. Это неточность поиска.

Режим отказа 3. Противоречащие источники

Два документа расходятся во мнениях — один старый, один новый. Система поиска возвращает оба, и LLM объединяет их в уверенный, но недопустимый ответ. Это не только проблема поиска, но и проблема представления, потому что базе знаний не хватает канонического состояния.

Режим отказа 4. Отсутствие модели концепций

Система имеет много документов, но не имеет модели домена. Она не знает, что:

  • «память агента» отличается от «RAG»
  • «вики» отличается от «PKM»
  • «поиск по эмбеддингам» отличается от «полнотекстового поиска»
  • «развертывание» отличается от «хостинга»

Без концептуального представления поиск становится размытым сопоставлением.

Режим отказа 5. Сгенерированная структура становится ложным авторитетом

Системы LLM Wiki имеют свой собственный режим отказа. Если LLM генерирует чистую страницу из плохих источников, результат может выглядеть более авторитетным, чем исходный материал. Это опасно: отполированная галлюцинация хуже, чем беспорядочный исходный документ. Любое сгенерированное представление нуждается в:

  • ссылках на источники
  • обзоре
  • правилах обновления
  • маркерах уверенности
  • ответственности за содержание

Последности для дизайна

Оптимизируйте поиск, когда корпус велик и динамичен

Поиск должен быть приоритетом, когда:

  • корпус огромен
  • документы часто меняются
  • пользователи задают много непредсказуемых вопросов
  • вам нужен широкий охват
  • идеальная структура нереалистична

Примеры: базы знаний поддержки, корпоративный поиск по документам, исследовательские ассистенты, внутренний чат по многим файлам, юридическое раскрытие информации и боты службы поддержки. В этих случаях инвестируйте в сильный поиск:

  • гибридный поиск
  • фильтры метаданных
  • пере ранжирование
  • переписывание запросов
  • цитирование источников
  • наборы для оценки

Оптимизируйте представление, когда важна связность

Представление должно быть приоритетом, когда:

  • знаниям необходимо доверять
  • ответы должны быть согласованными
  • концепции часто переиспользуются
  • домен имеет четкую структуру
  • от него зависят несколько систем

Примеры: архитектурные знания, документация продукта, правила соответствия, справки API, операционные инструкции, курируемые исследовательские коллекции и кластеры технических блогов. В этих случаях инвестируйте в:

  • канонические страницы
  • термины глоссария
  • диаграммы
  • внутренние ссылки
  • ответственность за содержание
  • версионирование
  • частоту обзоров

Оптимизируйте оба, когда системы ИИ зависят от знаний

Если агент ИИ зависит от знаний, одного поиска обычно недостаточно. Агентам нужны:

  • стабильный контекст
  • четкие правила задач
  • долговечная память
  • структурированные ссылки
  • границы источников
  • поведение обновления

Для агентных систем представление становится частью дизайна системы. Кодовому агенту нужно не только извлекать «некоторые документы» — он должен знать:

  • конвенции проекта
  • архитектурные решения
  • паттерны команд
  • запрещенные зависимости
  • рабочий процесс тестирования
  • правила развертывания

Часть из этого принадлежит RAG, часть — памяти, а часть — структурированной документации проекта.

Практическая рамка принятия решений

Если проблема в поиске информации

Оптимизируйте поиск. Примеры:

  • «Найти релевантные страницы».
  • «Ответить на вопросы по документам».
  • «Поискать по многим PDF».
  • «Найти похожие тикеты поддержки».

Используйте:

  • полнотекстовый поиск
  • векторный поиск
  • гибридный поиск
  • пере ранжирование
  • фильтрацию по метаданным

Если проблема в создании связных знаний

Оптимизируйте представление. Примеры:

  • «Создать каноническое объяснение».
  • «Разрешить дублирование страниц».
  • «Определить модель домена».
  • «Построить стабильную базу знаний».

Используйте:

  • страницы вики
  • карты концепций
  • таксономии
  • графы знаний
  • резюме
  • схемы

Если проблема в повторяющемся синтезе

Используйте скомпилированное представление. Примеры:

  • «Мы repeatedly отвечаем на одни и те же концептуальные вопросы».
  • «Система постоянно пере суммирует одни и те же источники».
  • «Нам нужен стабильный слой синтеза».

Используйте:

  • LLM Wiki
  • курируемые резюме
  • тематические страницы
  • сгенерированные страницы, проверенные человеком

Если проблема в адаптивной непрерывности

Используйте память. Примеры:

  • «Агент должен помнить предпочтения пользователя».
  • «Кодовый агент должен помнить конвенции проекта».
  • «Ассистент должен продолжать работу между сеансами».

Используйте:

  • память агента
  • хранилища предпочтений
  • эпизодическую память
  • семантическую память
  • память проекта

Как это применяется к техническому блогу

Технический блог может быть больше, чем последовательность постов — он может стать представленной системой знаний. Статьи — это документы, категории — слабая таксономия, внутренние ссылки — ребра графа, основные страницы — канонические резюме, страницы серий — курируемые пути, а поиск — это извлечение. Если вы публикуете только изолированные посты, поиску приходится работать тяжелее. Если вы строите сильное представление, поиск становится проще.

Это означает:

  • четкие границы кластеров
  • стабильные слэги (slug)
  • канонические страницы
  • страницы сравнения
  • объяснения в стиле глоссария
  • внутренние ссылки
  • структурированные метаданные

Вот почему архитектура сайта имеет значение — не только для SEO, но и потому что это представление знаний. Кластер Knowledge Management на этом сайте сам по себе является примером публикации с приоритетом представления.

Как это применяется к RAG

Качество RAG сильно зависит от представления. Хорошо структурированный исходный корпус улучшает:

  • качество фрагментов
  • точность поиска
  • качество цитирования
  • согласованность ответов
  • ясность оценки

Прежде чем строить сложный конвейер RAG, спросите:

  1. Актуальны ли исходные документы?
  2. Удалены ли дубликаты?
  3. Ясно ли названы важные концепции?
  4. Правильно ли определены области страниц?
  5. Доступны ли таблицы и блоки кода для поиска?
  6. Очевидны ли канонические ответы?
  7. Имеют ли границы документов смысл?

Если ответ — нет, лучшие эмбеддинги помогут лишь в определенной степени.

Как это применяется к LLM Wiki

LLM Wiki — это паттерн с приоритетом представления. Он полезен, когда:

  • корпус мал или среднего размера
  • знания достаточно стабильны для суммирования
  • повторяющийся синтез дорог
  • люди выигрывают от читаемых страниц
  • вам нужна структура до поиска

Он менее полезен, когда:

  • корпус огромен
  • контент постоянно меняется
  • свежесть важнее связности
  • управление слабым
  • сгенерированные резюме не могут быть проверены

LLM Wiki не заменяет RAG, а является другим слоем, и сильная система может использовать оба:

  1. LLM Wiki создает структурированные резюме.
  2. RAG извлекает данные из исходных источников и страниц вики.
  3. Обзор человеком сохраняет доверие к представлению.

Рекомендуемые паттерны архитектуры

Паттерн 1. Сначала поиск

Используйте, когда важна скорость.

documents
  -> chunks
  -> embeddings
  -> retrieval
  -> LLM answer

Хорошо для:

  • прототипов
  • широкого поиска
  • больших корпусов
  • ранних экспериментов

Слабость: связность зависит от качества источников.

Паттерн 2. Сначала представление

Используйте, когда важно доверие.

sources
  -> curated pages
  -> internal links
  -> maintained knowledge base
  -> search or RAG

Хорошо для:

  • документации
  • технических знаний
  • долгосрочного контента
  • командных знаний

Слабость: требует обслуживания.

Паттерн 3. Скомпилированные знания

Используйте, когда важен повторяющийся синтез.

raw sources
  -> LLM extraction
  -> generated summaries
  -> topic pages
  -> reviewed knowledge base
  -> retrieval

Хорошо для:

  • систем LLM Wiki
  • исследовательских коллекций
  • персональных баз знаний
  • стабильных доменов

Слабость: сгенерированная структура должна быть аудирована.

Паттерн 4. Гибридная архитектура знаний

Используйте, когда строите серьезные системы.

raw documents
  -> structured knowledge layer
  -> search index
  -> retrieval and reranking
  -> AI answer
  -> feedback and maintenance

Хорошо для:

  • производственного RAG
  • внутренних систем знаний
  • ИИ-ассистентов
  • систем технического издательства

Слабость: больше движущихся частей.

Вопросы для оценки

Чтобы оценить поиск, спросите:

  • Нашла ли система правильный источник?
  • Отдала ли она правильный источник высокий ранг?
  • Извлекла ли она достаточно контекста?
  • Избегала ли она нерелевантного контекста?
  • Привел ли ответ правильный источник?

Чтобы оценить представление, спросите:

  • Структурированы ли знания четко?
  • Есть ли каноническая страница?
  • Названы ли концепции согласованно?
  • Являются ли отношения явными?
  • Содержится ли контент?
  • Могут ли им пользоваться и люди, и машины?

Не оценивайте систему знаний только по качеству ответа — хороший ответ может скрыть плохую структуру.

Мнение

Если ваша система иногда ошибается, улучшайте поиск. Если она ошибается повторно в одной и той же концептуальной области, улучшайте представление.

Плохой поиск пропускает правильную информацию. Плохое представление означает, что правильная информация на самом деле не существует в usable форме.

Заключение

Поиск и представление решают разные проблемы: поиск дает доступ, представление дает структуру. RAG мощен, потому что он делает внешние знания доступными для LLM во время запроса, но RAG не автоматически делает знания связными, каноническими или поддерживаемыми. Вот почему вики, системы PKM, графы знаний и системы в стиле LLM Wiki по-прежнему имеют значение.

Будущее — не поиск против представления, а многослойные системы знаний:

  • представление для структуры
  • поиск для доступа
  • память для непрерывности
  • рассуждение для синтеза

Если вы строите серьезную систему знаний, не начинайте с векторной базы данных. Начните с формы знаний, а затем решите, как они должны быть найдены.

Источники и дальнейшее чтение

Подписаться

Получайте новые материалы про системы, инфраструктуру и AI engineering.