Переранжирование с использованием моделей встраивания

Python-код для переранжирования RAG

Содержимое страницы

Reranking является вторым этапом в Retrieval Augmented Generation
(RAG) системах,
расположенным между этапами Retrieving и Generating.

Электрические кубы в цифровом пространстве

Вышеизображённое показывает, как Flux-1 dev представляет Электрические кубы в цифровом пространстве.

Retrieval с reranking

Если документы хранятся в виде эмбеддингов в векторной базе данных с самого начала — этап Retrieving сразу предоставит список похожих документов.

Самостоятельный reranking

Однако, если сначала загружать документы из интернета, ответ системы поиска может быть искажён предпочтениями/алгоритмами поставщика поиска, спонсорским контентом, оптимизацией SEO и т.п. Поэтому требуется пост-поисковый reranking.

Что я делал:

  • Получал эмбеддинги для запроса поиска
  • Получал эмбеддинги для каждого документа. Документы в любом случае не ожидались более чем 8k токенов
  • Вычислял схожесть между запросом и эмбеддингами каждого документа
  • Сортировал документы по этой схожести.

Нет векторной базы данных здесь, давайте посмотрим.

Пример кода

Использование Langchain для подключения к Ollama и функции cosine_similarity из langchain. Вы можете фильтровать по мере схожести, но учитывайте, что порог будет различаться для разных доменов и LLM-эмбеддингов.

Буду рад, если этот фрагмент кода окажется полезным для вас каким-либо образом. Лицензия: Copy/Paste/UseAnyWayYouWant. Спасибо.

from langchain_core.documents import Document
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.utils.math import cosine_similarity
import numpy as np


def cosine_distance(a: np.ndarray, b: np.ndarray) -> np.ndarray:
    return 1.0 - cosine_similarity(a, b)

def compute_score(vectors: np.ndarray) -> float:
    score = cosine_distance(vectors[0].reshape(1, -1), vectors[1].reshape(1, -1)).item()
    return score

def list_to_array(lst):
    return np.array(lst, dtype=float)   

def compute_scorel(lists) -> float:
    v1 = list_to_array(lists[0])
    v2 = list_to_array(lists[1])
    return compute_score([v1, v2])

def filter_docs(emb_model_name, docs, query, num_docs):
    content_arr = [doc.page_content for doc in docs]

    ollama_emb = OllamaEmbeddings(
        model=emb_model_name
    )

    docs_embs = ollama_emb.embed_documents(content_arr)
    query_embs = ollama_emb.embed_query(query)
    sims = []
    for i, emb in enumerate(docs_embs):
        idx = docs[i].id
        s = compute_scorel([query_embs, docs_embs[i]])
        simstr = str(round(s, 4))
        docs[i].metadata["sim"] = simstr
        sim = {
            "idx": idx,
            "i": i,
            "sim": s,
        }
        sims.append(sim)

    sims.sort(key=sortFn)

    sorted_docs = [docs[x["i"]] for x in sims]
    filtered_docs = sorted_docs[:num_docs]
    return filtered_docs

Лучшие модели эмбеддингов

Для моих задач наилучшей моделью эмбеддингов на данный момент является bge-large:335m-en-v1.5-fp16

На втором месте оказались nomic-embed-text:137m-v1.5-fp16 и jina/jina-embeddings-v2-base-en:latest.

Но проведите собственные тесты для вашего собственного домена и запросов.

Полезные ссылки