¿Cómo reordenar documentos de texto con Ollama?

Para reordenar documentos de texto con Ollama, debe llamar al modelo de incrustación en Ollama para calcular incrustaciones, luego calcular la similitud coseno entre las incrustaciones de la solicitud original y las incrustaciones de cada documento.

Reclasificación de textos con Ollama y Qwen3 Embedding LLM - en Go

Implementando RAG? Aquí hay algunos fragmentos de código en Golang...

Índice

Este pequeño Ejemplo de código Go para reranking llama a Ollama para generar embeddings para la consulta y para cada documento candidato, luego ordenando de forma descendente por similitud coseno.

Ya hemos hecho una actividad similar - Reranking con modelos de embeddings pero eso fue en python, con un LLM diferente y casi un año atrás.

Otro código similar, pero usando Qwen3 Reranker:

Reranking de documentos de texto con Ollama y modelo Qwen3 Reranker - en Go

llamas de diferentes alturas - reranking con ollama

TL;DR

El resultado parece muy bueno, la velocidad es 0.128s por documento. La pregunta se cuenta como un documento. Y el ordenamiento y la impresión también se incluyen en esta estadística.

Consumo de memoria de LLM: Aunque el tamaño del modelo en el disco duro (ollama ls) es menor que 3GB

dengcao/Qwen3-Embedding-4B:Q5_K_M           7e8c9ad6885b    2.9 GB

En la VRAM de la GPU toma (no un poco) más: 5.5GB. (ollama ps)

NAME                                 ID              SIZE
dengcao/Qwen3-Embedding-4B:Q5_K_M    7e8c9ad6885b    5.5 GB

Si tienes una GPU de 8GB - debería estar bien.

Prueba de reranking con embeddings en Ollama - Salida de ejemplo

En los tres casos de prueba reranking con embeddings usando el modelo dengcao/Qwen3-Embedding-4B:Q5_K_M de Ollama fue increíble! Véanlo ustedes mismos.

Tenemos 7 archivos que contienen algunos textos que describen lo que dice su nombre de archivo:

ai_introduction.txt
machine_learning.md
qwen3-reranking-models.md
ollama-parallelism.md
ollama-reranking-models.md
programming_basics.txt
setup.log

ejecuciones de prueba:

Prueba de reranking: ¿Qué es la inteligencia artificial y cómo funciona el aprendizaje automático?

./rnk example_query.txt example_docs/

Usando modelo de embedding: dengcao/Qwen3-Embedding-4B:Q5_K_M
URL base de Ollama: http://localhost:11434
Procesando archivo de consulta: example_query.txt, directorio objetivo: example_docs/
Consulta: ¿Qué es la inteligencia artificial y cómo funciona el aprendizaje automático?
Encontrados 7 documentos
Extrayendo embedding de consulta...
Procesando documentos...

=== ORDENAMIENTO POR SIMILITUD ===
1. example_docs/ai_introduction.txt (Puntuación: 0.451)
2. example_docs/machine_learning.md (Puntuación: 0.388)
3. example_docs/qwen3-reranking-models.md (Puntuación: 0.354)
4. example_docs/ollama-parallelism.md (Puntuación: 0.338)
5. example_docs/ollama-reranking-models.md (Puntuación: 0.318)
6. example_docs/programming_basics.txt (Puntuación: 0.296)
7. example_docs/setup.log (Puntuación: 0.282)

Procesados 7 documentos en 0.899s (promedio: 0.128s por documento)

Prueba de reranking: ¿Cómo maneja Ollama las solicitudes paralelas?

./rnk example_query2.txt example_docs/

Usando modelo de embedding: dengcao/Qwen3-Embedding-4B:Q5_K_M
URL base de Ollama: http://localhost:11434
Procesando archivo de consulta: example_query2.txt, directorio objetivo: example_docs/
Consulta: ¿Cómo maneja Ollama las solicitudes paralelas?
Encontrados 7 documentos
Extrayendo embedding de consulta...
Procesando documentos...

=== ORDENAMIENTO POR SIMILITUD ===
1. example_docs/ollama-parallelism.md (Puntuación: 0.557)
2. example_docs/qwen3-reranking-models.md (Puntuación: 0.532)
3. example_docs/ollama-reranking-models.md (Puntuación: 0.498)
4. example_docs/ai_introduction.txt (Puntuación: 0.366)
5. example_docs/machine_learning.md (Puntuación: 0.332)
6. example_docs/programming_basics.txt (Puntuación: 0.307)
7. example_docs/setup.log (Puntuación: 0.257)

Procesados 7 documentos en 0.858s (promedio: 0.123s por documento)

Prueba de reranking: ¿Cómo podemos hacer el reranking del documento con Ollama?

./rnk example_query3.txt example_docs/

Usando modelo de embedding: dengcao/Qwen3-Embedding-4B:Q5_K_M
URL base de Ollama: http://localhost:11434
Procesando archivo de consulta: example_query3.txt, directorio objetivo: example_docs/
Consulta: ¿Cómo podemos hacer el reranking del documento con Ollama?
Encontrados 7 documentos
Extrayendo embedding de consulta...
Procesando documentos...

=== ORDENAMIENTO POR SIMILITUD ===
1. example_docs/ollama-reranking-models.md (Puntuación: 0.552)
2. example_docs/ollama-parallelism.md (Puntuación: 0.525)
3. example_docs/qwen3-reranking-models.md (Puntuación: 0.524)
4. example_docs/ai_introduction.txt (Puntuación: 0.369)
5. example_docs/machine_learning.md (Puntuación: 0.346)
6. example_docs/programming_basics.txt (Puntuación: 0.316)
7. example_docs/setup.log (Puntuación: 0.279)

Procesados 7 documentos en 0.882s (promedio: 0.126s por documento)

Código fuente de Go

Pon todo en una carpeta y compílalo como

go build -o rnk

No dudes en usarlo para cualquier propósito entretenido o comercial o subirlo a GitHub si te gusta. Licencia MIT.

main.go

package main

import (
	"fmt"
	"log"
	"os"
	"sort"
	"time"

	"github.com/spf13/cobra"
)

var rootCmd = &cobra.Command{
	Use:   "rnk [query-file] [target-directory]",
	Short: "Sistema RAG usando embeddings de Ollama",
	Long:  "Un sistema RAG simple que extrae embeddings y ordena documentos usando Ollama",
	Args:  cobra.ExactArgs(2),
	Run:   runRnk,
}

var (
	embeddingModel string
	ollamaBaseURL  string
)

func init() {
	rootCmd.Flags().StringVarP(&embeddingModel, "model", "m", "dengcao/Qwen3-Embedding-4B:Q5_K_M", "Modelo de embedding a usar")
	rootCmd.Flags().StringVarP(&ollamaBaseURL, "url", "u", "http://localhost:11434", "URL base de Ollama")
}

func main() {
	if err := rootCmd.Execute(); err != nil {
		fmt.Println(err)
		os.Exit(1)
	}
}

func runRnk(cmd *cobra.Command, args []string) {
	queryFile := args[0]
	targetDir := args[1]

	startTime := time.Now()

	fmt.Printf("Usando modelo de embedding: %s\n", embeddingModel)
	fmt.Printf("URL base de Ollama: %s\n", ollamaBaseURL)
	fmt.Printf("Procesando archivo de consulta: %s, directorio objetivo: %s\n", queryFile, targetDir)

	// Leer consulta desde archivo
	query, err := readQueryFromFile(queryFile)
	if err != nil {
		log.Fatalf("Error al leer archivo de consulta: %v", err)
	}
	fmt.Printf("Consulta: %s\n", query)

	// Encontrar todos los archivos de texto en el directorio objetivo
	documents, err := findTextFiles(targetDir)
	if err != nil {
		log.Fatalf("Error al encontrar archivos de texto: %v", err)
	}
	fmt.Printf("Encontrados %d documentos\n", len(documents))

	// Extraer embeddings para la consulta
	fmt.Println("Extrayendo embedding de consulta...")
	queryEmbedding, err := getEmbedding(query, embeddingModel, ollamaBaseURL)
	if err != nil {
		log.Fatalf("Error al obtener embedding de consulta: %v", err)
	}

	// Procesar documentos
	fmt.Println("Procesando documentos...")
	validDocs := make([]Document, 0)

	for _, doc := range documents {
		embedding, err := getEmbedding(doc.Content, embeddingModel, ollamaBaseURL)
		if err != nil {
			fmt.Printf("Advertencia: Fallo al obtener embedding para %s: %v\n", doc.Path, err)
			continue
		}

		similarity := cosineSimilarity(queryEmbedding, embedding)
		doc.Score = similarity
		validDocs = append(validDocs, doc)
	}

	if len(validDocs) == 0 {
		log.Fatalf("No se pudieron procesar documentos válidos")
	}

	// Ordenar por puntuación de similitud (descendente)
	sort.Slice(validDocs, func(i, j int) bool {
		return validDocs[i].Score > validDocs[j].Score
	})

	// Mostrar resultados
	fmt.Println("\n=== ORDENAMIENTO POR SIMILITUD ===")
	for i, doc := range validDocs {
		fmt.Printf("%d. %s (Puntuación: %.3f)\n", i+1, doc.Path, doc.Score)
	}

	totalTime := time.Since(startTime)
	avgTimePerDoc := totalTime / time.Duration(len(validDocs))

	fmt.Printf("\nProcesados %d documentos en %.3fs (promedio: %.3fs por documento)\n",
		len(validDocs), totalTime.Seconds(), avgTimePerDoc.Seconds())
}

documents.go

package main

import (
	"fmt"
	"os"
	"path/filepath"
	"strings"
)

func readQueryFromFile(filename string) (string, error) {
	content, err := os.ReadFile(filename)
	if err != nil {
		return "", err
	}
	return strings.TrimSpace(string(content)), nil
}

func findTextFiles(dir string) ([]Document, error) {
	var documents []Document

	err := filepath.Walk(dir, func(path string, info os.FileInfo, err error) error {
		if err != nil {
			return err
		}

		if !info.IsDir() && isTextFile(path) {
			content, err := os.ReadFile(path)
			if err != nil {
				fmt.Printf("Advertencia: No se pudo leer el archivo %s: %v\n", path, err)
				return nil
			}

			documents = append(documents, Document{
				Path:    path,
				Content: string(content),
			})
		}

		return nil
	})

	return documents, err
}

func isTextFile(filename string) bool {
	ext := strings.ToLower(filepath.Ext(filename))
	textExts := []string{".txt", ".md", ".rst", ".csv", ".json", ".xml", ".html", ".htm", ".log"}
	for _, textExt := range textExts {
		if ext == textExt {
			return true
		}
	}
	return false
}

embeddings.go

package main

import (
	"bytes"
	"encoding/json"
	"fmt"
	"io"
	"net/http"
)

func getEmbedding(text string, model string, ollamaBaseURL string) ([]float64, error) {
	req := OllamaEmbeddingRequest{
		Model:  model,
		Prompt: text,
	}

	jsonData, err := json.Marshal(req)
	if err != nil {
		return nil, err
	}

	resp, err := http.Post(ollamaBaseURL+"/api/embeddings", "application/json", bytes.NewBuffer(jsonData))
	if err != nil {
		return nil, err
	}
	defer resp.Body.Close()

	if resp.StatusCode != http.StatusOK {
		body, _ := io.ReadAll(resp.Body)
		return nil, fmt.Errorf("error de API de Ollama: %s", string(body))
	}

	var embeddingResp OllamaEmbeddingResponse
	if err := json.NewDecoder(resp.Body).Decode(&embeddingResp); err != nil {
		return nil, err
	}

	return embeddingResp.Embedding, nil
}

similarity.go

package main

func cosineSimilarity(a, b []float64) float64 {
	if len(a) != len(b) {
		return 0
	}

	var dotProduct, normA, normB float64

	for i := range a {
		dotProduct += a[i] * b[i]
		normA += a[i] * a[i]
		normB += b[i] * b[i]
	}

	if normA == 0 || normB == 0 {
		return 0
	}

	return dotProduct / (sqrt(normA) * sqrt(normB))
}

func sqrt(x float64) float64 {
	if x == 0 {
		return 0
	}
	z := x
	for i := 0; i < 10; i++ {
		z = (z + x/z) / 2
	}
	return z
}

types.go

package main

// OllamaEmbeddingRequest representa la carga útil de la solicitud para la API de embedding de Ollama
type OllamaEmbeddingRequest struct {
	Model  string `json:"model"`
	Prompt string `json:"prompt"`
}

// OllamaEmbeddingResponse representa la respuesta de la API de embedding de Ollama
type OllamaEmbeddingResponse struct {
	Embedding []float64 `json:"embedding"`
}

// Document representa un documento con su metadato
type Document struct {
	Path    string
	Content string
	Score   float64
}