Qual è il miglior modello di embedding?

L’embedding Qwen 3 su Ollama è probabilmente il miglior embedding LLM al momento.

Modelli Qwen3 Embedding & Reranker su Ollama: Prestazioni all'avanguardia

Nuovi LLM fantastici disponibili in Ollama

Indice

I modelli Qwen3 Embedding e Reranker sono le ultime release della famiglia Qwen, specificamente progettati per compiti avanzati di embedding del testo, recupero e rirango.

Gioia per l’occhio Qwen3 Embedding Reranker Lunghezza del contesto e dimensioni dell’embedding

I modelli Qwen3 Embedding e Reranker rappresentano un significativo avanzamento nel processing del linguaggio naturale multilingue (NLP), offrendo prestazioni all’avanguardia nei compiti di embedding e rirango del testo. Questi modelli, parte della serie Qwen sviluppata da Alibaba, sono progettati per supportare una vasta gamma di applicazioni, dal recupero semantico alla ricerca di codice. Sebbene Ollama sia una popolare piattaforma open source per l’hosting e il deployment di modelli linguistici di grandi dimensioni (LLMs), l’integrazione dei modelli Qwen3 con Ollama non è specificamente dettagliata nella documentazione ufficiale. Tuttavia, i modelli sono accessibili tramite Hugging Face, GitHub e ModelScope, permettendo un potenziale deployment locale tramite Ollama o strumenti simili.

Esempi utilizzando questi modelli

Per favore vedi il codice di esempio in Go utilizzando ollama con questi modelli:

Panoramica dei nuovi modelli Qwen3 Embedding e Reranker su Ollama

Questi modelli sono ora disponibili per il deployment su Ollama in diverse dimensioni, offrendo prestazioni all’avanguardia e flessibilità per una vasta gamma di applicazioni relative al linguaggio e al codice.

Caratteristiche principali e capacità

Dimensioni del modello e flessibilità
- Disponibili in diverse dimensioni: 0,6B, 4B e 8B parametri per entrambi i compiti di embedding e rirango.
- Il modello di embedding da 8B attualmente occupa la posizione numero 1 nella classifica multilingue MTEB (come di giugno 5, 2025, con un punteggio di 70,58).
- Supporta una gamma di opzioni di quantizzazione (Q4, Q5, Q8, ecc.) per bilanciare prestazioni, utilizzo della memoria e velocità. Q5_K_M è consigliato per la maggior parte degli utenti poiché preserva la maggior parte delle prestazioni del modello mentre è efficiente in termini di risorse.
Architettura e addestramento
- Costruiti sulla base del Qwen3, sfruttando sia l’architettura dual-encoder (per gli embedding) che l’architettura cross-encoder (per il rirango).
- Modello di embedding: Processa singoli segmenti di testo, estraiendo rappresentazioni semantiche dallo stato nascosto finale.
- Modello di rirango: Prende coppie di testo (ad esempio, query e documento) e genera un punteggio di rilevanza utilizzando un approccio cross-encoder.
- I modelli di embedding utilizzano un paradigma di addestramento a tre fasi: pre-addestramento contrastivo, addestramento supervisionato con dati di alta qualità e fusione del modello per una generalizzazione e adattabilità ottimali.
- I modelli di rirango vengono addestrati direttamente con dati etichettati di alta qualità per efficienza ed efficacia.
Supporto multilingue e multitask
- Supporta oltre 100 lingue, tra cui linguaggi di programmazione, abilitando capacità robuste di recupero multilingue, cross-lingue e di codice.
- I modelli di embedding permettono definizioni flessibili di vettori e istruzioni definite dagli utenti per adattare le prestazioni a compiti specifici o lingue.
Prestazioni e casi d’uso
- Risultati all’avanguardia nel recupero del testo, recupero del codice, classificazione, clustering e mining di bitext.
- I modelli di rirango eccellono in vari scenari di recupero del testo e possono essere combinati in modo fluido con i modelli di embedding per pipeline di recupero end-to-end.

Come utilizzarli su Ollama

Puoi eseguire questi modelli su Ollama con comandi come:

ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Reranker-0.6B:F16

Scegli la versione di quantizzazione che meglio si adatta alle tue esigenze hardware e di prestazioni.

Tabella riassuntiva

Tipo di modello	Dimensioni disponibili	Forza principale	Supporto multilingue	Opzioni di quantizzazione
Embedding	0,6B, 4B, 8B	Punteggi MTEB di alto livello, flessibili, efficienti, SOTA	Sì (100+ lingue)	Q4, Q5, Q6, Q8, ecc.
Reranker	0,6B, 4B, 8B	Eccellente nel rilevamento di coppie di testo, efficiente, flessibile	Sì	F16, Q4, Q5, ecc.

Notizia fantastica!

I modelli Qwen3 Embedding e Reranker su Ollama rappresentano un significativo balzo in avanti nelle capacità di recupero multilingue e multitask del testo e del codice. Con opzioni di deployment flessibili, prestazioni di benchmark forti e supporto per una vasta gamma di lingue e compiti, sono adatti sia per ambienti di ricerca che per produzione.

Model zoo - piacere per l’occhio ora

Qwen3 Embedding

https://ollama.com/dengcao/Qwen3-Embedding-8B

Qwen3 Embedding 8b

https://ollama.com/dengcao/Qwen3-Embedding-4B/tags

Qwen3 Embedding 4b

https://ollama.com/dengcao/Qwen3-Embedding-0.6B/tags

Qwen3 Embedding 0.6b

Qwen3 Reranker

https://ollama.com/dengcao/Qwen3-Reranker-8B

Qwen3 Reranker 8b

dengcao/Qwen3-Reranker-8B:Q3_K_M
dengcao/Qwen3-Reranker-8B:Q5_K_M

https://ollama.com/dengcao/Qwen3-Reranker-4B/tags

dengcao/Qwen3-Reranker-4B:Q5_K_M

Qwen3-Reranker-4B

https://ollama.com/dengcao/Qwen3-Reranker-0.6B/tags

Qwen3-Reranker-0.6B

Bello!