Modelli Qwen3 Embedding & Reranker su Ollama: Prestazioni all'avanguardia
Nuovi LLM fantastici disponibili in Ollama
I modelli Qwen3 Embedding e Reranker sono le ultime release della famiglia Qwen, specificamente progettati per compiti avanzati di embedding del testo, recupero e rirango.
Gioia per l’occhio
I modelli Qwen3 Embedding e Reranker rappresentano un significativo avanzamento nel processing del linguaggio naturale multilingue (NLP), offrendo prestazioni all’avanguardia nei compiti di embedding e rirango del testo. Questi modelli, parte della serie Qwen sviluppata da Alibaba, sono progettati per supportare una vasta gamma di applicazioni, dal recupero semantico alla ricerca di codice. Sebbene Ollama sia una piattaforma open-source popolare per l’hosting e il deployment di modelli linguistici di grandi dimensioni (LLMs), l’integrazione dei modelli Qwen3 con Ollama non è dettagliata esplicitamente nella documentazione ufficiale. Tuttavia, i modelli sono accessibili tramite Hugging Face, GitHub e ModelScope, consentendo un potenziale deployment locale tramite Ollama o strumenti simili.
Panoramica dei nuovi modelli Qwen3 Embedding e Reranker su Ollama
Questi modelli sono ora disponibili per il deployment su Ollama in diverse dimensioni, offrendo prestazioni all’avanguardia e flessibilità per una vasta gamma di applicazioni relative al linguaggio e al codice.
Funzionalità e capacità principali
-
Dimensioni del modello e flessibilità
- Disponibili in diverse dimensioni: 0,6B, 4B e 8B parametri per entrambi i compiti di embedding e rirango.
- Il modello di embedding da 8B attualmente occupa la posizione numero 1 nella classifica multilingue MTEB (come di giugno 5, 2025, con un punteggio di 70,58).
- Supporta una gamma di opzioni di quantizzazione (Q4, Q5, Q8, ecc.) per bilanciare prestazioni, utilizzo della memoria e velocità. Si consiglia Q5_K_M per la maggior parte degli utenti, poiché preserva la maggior parte delle prestazioni del modello mentre è efficiente in termini di risorse.
-
Architettura e addestramento
- Costruiti sulla base del Qwen3, sfruttando sia l’architettura dual-encoder (per gli embedding) che l’architettura cross-encoder (per il rirango).
- Modello di embedding: Processa singoli segmenti di testo, estraiendo rappresentazioni semantiche dallo stato nascosto finale.
- Modello di rirango: Prende coppie di testo (ad esempio, query e documento) e genera un punteggio di rilevanza utilizzando un approccio cross-encoder.
- I modelli di embedding utilizzano un paradigma di addestramento a tre fasi: pre-addestramento contrastivo, addestramento supervisionato con dati di alta qualità e fusione del modello per una generalizzazione e adattabilità ottimali.
- I modelli di rirango vengono addestrati direttamente con dati etichettati di alta qualità per efficienza ed efficacia.
-
Supporto multilingue e multitask
- Supporta oltre 100 lingue, tra cui linguaggi di programmazione, abilitando capacità robuste di recupero multilingue, cross-lingue e di codice.
- I modelli di embedding consentono definizioni flessibili di vettori e istruzioni definite dagli utenti per adattare le prestazioni a compiti o lingue specifiche.
-
Prestazioni e casi d’uso
- Risultati all’avanguardia in recupero del testo, recupero del codice, classificazione, clustering e mining di bitesto.
- I modelli di rirango eccellono in vari scenari di recupero del testo e possono essere combinati senza problemi con i modelli di embedding per pipeline di recupero end-to-end.
Come utilizzarli su Ollama
Puoi eseguire questi modelli su Ollama con comandi come:
ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Reranker-0.6B:F16
Scegli la versione di quantizzazione che meglio si adatta alle tue esigenze hardware e di prestazioni.
Tabella riassuntiva
Tipo di modello | Dimensioni disponibili | Principali vantaggi | Supporto multilingue | Opzioni di quantizzazione |
---|---|---|---|---|
Embedding | 0,6B, 4B, 8B | Punteggi MTEB di alto livello, flessibili, efficienti, SOTA | Sì (100+ lingue) | Q4, Q5, Q6, Q8, ecc. |
Reranker | 0,6B, 4B, 8B | Eccellente per la rilevanza delle coppie di testo, efficiente, flessibile | Sì | F16, Q4, Q5, ecc. |
Notizia fantastica!
I modelli Qwen3 Embedding e Reranker su Ollama rappresentano un significativo balzo in avanti nelle capacità di recupero multilingue e multitask del testo e del codice. Con opzioni di deployment flessibili, prestazioni di benchmark forti e supporto per una vasta gamma di lingue e compiti, sono adatti sia per ambienti di ricerca che di produzione.
Model zoo - piacere per l’occhio ora
Qwen3 Embedding
https://ollama.com/dengcao/Qwen3-Embedding-8B
https://ollama.com/dengcao/Qwen3-Embedding-4B/tags
https://ollama.com/dengcao/Qwen3-Embedding-0.6B/tags
Qwen3 Reranker
https://ollama.com/dengcao/Qwen3-Reranker-8B
dengcao/Qwen3-Reranker-8B:Q3_K_M
dengcao/Qwen3-Reranker-8B:Q5_K_M
https://ollama.com/dengcao/Qwen3-Reranker-4B/tags
dengcao/Qwen3-Reranker-4B:Q5_K_M
https://ollama.com/dengcao/Qwen3-Reranker-0.6B/tags
Bellissimo!
Link utili
- Rirango di documenti di testo con Ollama e modello Qwen3 Embedding - in Go
- Ollama cheatsheet
- Spostare i modelli Ollama su un diverso disco o cartella
- Self-hosting Perplexica - con Ollama
- Test: Come Ollama utilizza le prestazioni del processore Intel e i core efficienti
- Velocità delle prestazioni LLM
- Confronto delle capacità di sintesi degli LLM
- Fornitori di LLM in cloud
- Come Ollama gestisce le richieste parallele
- Confronto della qualità della traduzione delle pagine Hugo - LLMs su Ollama