Exécuter les modèles d'embedding et de reranking Qwen3 localement avec Ollama

Le monde des grands modèles linguistiques (LLM) se développe à un rythme explosif, mais pendant longtemps, l'accès à des capacités de pointe impliquait de dépendre d'API basées sur le cloud. Cette dépendance s'accompagne souvent de préoccupations concernant la confidentialité, les coûts et la personnalisation. Cependant, la tendance s'inverse grâce à de puissants modèles open source et à des outils comme Ollama qui facilitent plus que jamais leur exécution sur votre machine locale.

Parmi les développements récents les plus passionnants figure la sortie de la famille de modèles Qwen3 par Alibaba Cloud. Ces modèles, en particulier les versions spécialisées d'intégration (embedding) et de reranker, établissent de nouvelles références en matière de performances. Associés à Ollama, ils constituent une boîte à outils puissante pour les développeurs et les chercheurs souhaitant créer des applications d'IA sophistiquées, telles que des moteurs de recherche avancés et des systèmes de génération augmentée par récupération (RAG), le tout depuis le confort de leur propre matériel.

Cet article est votre guide complet et étape par étape pour exploiter cette puissance. Nous démystifierons ce que sont les modèles d'intégration (embedding) et de reranker, nous vous guiderons à travers la configuration d'Ollama et nous fournirons du code Python pratique pour exécuter les modèles d'intégration et de reranker Qwen3 pour un flux de travail RAG complet de bout en bout.

💡

Vous voulez un excellent outil de test d'API qui génère de la belle documentation API ?

Vous voulez une plateforme intégrée tout-en-un pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos exigences et remplace Postman à un prix beaucoup plus abordable !

bouton

Le duo de choc : Comprendre les modèles d'intégration (embedding) et de reranker

Avant de plonger dans le "comment", comprenons le "quoi". Dans le contexte d'un système RAG, les modèles d'intégration (embedding) et de reranker jouent des rôles distincts mais complémentaires.

1. Le Bibliothécaire : Le modèle d'intégration (Embedding Model)

Imaginez une immense bibliothèque avec des millions de livres mais sans système de catalogage. Trouver des informations serait un cauchemar. Un modèle d'intégration est comme un bibliothécaire hyper-intelligent qui lit chaque document et lui attribue un emplacement spécifique dans un vaste "espace conceptuel" multidimensionnel.

Techniquement, un embedding de texte est un processus qui convertit un morceau de texte (un mot, une phrase ou un document entier) en un vecteur dense de nombres. Ce vecteur capture le sens sémantique du texte. Les documents ayant des significations similaires auront des vecteurs "proches" les uns des autres dans cet espace.

Lorsque vous avez une requête, le modèle d'intégration convertit votre question en un vecteur, puis recherche dans la bibliothèque les vecteurs de documents qui en sont les plus proches. Cette recherche initiale est incroyablement efficace et récupère un large ensemble de documents potentiellement pertinents.

2. Le Consultant Expert : Le modèle Reranker

La récupération initiale du modèle d'intégration est rapide, mais elle n'est pas toujours parfaite. Elle peut extraire des documents qui sont thématiquement liés mais ne répondent pas précisément à la requête de l'utilisateur. C'est là qu'intervient le reranker.

Si le modèle d'intégration est un bibliothécaire généraliste, le reranker est un expert en la matière. Il prend les meilleurs résultats de la recherche initiale et effectue une analyse plus nuancée et plus intensive en calcul. Au lieu de comparer un vecteur de requête à des vecteurs de documents indépendamment, un modèle de reranker (généralement un encodeur croisé) examine la requête et chaque document comme une paire.

Cette comparaison directe permet au reranker de calculer un score de pertinence beaucoup plus précis. Il réorganise ensuite les documents en fonction de ce score, poussant les résultats les plus pertinents vers le haut. Ce processus en deux étapes — une récupération initiale rapide suivie d'un reranking précis — est le secret des performances RAG de pointe.

Découvrez les modèles Qwen3 : Une nouvelle référence en matière d'IA open source

La série Qwen3 d'Alibaba Cloud n'est pas qu'un simple ensemble de modèles ; elle représente un bond en avant significatif dans le traitement du langage naturel (NLP) open source. Voici ce qui distingue les modèles d'intégration (embedding) et de reranker :

Performances de pointe : Le modèle Qwen3-Embedding-8B, au moment de sa sortie, a atteint la première place du classement multilingue très compétitif MTEB (Massive Text Embedding Benchmark), surpassant de nombreux modèles établis.
Capacité multilingue exceptionnelle : Entraînés sur un vaste corpus, les modèles prennent en charge plus de 100 langues, ce qui les rend idéaux pour la création d'applications à l'échelle mondiale.
Flexible et efficace : Les modèles sont disponibles en différentes tailles (par exemple, 0,6B, 4B et 8B de paramètres), permettant aux développeurs de choisir le meilleur équilibre entre performances, vitesse et exigences matérielles. Ils prennent également en charge différents niveaux de quantification, ce qui réduit davantage leur empreinte mémoire avec un impact minimal sur la précision.
Sensible aux instructions : Vous pouvez fournir des instructions personnalisées aux modèles pour adapter leurs performances à des tâches ou des domaines spécifiques, une fonctionnalité qui peut générer des gains de performances significatifs.

Configuration de votre environnement d'IA local

Maintenant, passons à la pratique. La première étape consiste à configurer Ollama et à télécharger les modèles Qwen3.

Étape 1 : Installer Ollama

Ollama fournit une commande d'installation simple, sur une seule ligne, pour macOS et Linux. Ouvrez votre terminal et exécutez :

curl -fsSL https://ollama.com/install.sh | sh

Pour Windows, téléchargez l'installateur officiel depuis le site web d'Ollama.

Une fois installé, vous pouvez vérifier qu'il fonctionne en exécutant :

ollama --version

Étape 2 : Télécharger les modèles Qwen3

Avec Ollama en cours d'exécution, vous pouvez télécharger des modèles depuis la bibliothèque Ollama. Les modèles Qwen3 sont hébergés sous l'espace de noms dengcao. Nous allons télécharger une version recommandée des modèles d'intégration (embedding) et de reranker. Le tag :Q5_K_M indique un niveau de quantification spécifique qui offre un excellent équilibre entre performances et utilisation des ressources.

Dans votre terminal, exécutez les commandes suivantes :

# Télécharger le modèle d'intégration de 8 milliards de paramètres
ollama pull dengcao/Qwen3-Embedding-8B:Q5_K_M

# Télécharger le modèle de reranker de 4 milliards de paramètres
ollama pull dengcao/Qwen3-Reranker-4B:Q5_K_M

Ces téléchargements peuvent prendre un certain temps, selon votre connexion Internet. Une fois terminés, vous pouvez voir vos modèles disponibles localement en exécutant ollama list.

Partie 1 : Génération d'embeddings avec Qwen3

Une fois le modèle d'intégration téléchargé, générons quelques vecteurs. Nous utiliserons la bibliothèque Python officielle ollama. Si vous ne l'avez pas installée, exécutez pip install ollama.

Voici un script Python simple pour générer un embedding pour un morceau de texte :

import ollama

# Définir le nom du modèle tel que téléchargé
EMBEDDING_MODEL = 'dengcao/Qwen3-Embedding-8B:Q5_K_M'

def get_embedding(text: str):
    """Génère un embedding pour un texte donné."""
    try:
        response = ollama.embeddings(
            model=EMBEDDING_MODEL,
            prompt=text
        )
        return response['embedding']
    except Exception as e:
        print(f"An error occurred: {e}")
        return None

# --- Exemple d'utilisation ---
sentence = "Ollama makes it easy to run LLMs locally."
embedding = get_embedding(sentence)

if embedding:
    print(f"Embedding for: '{sentence}'")
    # Afficher les premières dimensions pour plus de concision
    print(f"First 5 dimensions: {embedding[:5]}")
    print(f"Total dimensions: {len(embedding)}")

Ce script affichera les cinq premières valeurs du vecteur généré et sa taille totale (qui est de 4096 pour le modèle 8B). Ce vecteur est la représentation numérique de notre phrase, prête à être stockée et comparée.

Partie 2 : Affiner les résultats avec le Reranker Qwen3

L'utilisation du reranker est légèrement différente. Au lieu d'un point d'accès rerank dédié, nous utilisons le point d'accès chat standard. Nous élaborons une invite spécifique qui demande au modèle d'agir comme un reranker, prenant une requête et un document en entrée et produisant un score de pertinence.

Créons une fonction Python pour gérer cela. Nous demanderons au modèle de renvoyer un simple "Oui" ou "Non" pour indiquer la pertinence, ce que nous pourrons facilement convertir en score.

import ollama

# Définir le nom du modèle tel que téléchargé
RERANKER_MODEL = 'dengcao/Qwen3-Reranker-4B:Q5_K_M'

def rerank_document(query: str, document: str) -> float:
    """
    Utilise le Reranker Qwen3 pour évaluer la pertinence d'un document par rapport à une requête.
    Renvoie un score de 1.0 pour 'Oui' et 0.0 pour 'Non'.
    """
    prompt = f"""
    Vous êtes un expert en évaluation de pertinence. Votre tâche est d'évaluer si le
    document suivant est pertinent par rapport à la requête de l'utilisateur.
    Veuillez répondre par un simple 'Oui' ou 'Non'.

    Requête : {query}
    Document : {document}
    """
    try:
        response = ollama.chat(
            model=RERANKER_MODEL,
            messages=[{'role': 'user', 'content': prompt}],
            options={'temperature': 0.0} # Pour une sortie déterministe
        )
        answer = response['message']['content'].strip().lower()
        if 'yes' in answer:
            return 1.0
        return 0.0
    except Exception as e:
        print(f"An error occurred during reranking: {e}")
        return 0.0

# --- Exemple d'utilisation ---
user_query = "How do I run models locally?"
doc1 = "Ollama is a tool for running large language models on your own computer."
doc2 = "The capital of France is Paris."

score1 = rerank_document(user_query, doc1)
score2 = rerank_document(user_query, doc2)

print(f"Pertinence du Doc 1 : {'Pertinent' if score1 > 0.5 else 'Non pertinent'} (Score : {score1})")
print(f"Pertinence du Doc 2 : {'Pertinent' if score2 > 0.5 else 'Non pertinent'} (Score : {score2})")

Cette fonction démontre comment interagir avec le reranker. Elle identifie correctement que doc1 est très pertinent pour la requête tandis que doc2 ne l'est pas.

Tout assembler : Une implémentation RAG simple

Maintenant, passons à l'événement principal. Construisons un mini-pipeline RAG qui utilise nos deux modèles pour répondre à une requête à partir d'une petite base de connaissances. Pour la recherche de similarité, nous utiliserons numpy. Installez-le avec pip install numpy.

import ollama
import numpy as np

# --- Définitions des modèles ---
EMBEDDING_MODEL = 'dengcao/Qwen3-Embedding-8B:Q5_K_M'
RERANKER_MODEL = 'dengcao/Qwen3-Reranker-4B:Q5_K_M'

# --- 1. Corpus et génération d'embeddings hors ligne ---
documents = [
    "La série de modèles Qwen3 a été développée par Alibaba Cloud.",
    "Ollama fournit une interface de ligne de commande simple pour exécuter des LLM.",
    "Un modèle de reranker affine les résultats de recherche en calculant un score de pertinence précis.",
    "Pour installer Ollama sur Linux, vous pouvez utiliser une commande curl.",
    "Les modèles d'intégration convertissent le texte en vecteurs numériques pour la recherche sémantique.",
]

# Dans une application réelle, vous stockeriez ces embeddings dans une base de données vectorielle
corpus_embeddings = []
print("Génération des embeddings pour le corpus de documents...")
for doc in documents:
    response = ollama.embeddings(model=EMBEDDING_MODEL, prompt=doc)
    corpus_embeddings.append(response['embedding'])
print("Embeddings générés.")

def cosine_similarity(v1, v2):
    """Calcule la similarité cosinus entre deux vecteurs."""
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

# --- 2. Récupération en ligne et reranking ---
user_query = "How do I install Ollama?"

# Intégrer la requête de l'utilisateur
query_embedding = ollama.embeddings(model=EMBEDDING_MODEL, prompt=user_query)['embedding']

# Effectuer la récupération initiale (recherche sémantique)
retrieval_scores = [cosine_similarity(query_embedding, emb) for emb in corpus_embeddings]
top_k_indices = np.argsort(retrieval_scores)[::-1][:3] # Obtenir les 3 meilleurs résultats

print("\n--- Résultats de la récupération initiale (avant reranking) ---")
for i in top_k_indices:
    print(f"Score : {retrieval_scores[i]:.4f} - Document : {documents[i]}")

# --- 3. Reranker les meilleurs résultats ---
retrieved_docs = [documents[i] for i in top_k_indices]

print("\n--- Reranking des meilleurs résultats ---")
reranked_scores = [rerank_document(user_query, doc) for doc in retrieved_docs]

# Combiner les documents avec leurs nouveaux scores et trier
reranked_results = sorted(zip(retrieved_docs, reranked_scores), key=lambda x: x[1], reverse=True)

print("\n--- Résultats finaux (après reranking) ---")
for doc, score in reranked_results:
    print(f"Score de pertinence : {score:.2f} - Document : {doc}")

Lorsque vous exécutez ce script, vous verrez la puissance du processus en deux étapes. La récupération initiale trouve correctement les documents liés à "Ollama" et à "l'installation". Cependant, le reranker identifie ensuite précisément le document concernant l'utilisation de curl comme le plus pertinent, le plaçant en tête avec un score parfait.

Conclusion

Vous avez maintenant réussi à configurer et à utiliser l'un des tandems d'IA open source les plus puissants disponibles aujourd'hui, directement sur votre machine locale. En combinant la portée étendue du modèle d'intégration Qwen3 avec la précision aiguë du reranker Qwen3, vous pouvez créer des applications qui comprennent et traitent le langage avec un niveau de nuance qui était auparavant le domaine exclusif des grands systèmes propriétaires.

Le voyage ne s'arrête pas là. Vous pouvez expérimenter différentes tailles de modèles, essayer divers niveaux de quantification et intégrer ce pipeline dans des applications plus complexes. La capacité d'exécuter ces outils localement ouvre un monde de possibilités, vous permettant de créer, d'innover et d'explorer sans compromettre la confidentialité ou les performances. Bienvenue dans la nouvelle ère de l'IA locale et open source.

💡

bouton