OllamaでQwen3埋め込みとRerankerモデルをローカルで実行する方法

大規模言語モデル（LLM）の世界は爆発的な速さで拡大していますが、長い間、最先端の機能にアクセスするにはクラウドベースのAPIに依存する必要がありました。この依存関係は、プライバシー、コスト、カスタマイズに関する懸念を伴うことがよくあります。しかし、強力なオープンソースモデルとOllamaのようなツールのおかげで、ローカルマシンでそれらを実行することがこれまで以上に容易になり、状況は変わりつつあります。

最近の最もエキサイティングな開発の1つは、Alibaba CloudによるQwen3モデルファミリーのリリースです。これらのモデル、特に特化した埋め込み（embedding）および再ランキング（reranker）バージョンは、パフォーマンスの新たなベンチマークを設定しています。Ollamaと組み合わせることで、高度な検索エンジンや検索拡張生成（RAG）システムなどの洗練されたAIアプリケーションを、自身のハードウェア上で快適に構築しようとしている開発者や研究者にとって強力なツールキットとなります。

この記事は、この力を活用するための包括的なステップバイステップガイドです。埋め込みモデルと再ランキングモデルが何であるかを解明し、Ollamaのセットアップを順を追って説明し、完全なエンドツーエンドのRAGワークフローのためにQwen3埋め込みモデルと再ランキングモデルを実行する実用的なPythonコードを提供します。

💡

美しいAPIドキュメントを生成する優れたAPIテストツールをお探しですか？

開発チームが最大限の生産性で協力できる、統合されたオールインワンプラットフォームをお探しですか？

Apidogはあなたのすべての要求に応え、Postmanをはるかに手頃な価格で置き換えます！

ボタン

強力なデュオ：埋め込みモデルと再ランキングモデルを理解する

「方法」に入る前に、「何」を理解しましょう。RAGシステムのコンテキストでは、埋め込みモデルと再ランキングモデルは、それぞれ異なるが補完的な役割を果たします。

1. 司書：埋め込みモデル

何百万冊もの本があるがカタログシステムがない巨大な図書館を想像してみてください。情報を見つけるのは悪夢でしょう。埋め込みモデルは、すべてのドキュメントを読み込み、広大な多次元の「概念空間」内の特定の場所に割り当てる、非常に知的な司書のようなものです。

技術的には、テキスト埋め込みとは、テキスト（単語、文、またはドキュメント全体）を密な数値ベクトルに変換するプロセスです。このベクトルはテキストのセマンティックな意味を捉えます。意味が類似するドキュメントは、この空間内で互いに「近い」ベクトルを持つことになります。

クエリがある場合、埋め込みモデルは質問をベクトルに変換し、そのベクトルに最も近いドキュメントベクトルをライブラリ内で検索します。この初期検索は非常に効率的で、広範囲の潜在的に関連するドキュメントを検索します。

2. 専門コンサルタント：再ランキングモデル

埋め込みモデルによる初期検索は高速ですが、常に完璧ではありません。テーマ的には関連しているが、ユーザーのクエリに正確に答えていないドキュメントを取り込んでしまう可能性があります。ここで再ランキングモデルの出番です。

埋め込みモデルが一般的な司書であるとすれば、再ランキングモデルは主題の専門家です。初期検索で得られた上位の結果を受け取り、より繊細で計算負荷の高い分析を実行します。クエリベクトルとドキュメントベクトルを個別に比較するのではなく、再ランキングモデル（通常はクロスエンコーダー）はクエリと各ドキュメントを*ペアとして*見ます。

この直接比較により、再ランキングモデルははるかに正確な関連性スコアを計算できます。そして、このスコアに基づいてドキュメントを再順序付けし、最も関連性の高い結果を上位に押し上げます。この2段階のプロセス—高速な初期検索に続く正確な再ランキング—が、最先端のRAGパフォーマンスの秘訣です。

Qwen3モデルの紹介：オープンソースAIの新たな標準

Alibaba CloudのQwen3シリーズは単なる別のモデルセットではありません。オープンソースNLPにおける大きな飛躍を意味します。埋め込みモデルと再ランキングモデルが際立っている点は次のとおりです。

最先端のパフォーマンス： Qwen3-Embedding-8Bモデルは、リリース時に、非常に競争の激しいMTEB（Massive Text Embedding Benchmark）多言語リーダーボードで1位を獲得し、多くの既存モデルを凌駕しました。
卓越した多言語対応： 膨大なコーパスでトレーニングされており、100以上の言語をサポートしているため、グローバル規模のアプリケーション構築に最適です。
柔軟性と効率性： モデルはさまざまなサイズ（例：0.6B、4B、8Bパラメータ）で提供されており、開発者はパフォーマンス、速度、ハードウェア要件の最適なバランスを選択できます。また、さまざまな量子化レベルもサポートしており、精度への影響を最小限に抑えながらメモリフットプリントをさらに削減します。
指示認識： モデルにカスタム指示を提供して、特定のタスクやドメインに合わせてパフォーマンスを調整できます。これは、大幅なパフォーマンス向上をもたらす可能性のある機能です。

ローカルAI環境のセットアップ

さあ、実際に手を動かしましょう。最初のステップは、Ollamaをセットアップし、Qwen3モデルをダウンロードすることです。

ステップ1：Ollamaのインストール

Ollamaは、macOSとLinux用のシンプルで1行のインストールコマンドを提供します。ターミナルを開いて実行してください：

curl -fsSL https://ollama.com/install.sh | sh

Windowsの場合、Ollamaのウェブサイトから公式インストーラーをダウンロードしてください。

インストール後、次のコマンドを実行して動作を確認できます：

ollama --version

ステップ2：Qwen3モデルのダウンロード

Ollamaが実行されている状態で、Ollamaライブラリからモデルをプルできます。Qwen3モデルはdengcao名前空間でホストされています。埋め込みモデルと再ランキングモデルの推奨バージョンをプルします。:Q5_K_Mタグは、パフォーマンスとリソース使用量の間で優れたバランスを提供する特定の量子化レベルを示します。

ターミナルで、次のコマンドを実行してください：

# 8Bパラメータ埋め込みモデルをダウンロード
ollama pull dengcao/Qwen3-Embedding-8B:Q5_K_M

# 4Bパラメータ再ランキングモデルをダウンロード
ollama pull dengcao/Qwen3-Reranker-4B:Q5_K_M

これらのダウンロードには、インターネット接続に応じて時間がかかる場合があります。完了したら、ollama listを実行してローカルで利用可能なモデルを確認できます。

パート1：Qwen3で埋め込みを生成する

埋め込みモデルをダウンロードしたので、いくつかのベクトルを生成しましょう。公式のollama Pythonライブラリを使用します。インストールされていない場合は、pip install ollamaを実行してください。

import ollama

# ダウンロードしたモデル名を定義
EMBEDDING_MODEL = 'dengcao/Qwen3-Embedding-8B:Q5_K_M'

def get_embedding(text: str):
    """指定されたテキストの埋め込みを生成します。"""
    try:
        response = ollama.embeddings(
            model=EMBEDDING_MODEL,
            prompt=text
        )
        return response['embedding']
    except Exception as e:
        print(f"エラーが発生しました: {e}")
        return None

# --- 使用例 ---
sentence = "Ollama makes it easy to run LLMs locally."
embedding = get_embedding(sentence)

if embedding:
    print(f"Embedding for: '{sentence}'")
    # 簡潔にするため、最初の数次元を出力
    print(f"First 5 dimensions: {embedding[:5]}")
    print(f"Total dimensions: {len(embedding)}")

このスクリプトは、生成されたベクトルの最初の5つの値と、その合計サイズ（8Bモデルの場合は4096）を出力します。このベクトルは、私たちの文の数値表現であり、保存して比較する準備ができています。

パート2：Qwen3再ランキングモデルで結果を洗練する

再ランキングモデルの使い方は少し異なります。専用のrerankエンドポイントの代わりに、標準のchatエンドポイントを使用します。モデルに再ランキングモデルとして機能するよう依頼する特定のプロンプトを作成し、クエリとドキュメントを入力として受け取り、関連性スコアを出力させます。

これを処理するPython関数を作成しましょう。モデルに「はい」または「いいえ」という簡単な回答を返すように依頼し、それを簡単にスコアに変換できるようにします。

import ollama

# ダウンロードしたモデル名を定義
RERANKER_MODEL = 'dengcao/Qwen3-Reranker-4B:Q5_K_M'

def rerank_document(query: str, document: str) -> float:
    """
    Qwen3再ランキングモデルを使用して、ドキュメントとクエリの関連性をスコアリングします。
    「Yes」の場合は1.0、「No」の場合は0.0のスコアを返します。
    """
    prompt = f"""
    あなたは関連性の評価の専門家です。あなたのタスクは、
    以下のドキュメントがユーザーのクエリに関連しているかどうかを評価することです。
    「Yes」または「No」でシンプルに答えてください。

    Query: {query}
    Document: {document}
    """
    try:
        response = ollama.chat(
            model=RERANKER_MODEL,
            messages=[{'role': 'user', 'content': prompt}],
            options={'temperature': 0.0} # 決定論的な出力のために
        )
        answer = response['message']['content'].strip().lower()
        if 'yes' in answer:
            return 1.0
        return 0.0
    except Exception as e:
        print(f"再ランキング中にエラーが発生しました: {e}")
        return 0.0

# --- 使用例 ---
user_query = "How do I run models locally?"
doc1 = "Ollama is a tool for running large language models on your own computer."
doc2 = "The capital of France is Paris."

score1 = rerank_document(user_query, doc1)
score2 = rerank_document(user_query, doc2)

print(f"Doc 1の関連性: {'関連あり' if score1 > 0.5 else '関連なし'} (スコア: {score1})")
print(f"Doc 2の関連性: {'関連あり' if score2 > 0.5 else '関連なし'} (スコア: {score2})")

この関数は、再ランキングモデルとの対話方法を示しています。doc1がクエリに非常に高い関連性がある一方で、doc2はそうではないことを正しく識別しています。

全てをまとめる：シンプルなRAGの実装

さあ、本番です。両方のモデルを使用して、小さなナレッジベースからクエリに答えるミニRAGパイプラインを構築しましょう。類似度検索にはnumpyを使用します。pip install numpyでインストールしてください。

import ollama
import numpy as np

# --- モデル定義 ---
EMBEDDING_MODEL = 'dengcao/Qwen3-Embedding-8B:Q5_K_M'
RERANKER_MODEL = 'dengcao/Qwen3-Reranker-4B:Q5_K_M'

# --- 1. コーパスとオフライン埋め込み生成 ---
documents = [
    "The Qwen3 series of models was developed by Alibaba Cloud.",
    "Ollama provides a simple command-line interface for running LLMs.",
    "A reranker model refines search results by calculating a precise relevance score.",
    "To install Ollama on Linux, you can use a curl command.",
    "Embedding models convert text into numerical vectors for semantic search.",
]

# 実際のアプリケーションでは、これらの埋め込みをベクトルデータベースに保存します
corpus_embeddings = []
print("ドキュメントコーパスの埋め込みを生成中...")
for doc in documents:
    response = ollama.embeddings(model=EMBEDDING_MODEL, prompt=doc)
    corpus_embeddings.append(response['embedding'])
print("埋め込みが生成されました。")

def cosine_similarity(v1, v2):
    """2つのベクトル間のコサイン類似度を計算します。"""
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

# --- 2. オンライン検索と再ランキング ---
user_query = "How do I install Ollama?"

# ユーザーのクエリを埋め込む
query_embedding = ollama.embeddings(model=EMBEDDING_MODEL, prompt=user_query)['embedding']

# 初期検索（セマンティック検索）を実行
retrieval_scores = [cosine_similarity(query_embedding, emb) for emb in corpus_embeddings]
top_k_indices = np.argsort(retrieval_scores)[::-1][:3] # 上位3件の結果を取得

print("\n--- 初期検索結果（再ランキング前） ---")
for i in top_k_indices:
    print(f"スコア: {retrieval_scores[i]:.4f} - ドキュメント: {documents[i]}")

# --- 3. 上位の結果を再ランキング ---
retrieved_docs = [documents[i] for i in top_k_indices]

print("\n--- 上位の結果を再ランキング中 ---")
reranked_scores = [rerank_document(user_query, doc) for doc in retrieved_docs]

# ドキュメントを新しいスコアと結合してソート
reranked_results = sorted(zip(retrieved_docs, reranked_scores), key=lambda x: x[1], reverse=True)

print("\n--- 最終結果（再ランキング後） ---")
for doc, score in reranked_results:
    print(f"関連性スコア: {score:.2f} - ドキュメント: {doc}")

このスクリプトを実行すると、2段階プロセスの強力さを実感できます。初期検索では、「Ollama」や「インストール」に関連するドキュメントが正しく見つかります。しかし、その後再ランキングモデルがcurlの使用に関するドキュメントを最も関連性の高いものとして正確に識別し、完璧なスコアで上位に押し上げます。

結論

これで、今日利用可能な最も強力なオープンソースAIの組み合わせの1つを、あなたのローカルマシン上で正常にセットアップし、使用できるようになりました。Qwen3埋め込みモデルの広範な到達範囲とQwen3再ランキングモデルの鋭い精度を組み合わせることで、以前は大規模なプロプライエタリシステムの専有領域であったレベルのニュアンスで言語を理解し処理するアプリケーションを構築できます。

旅はここで終わりではありません。さまざまなモデルサイズを試したり、さまざまな量子化レベルを試したり、このパイプラインをより複雑なアプリケーションに統合したりできます。これらのツールをローカルで実行できる能力は、プライバシーやパフォーマンスを損なうことなく、作成、革新、探求を可能にする無限の可能性を解き放ちます。ローカル、オープンソースAIの新時代へようこそ。

💡

ボタン