Apidog

オールインワン協働API開発プラットフォーム

API設計

APIドキュメント

APIデバッグ

APIモック

API自動テスト

ラマ 4: ベンチマーク、API 価格、オープンソース

中村 拓也

中村 拓也

Updated on 4月 5, 2025

人工知能の風景は、MetaのLlama 4のリリースによって根本的に変わりました。これは単なる漸進的な改善だけでなく、パフォーマンス・コスト比を業界全体で再定義するアーキテクチャの革新によって実現されています。これらの新しいモデルは、三つの重要な革新の融合を代表しています。すなわち、早期融合技術によるネイティブなマルチモーダル性、パラメータ効率を劇的に改善するスパース混合専門家(MoE)アーキテクチャ、前例のない1000万トークンに拡張するコンテキストウィンドウの拡大です。

Llama 4はELOスコアでGPT-o1、Deepseek、Google Geminiを越えました

Llama 4 ScoutとMaverickは、現在の業界リーダーと単に競争するだけではなく、標準ベンチマークで体系的に上回る一方で、計算要件を劇的に削減します。Maverickがトークンあたり約1/9のコストでGPT-4oよりも優れた結果を達成し、Scoutが複数のGPUが必要なモデルに対して優れたパフォーマンスを維持しながら単一のH100 GPU上に収まることにより、Metaは先進的なAI展開の経済性を根本的に変えました。

Llama 4のベンチマーク
Llama 4のベンチマーク

この技術分析では、これらのモデルを支えるアーキテクチャの革新を解析し、推論、コーディング、多言語、マルチモーダルタスクにおける包括的なベンチマークデータを提示し、主要プロバイダー間のAPI価格体系を検証します。AIインフラオプションを評価する技術的な意思決定者のために、これらの画期的なモデルを生産環境で最大限に活用するための詳細なパフォーマンス/コスト比較と展開戦略を提供します。

今日の時点で、Meta Llama 4のオープンソースおよびオープンウェイトをHugging Faceでダウンロードできます。

https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

Llama 4はどのようにして1000万トークンのコンテキストウィンドウを実現したのか?

専門家の混合(MoE)実装

すべてのLlama 4モデルは、効率性の方程式を根本的に変える洗練されたMoEアーキテクチャを採用しています:

モデルアクティブパラメータ専門家数パラメータ総数パラメータアクティベーション方式
Llama 4 Scout17B16109Bトークン特化型ルーティング
Llama 4 Maverick17B128400B共有 + トークンごとに単一のルーティッド専門家
Llama 4 Behemoth288B16~2Tトークン特化型ルーティング

Llama 4 MaverickのMoE設計は特に洗練されており、密なレイヤーとMoEレイヤーを交互に使用しています。各トークンは共有専門家に加え、128のルーティングされた専門家のうちの1つをアクティブにするため、任意のトークン処理のために400Bの総パラメータのうち約17Bだけがアクティブになります。

マルチモーダルアーキテクチャ

Llama 4マルチモーダルアーキテクチャ:
├── テキストトークン
│   └── ネイティブなテキスト処理経路
├── ビジョンエンコーダー(強化されたMetaCLIP)
│   ├── 画像処理
│   └── 画像をトークンシーケンスに変換
└── 早期融合レイヤー
    └── モデルのバックボーンでテキストとビジョントークンを統一

この早期融合アプローチにより、テキスト、画像、動画データの混合で300兆以上のトークンに対して事前トレーニングが可能になり、後付けアプローチよりもはるかに一貫性のある多モーダル機能が得られます。

拡張コンテキストウィンドウのためのiRoPEアーキテクチャ

Llama 4 Scoutの1000万トークンのコンテキストウィンドウは、革新的なiRoPEアーキテクチャを活用しています:

# iRoPEアーキテクチャの擬似コード
def iRoPE_layer(tokens, layer_index):
    if layer_index % 2 == 0:
        # 偶数レイヤー:位置埋め込みなしのインタリーブされたアテンション
        return attention_no_positional(tokens)
    else:
        # 奇数レイヤー:RoPE(ロータリーポジション埋め込み)
        return attention_with_rope(tokens)

def inference_scaling(tokens, temperature_factor):
    # 推論中の温度スケーリングは長さの一般化を改善
    return scale_attention_scores(tokens, temperature_factor)

このアーキテクチャにより、Scoutは前例のない長さの文書を処理し、全体にわたる整合性を維持できるようになり、スケールファクターは以前のLlamaモデルのコンテキストウィンドウよりも約80倍大きくなります。

包括的なベンチマーク分析

標準ベンチマーク性能メトリクス

主要な評価スイートにおける詳細なベンチマーク結果は、Llama 4モデルの競争的な位置付けを示しています:

カテゴリベンチマークLlama 4 MaverickGPT-4oGemini 2.0 FlashDeepSeek v3.1
画像推論MMMU73.469.171.7マルチモーダルサポートなし
MathVista73.763.873.1マルチモーダルサポートなし
画像理解ChartQA90.085.788.3マルチモーダルサポートなし
DocVQA(テスト)94.492.8-マルチモーダルサポートなし
コーディングLiveCodeBench43.432.334.545.8/49.2
推論と知識MMLU Pro80.5-77.681.2
GPQA Diamond69.853.660.168.4
多言語多言語MMLU84.681.5--
長いコンテキストMTOB(半書籍)eng→kgv/kgv→eng54.0/46.4コンテキストは128Kに制限されている48.4/39.8コンテキストは128Kに制限されている
MTOB(全書籍)eng→kgv/kgv→eng50.8/46.7コンテキストは128Kに制限されている