Apidog

Nền tảng phát triển API hợp tác tất cả trong một

Thiết kế API

Tài liệu API

Gỡ lỗi API

Giả lập API

Kiểm thử API tự động

Llama 4: Các chuẩn mực, Giá API, Mã nguồn mở

中村 拓也

中村 拓也

Updated on tháng 4 5, 2025

Cảnh quan trí tuệ nhân tạo đã được chuyển biến cơ bản với sự ra mắt của Llama 4 từ Meta - không chỉ thông qua các cải tiến từng bước, mà còn thông qua những đột phá kiến trúc định nghĩa lại tỷ lệ hiệu suất trên chi phí trong toàn ngành. Các mô hình mới này đại diện cho sự hội tụ của ba đổi mới quan trọng: đa mô thức gốc thông qua các kỹ thuật fusion sớm, kiến trúc hỗn hợp thưa thớt (MoE) cải thiện đáng kể hiệu quả tham số, và mở rộng cửa sổ ngữ cảnh kéo dài đến 10 triệu token chưa từng có.

Llama 4 đã vượt qua GPT-o1, Deepseek và Google Gemini về điểm ELO

Llama 4 Scout và Maverick không chỉ cạnh tranh với các nhà lãnh đạo ngành hiện tại - mà còn vượt trội hơn họ một cách có hệ thống trên các tiêu chuẩn đo lường trong khi giảm đáng kể yêu cầu tính toán. Với Maverick đạt được kết quả tốt hơn GPT-4o với chi phí khoảng một phần chín mỗi token, và Scout phù hợp trên một GPU H100 trong khi duy trì hiệu suất vượt trội so với các mô hình yêu cầu nhiều GPU, Meta đã thay đổi cơ bản kinh tế của việc triển khai AI tiên tiến.

Tiêu chuẩn của Llama 4
Tiêu chuẩn của Llama 4

Phân tích kỹ thuật này phân tích các đổi mới kiến trúc làm động lực cho các mô hình này, trình bày dữ liệu đo lường toàn diện trên các nhiệm vụ lý luận, lập trình, đa ngôn ngữ và đa mô thức, và xem xét cấu trúc giá API trên các nhà cung cấp lớn. Đối với các nhà ra quyết định kỹ thuật đánh giá các lựa chọn hạ tầng AI, chúng tôi cung cấp các so sánh hiệu suất/chi phí chi tiết và các chiến lược triển khai để tối đa hóa hiệu quả của các mô hình đột phá này trong môi trường sản xuất.

Bạn có thể tải xuống Meta Llama 4 mã nguồn mở và trọng số mở trên Hugging Face, tính đến hôm nay:

https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

Llama 4 đã lưu trữ cửa sổ ngữ cảnh 10M như thế nào?

Triển khai Hỗn hợp Chuyên gia (MoE)

Tất cả các mô hình Llama 4 sử dụng một kiến trúc MoE tinh vi thay đổi cơ bản phương trình hiệu quả:

Mô hìnhTham số hoạt độngSố lượng Chuyên giaTổng Tham sốPhương pháp Kích hoạt Tham số
Llama 4 Scout17B16109BĐịnh tuyến theo từng token
Llama 4 Maverick17B128400BChuyên gia định tuyến chung + đơn lẻ theo từng token
Llama 4 Behemoth288B16~2TĐịnh tuyến theo từng token

Thiết kế MoE trong Llama 4 Maverick đặc biệt tinh vi, sử dụng các lớp dày đặc và MoE luân phiên. Mỗi token kích hoạt chuyên gia chung cộng với một trong 128 chuyên gia được định tuyến, có nghĩa là chỉ khoảng 17B trong tổng số 400B tham số được kích hoạt để xử lý bất kỳ token nào nhất định.

Kiến trúc Đa Mô Thức

Kiến trúc Đa Mô Thức của Llama 4:
├── Token Văn Bản
│   └── Đường dẫn xử lý văn bản gốc
├── Mã hóa Hình Ảnh (MetaCLIP Nâng cao)
│   ├── Xử lý hình ảnh 
│   └── Chuyển đổi hình ảnh thành chuỗi token
└── Lớp Fusion Sớm
    └── Hợp nhất các token văn bản và hình ảnh trong khung xương mô hình

Cách tiếp cận fusion sớm này cho phép tiền huấn luyện trên hơn 30 triệu token từ dữ liệu văn bản, hình ảnh và video trộn lẫn, dẫn đến khả năng đa mô thức đồng nhất hơn nhiều so với các phương pháp retrofitting.

Kiến trúc iRoPE cho Cửa sổ Ngữ cảnh Mở rộng

Cửa sổ ngữ cảnh 10M token của Llama 4 Scout tận dụng kiến trúc iRoPE đổi mới:

# Mã giả cho kiến trúc iRoPE
def iRoPE_layer(tokens, layer_index):
    if layer_index % 2 == 0:
        # Lớp chẵn: Chú ý xen kẽ mà không có nhúng vị trí
        return attention_no_positional(tokens)
    else:
        # Lớp lẻ: RoPE (Nhúng vị trí quay)
        return attention_with_rope(tokens)

def inference_scaling(tokens, temperature_factor):
    # Kích thước nhiệt độ trong quá trình suy diễn cải thiện sự tổng quát độ dài
    return scale_attention_scores(tokens, temperature_factor)

Kiến trúc này cho phép Scout xử lý các tài liệu có độ dài chưa từng có trong khi duy trì sự nhất quán, với hệ số tỉ lệ khoảng 80 lần lớn hơn so với các cửa sổ ngữ cảnh của các mô hình Llama trước đó.

Phân Tích Tiêu Chuẩn Toàn Diện

Tiêu Chuẩn Hiệu Suất Đo Lường Thông Thường

Kết quả đo lường chi tiết qua các bộ đánh giá lớn tiết lộ vị trí cạnh tranh của các mô hình Llama 4:

Danh mụcTiêu chuẩnLlama 4 MaverickGPT-4oGemini 2.0 FlashDeepSeek v3.1
Lý luận hình ảnhMMMU73.469.171.7Không hỗ trợ đa mô thức
MathVista73.763.873.1Không hỗ trợ đa mô thức
Hiểu hình ảnhChartQA90.085.788.3Không hỗ trợ đa mô thức
DocVQA (kiểm tra)94.492.8-Không hỗ trợ đa mô thức
Lập trìnhLiveCodeBench43.432.334.545.8/49.2
Lý luận & Kiến thứcMMLU Pro80.5-77.681.2
GPQA Diamond69.853.660.168.4
Đa ngôn ngữMMLU Đa ngôn ngữ84.681.5--
Ngữ cảnh dàiMTOB (nửa cuốn sách) eng→kgv/kgv→eng54.0/46.4Ngữ cảnh giới hạn ở 128K48.4/39.8Ngữ cảnh giới hạn ở 128K
MTOB (cuốn sách đầy đủ) eng→kgv/kgv→eng50.8/46.7Ngữ cảnh giới hạn ở 128K45.5/39.6Ngữ cảnh giới hạn ở 128K

Phân Tích Kỹ Thuật về Hiệu suất theo Danh mục

Khả Năng Xử Lý Đa Mô Thức

Llama 4 thể hiện hiệu suất vượt trội trên các nhiệm vụ đa mô thức, với Maverick đạt 73.4% trên MMMU so với 69.1% của GPT-4o và 71.7% của Gemini 2.0 Flash. Khoảng cách hiệu suất này càng rộng hơn trên MathVista, nơi Maverick đạt 73.7% so với 63.8% của GPT-4o.

<