Llama 4: Các chuẩn mực, Giá API, Mã nguồn mở

Cảnh quan trí tuệ nhân tạo đã được chuyển biến cơ bản với sự ra mắt của Llama 4 từ Meta - không chỉ thông qua các cải tiến từng bước, mà còn thông qua những đột phá kiến trúc định nghĩa lại tỷ lệ hiệu suất trên chi phí trong toàn ngành. Các mô hình mới này đại diện cho sự hội tụ của ba đổi mới quan trọng: đa mô thức gốc thông qua các kỹ thuật fusion sớm, kiến trúc hỗn hợp thưa thớt (MoE) cải thiện đáng kể hiệu quả tham số, và mở rộng cửa sổ ngữ cảnh kéo dài đến 10 triệu token chưa từng có.

Llama 4 đã vượt qua GPT-o1, Deepseek và Google Gemini về điểm ELO

Llama 4 Scout và Maverick không chỉ cạnh tranh với các nhà lãnh đạo ngành hiện tại - mà còn vượt trội hơn họ một cách có hệ thống trên các tiêu chuẩn đo lường trong khi giảm đáng kể yêu cầu tính toán. Với Maverick đạt được kết quả tốt hơn GPT-4o với chi phí khoảng một phần chín mỗi token, và Scout phù hợp trên một GPU H100 trong khi duy trì hiệu suất vượt trội so với các mô hình yêu cầu nhiều GPU, Meta đã thay đổi cơ bản kinh tế của việc triển khai AI tiên tiến.

Phân tích kỹ thuật này phân tích các đổi mới kiến trúc làm động lực cho các mô hình này, trình bày dữ liệu đo lường toàn diện trên các nhiệm vụ lý luận, lập trình, đa ngôn ngữ và đa mô thức, và xem xét cấu trúc giá API trên các nhà cung cấp lớn. Đối với các nhà ra quyết định kỹ thuật đánh giá các lựa chọn hạ tầng AI, chúng tôi cung cấp các so sánh hiệu suất/chi phí chi tiết và các chiến lược triển khai để tối đa hóa hiệu quả của các mô hình đột phá này trong môi trường sản xuất.

Bạn có thể tải xuống Meta Llama 4 mã nguồn mở và trọng số mở trên Hugging Face, tính đến hôm nay:

https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

Llama 4 đã lưu trữ cửa sổ ngữ cảnh 10M như thế nào?

Triển khai Hỗn hợp Chuyên gia (MoE)

Tất cả các mô hình Llama 4 sử dụng một kiến trúc MoE tinh vi thay đổi cơ bản phương trình hiệu quả:

Mô hình	Tham số hoạt động	Số lượng Chuyên gia	Tổng Tham số	Phương pháp Kích hoạt Tham số
Llama 4 Scout	17B	16	109B	Định tuyến theo từng token
Llama 4 Maverick	17B	128	400B	Chuyên gia định tuyến chung + đơn lẻ theo từng token
Llama 4 Behemoth	288B	16	~2T	Định tuyến theo từng token

Thiết kế MoE trong Llama 4 Maverick đặc biệt tinh vi, sử dụng các lớp dày đặc và MoE luân phiên. Mỗi token kích hoạt chuyên gia chung cộng với một trong 128 chuyên gia được định tuyến, có nghĩa là chỉ khoảng 17B trong tổng số 400B tham số được kích hoạt để xử lý bất kỳ token nào nhất định.

Kiến trúc Đa Mô Thức

Kiến trúc Đa Mô Thức của Llama 4:
├── Token Văn Bản
│   └── Đường dẫn xử lý văn bản gốc
├── Mã hóa Hình Ảnh (MetaCLIP Nâng cao)
│   ├── Xử lý hình ảnh 
│   └── Chuyển đổi hình ảnh thành chuỗi token
└── Lớp Fusion Sớm
    └── Hợp nhất các token văn bản và hình ảnh trong khung xương mô hình

Cách tiếp cận fusion sớm này cho phép tiền huấn luyện trên hơn 30 triệu token từ dữ liệu văn bản, hình ảnh và video trộn lẫn, dẫn đến khả năng đa mô thức đồng nhất hơn nhiều so với các phương pháp retrofitting.

Kiến trúc iRoPE cho Cửa sổ Ngữ cảnh Mở rộng

Cửa sổ ngữ cảnh 10M token của Llama 4 Scout tận dụng kiến trúc iRoPE đổi mới:

# Mã giả cho kiến trúc iRoPE
def iRoPE_layer(tokens, layer_index):
    if layer_index % 2 == 0:
        # Lớp chẵn: Chú ý xen kẽ mà không có nhúng vị trí
        return attention_no_positional(tokens)
    else:
        # Lớp lẻ: RoPE (Nhúng vị trí quay)
        return attention_with_rope(tokens)

def inference_scaling(tokens, temperature_factor):
    # Kích thước nhiệt độ trong quá trình suy diễn cải thiện sự tổng quát độ dài
    return scale_attention_scores(tokens, temperature_factor)

Kiến trúc này cho phép Scout xử lý các tài liệu có độ dài chưa từng có trong khi duy trì sự nhất quán, với hệ số tỉ lệ khoảng 80 lần lớn hơn so với các cửa sổ ngữ cảnh của các mô hình Llama trước đó.

Phân Tích Tiêu Chuẩn Toàn Diện

Tiêu Chuẩn Hiệu Suất Đo Lường Thông Thường

Kết quả đo lường chi tiết qua các bộ đánh giá lớn tiết lộ vị trí cạnh tranh của các mô hình Llama 4:

Danh mục	Tiêu chuẩn	Llama 4 Maverick	GPT-4o	Gemini 2.0 Flash	DeepSeek v3.1
Lý luận hình ảnh	MMMU	73.4	69.1	71.7	Không hỗ trợ đa mô thức
	MathVista	73.7	63.8	73.1	Không hỗ trợ đa mô thức
Hiểu hình ảnh	ChartQA	90.0	85.7	88.3	Không hỗ trợ đa mô thức
	DocVQA (kiểm tra)	94.4	92.8	-	Không hỗ trợ đa mô thức
Lập trình	LiveCodeBench	43.4	32.3	34.5	45.8/49.2
Lý luận & Kiến thức	MMLU Pro	80.5	-	77.6	81.2
	GPQA Diamond	69.8	53.6	60.1	68.4
Đa ngôn ngữ	MMLU Đa ngôn ngữ	84.6	81.5	-	-
Ngữ cảnh dài	MTOB (nửa cuốn sách) eng→kgv/kgv→eng	54.0/46.4	Ngữ cảnh giới hạn ở 128K	48.4/39.8	Ngữ cảnh giới hạn ở 128K
	MTOB (cuốn sách đầy đủ) eng→kgv/kgv→eng	50.8/46.7	Ngữ cảnh giới hạn ở 128K	45.5/39.6	Ngữ cảnh giới hạn ở 128K

Phân Tích Kỹ Thuật về Hiệu suất theo Danh mục

Khả Năng Xử Lý Đa Mô Thức

Llama 4 thể hiện hiệu suất vượt trội trên các nhiệm vụ đa mô thức, với Maverick đạt 73.4% trên MMMU so với 69.1% của GPT-4o và 71.7% của Gemini 2.0 Flash. Khoảng cách hiệu suất này càng rộng hơn trên MathVista, nơi Maverick đạt 73.7% so với 63.8% của GPT-4o.