Llama 4'ü AWS, Azure ve Hugging Face'e Nasıl Dağıtırım?

Bu kılavuz, Meta'nın Llama 4 modellerini (Scout ve Maverick) üç büyük platformda (AWS, Azure ve Hugging Face) dağıtmak için adım adım talimatlar sağlar. Bu modeller, çok modlu işleme, devasa bağlam pencereleri ve son teknoloji performans dahil olmak üzere gelişmiş yetenekler sunar.

💡

Geliştirici İpucu: Dağıtıma dalmadan önce, API test araç setinizi yükseltmeyi düşünün! Apidog, yapay zeka modeli uç noktaları, işbirliğine dayalı test ve otomatik API dokümantasyonu için daha iyi destekle Postman'e göre daha sezgisel, özellik açısından zengin bir alternatif sunar. LLM dağıtım iş akışınız, bu geçişi yaptığınız için size teşekkür edecek.

button

Llama 4 Dağıtımı için Önkoşullar ve Donanım Gereksinimleri

Meta'nın lisans sözleşmesi aracılığıyla Llama 4 modellerine erişim
READ erişim belirteci olan Hugging Face hesabı
Dağıtım hedefiniz için gerektiği gibi AWS, Azure veya Hugging Face Pro hesabı
Konteynerleştirme ve bulut hizmetleri hakkında temel bilgi

AWS (TensorFuse aracılığıyla)

Scout: 1M token bağlamı için 8x H100 GPU
Maverick: 430K token bağlamı için 8x H100 GPU
Alternatif: 8x A100 GPU (azaltılmış bağlam penceresi)

Azure

(Bu, büyük dil modelleri için genel Azure ML rehberliği ile uyumludur, ancak kesin gereksinimleri doğrulamak için Llama 4'e özgü hiçbir dokümantasyon bulunamadı.)

Önerilen: ND A100 v4 serisi (8 NVIDIA A100 GPU)
Minimum: Standard_ND40rs_v2 veya daha yüksek

Hugging Face

Önerilen: A10G-Large Space donanımı
Alternatif: A100-Large (premium donanım seçeneği)
Ücretsiz katman donanımı, tam modeller için yetersizdir

1. Llama 4'ü TensorFuse kullanarak AWS'ye Dağıtma

1.1 AWS ve TensorFuse'i Kurun

TensorFuse CLI'yı yükleyin:

pip install tensorfuse

AWS kimlik bilgilerini yapılandırın:

aws configure

TensorFuse'i AWS hesabınızla başlatın:

tensorkube init

1.2 Gerekli Sırları Oluşturun

Hugging Face belirtecinizi saklayın:

tensorkube secret create hugging-face-secret YOUR_HF_TOKEN --env default HUGGING_FACE_HUB_TOKEN=

API kimlik doğrulama belirteci oluşturun:

tensorkube secret create vllm-token vllm-key --env default VLLM_API_KEY=

1.3 Llama 4 için Dockerfile Oluşturun

Scout modeli için:

FROM vllm/vllm-openai:v0.8.3
ENV HF_HUB_ENABLE_HF_TRANSFER=1
EXPOSE 80
ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server", \\\\
            "--model", "meta-llama/Llama-4-Scout-17B-16E-Instruct", \\\\
            "--dtype", "bfloat16", \\\\
            "--trust-remote-code", \\\\
            "--tensor-parallel-size", "8", \\\\
            "--max-model-len", "1000000", \\\\
            "--port", "80", \\\\
            "--override-generation-config", "{\\\\"attn_temperature_tuning\\\\": true}", \\\\
            "--limit-mm-per-prompt", "image=10", \\\\
            "--kv-cache-dtype", "fp8", \\\\
            "--api-key", "${VLLM_API_KEY}"]

Maverick modeli için:

FROM vllm/vllm-openai:v0.8.3
ENV HF_HUB_ENABLE_HF_TRANSFER=1
EXPOSE 80
ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server", \\\\
            "--model", "meta-llama/Llama-4-Maverick-17B-128E-Instruct", \\\\
            "--dtype", "bfloat16", \\\\
            "--trust-remote-code", \\\\
            "--tensor-parallel-size", "8", \\\\
            "--max-model-len", "430000", \\\\
            "--port", "80", \\\\
            "--override-generation-config", "{\\\\"attn_temperature_tuning\\\\": true}", \\\\
            "--limit-mm-per-prompt", "image=10", \\\\
            "--kv-cache-dtype", "fp8", \\\\
            "--api-key", "${VLLM_API_KEY}"]

1.4 Dağıtım Yapılandırması Oluşturun

deployment.yaml oluşturun:

gpus: 8
gpu_type: h100
secret:
  - huggingfacesecret
  - vllmtoken
min-scale: 1
readiness:
  httpGet:
    path: /health
    port: 80

1.5 AWS'ye Dağıtın

Hizmetinizi dağıtın:

tensorkube deploy --config-file ./deployment.yaml

1.6 Dağıtılan Hizmetinize Erişim

Uç nokta URL'nizi almak için dağıtımları listeleyin:

tensorkube deployment list

Dağıtımınızı test edin:

curl --request POST \\\\
  --url YOUR_APP_URL/v1/completions \\\\
  --header 'Content-Type: application/json' \\\\
  --header 'Authorization: Bearer vllm-key' \\\\
  --data '{
    "model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
    "prompt": "Earth to Llama 4. What can you do?",
    "max_tokens": 1000
  }'

2. Llama 4'ü Azure'a Dağıtma

2.1 Azure ML Çalışma Alanını Kurun

Azure CLI ve ML uzantılarını yükleyin:

pip install azure-cli azure-ml
az login

Azure ML çalışma alanı oluşturun:

az ml workspace create --name llama4-workspace --resource-group your-resource-group

2.2 İşlem Kümesi Oluşturun

az ml compute create --name llama4-cluster --type amlcompute --min-instances 0 \\\\
  --max-instances 1 --size Standard_ND40rs_v2 --vnet-name your-vnet-name \\\\
  --subnet your-subnet --resource-group your-resource-group --workspace-name llama4-workspace

2.3 Llama 4 Modelini Azure ML'de Kaydedin

model.yml oluşturun:

$schema: <https://azuremlschemas.azureedge.net/latest/model.schema.json>
name: llama-4-scout
version: 1
path: .
properties:
  model_name: "meta-llama/Llama-4-Scout-17B-16E-Instruct"

Modeli kaydedin:

az ml model create --file model.yml --resource-group your-resource-group --workspace-name llama4-workspace

2.4 Dağıtım Yapılandırması Oluşturun

deployment.yml oluşturun:

$schema: <https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json>
name: llama4-deployment
endpoint_name: llama4-endpoint
model: azureml:llama-4-scout@latest
instance_type: Standard_ND40rs_v2
instance_count: 1
environment_variables:
  HUGGING_FACE_HUB_TOKEN: ${{secrets.HF_TOKEN}}
  VLLM_API_KEY: ${{secrets.VLLM_KEY}}
environment:
  image: vllm/vllm-openai:v0.8.3
  conda_file: conda.yml

conda.yml oluşturun:

channels:
  - conda-forge
dependencies:
  - python=3.10
  - pip
  - pip:
    - vllm==0.8.3
    - transformers
    - accelerate

2.5 Uç Nokta Oluşturun ve Dağıtın

az ml online-endpoint create --name llama4-endpoint \\\\
  --resource-group your-resource-group --workspace-name llama4-workspace

az ml online-deployment create --file deployment.yml \\\\
  --resource-group your-resource-group --workspace-name llama4-workspace

2.6 Dağıtımı Test Edin

az ml online-endpoint invoke --name llama4-endpoint --request-file request.json \\\\
  --resource-group your-resource-group --workspace-name llama4-workspace

request.json şunları içerir:

{
  "model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
  "prompt": "Earth to Llama 4. What can you do?",
  "max_tokens": 1000
}

3. Llama 4'ü Hugging Face'e Dağıtma

3.1 Hugging Face Hesabı Kurun

https://huggingface.co/ adresinde bir Hugging Face hesabı oluşturun
https://huggingface.co/meta-llama adresinde Llama 4 modelleri için lisans sözleşmesini kabul edin

3.2 Hugging Face Spaces Kullanarak Dağıtın

https://huggingface.co/spaces adresine gidin ve "Create new Space" (Yeni Alan Oluştur) öğesine tıklayın

Alanınızı yapılandırın:

Ad: llama4-deployment
Lisans: Uygun lisansı seçin
SDK: Gradio'yu seçin
Space Donanımı: A10G-Large (en iyi performans için)
Görünürlük: İhtiyaçlarınıza göre Özel veya Genel

Space deposunu klonlayın:

git clone <https://huggingface.co/spaces/YOUR_USERNAME/llama4-deployment>
cd llama4-deployment

3.3 Uygulama Dosyaları Oluşturun

app.py oluşturun:

import gradio as gr
import torch
from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
import os

# HF belirtecinizi ortama veya Sır'lara ekleyin
os.environ["HUGGING_FACE_HUB_TOKEN"] = "YOUR_HF_TOKEN"

# Modeli ve belirteci uygun yapılandırmayla yükleyin
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

# Boru hattı oluşturun
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_length=2048
)

def generate_text(prompt, max_length=1000, temperature=0.7):
    # Llama 4 formatına göre istemi biçimlendirin
    formatted_prompt = f"<|begin_of_text|><|user|>\\\\n{prompt}<|end_of_text|>\\\\n<|assistant|>"

    outputs = pipe(
        formatted_prompt,
        max_length=len(tokenizer.encode(formatted_prompt)) + max_length,
        temperature=temperature,
        do_sample=True,
    )

    return outputs[0]['generated_text'].replace(formatted_prompt, "")

# Gradio arayüzü oluşturun
demo = gr.Interface(
    fn=generate_text,
    inputs=[
        gr.Textbox(lines=4, placeholder="İsteminizi buraya girin...", label="İstem"),
        gr.Slider(minimum=100, maximum=2000, value=1000, step=100, label="Maksimum Uzunluk"),
        gr.Slider(minimum=0.1, maximum=1.0, value=0.7, step=0.1, label="Sıcaklık")
    ],
    outputs="text",
    title="Llama 4 Demosu",
    description="Meta'nın Llama 4 modelini kullanarak metin oluşturun",
)

demo.launch()

requirements.txt oluşturun:

accelerate>=0.20.3
bitsandbytes>=0.41.1
gradio>=3.50.0
torch>=2.0.1
transformers>=4.34.0

3.4 Hugging Face'e Dağıtın

Hugging Face Space'inize gönderin:

git add app.py requirements.txt
git commit -m "Llama 4 dağıtımı ekle"
git push

3.5 Dağıtımı İzleyin

Space URL'nizi ziyaret edin: https://huggingface.co/spaces/YOUR_USERNAME/llama4-deployment
İlk derleme, modeli indirmesi ve kurması gerektiğinden zaman alacaktır
Dağıtıldıktan sonra, modelle etkileşim kurabileceğiniz bir Gradio arayüzü göreceksiniz

4. Dağıtımlarınızı Test Etme ve Onlarla Etkileşim Kurma

4.1 API Erişimi için Python İstemcisi Kullanma (AWS ve Azure)

import openai

# AWS için
client = openai.OpenAI(
    base_url="YOUR_AWS_URL/v1",  # tensorkube dağıtım listesinden
    api_key="vllm-key"  # Yapılandırılmış API anahtarınız
)

# Azure için
client = openai.AzureOpenAI(
    azure_endpoint="YOUR_AZURE_ENDPOINT",
    api_key="YOUR_API_KEY",
    api_version="2023-05-15"
)

# Bir metin tamamlama isteği yapın
response = client.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    prompt="Yapay zeka hakkında kısa bir şiir yazın.",
    max_tokens=200
)

print(response.choices[0].text)

# Çok modlu yetenekler için (destekleniyorsa)
import base64

# Görüntüyü base64 olarak yükleyin
with open("image.jpg", "rb") as image_file:
    image_base64 = base64.b64encode(image_file.read()).decode('utf-8')

# Görüntüyle sohbet tamamlama oluşturun
response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Bu görüntüyü açıklayın:"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
            ]
        }
    ],
    max_tokens=300
)

print(response.choices[0].message.content)

Sonuç

Artık Llama 4 modellerini AWS, Azure ve Hugging Face'e dağıtmak için adım adım talimatlara sahipsiniz. Her platform farklı avantajlar sunar:

TensorFuse ile AWS: Tam kontrol, yüksek ölçeklenebilirlik, en iyi performans
Azure: Microsoft ekosistemiyle entegrasyon, yönetilen ML hizmetleri
Hugging Face: En basit kurulum, prototip oluşturma ve demolar için harika

Maliyet, ölçek, performans ve yönetim kolaylığı için özel gereksinimlerinize en uygun platformu seçin.