Cách Sử Dụng Miễn Phí Qwen3.5 API với NVIDIA

TÓM LƯỢC

Qwen3.5 là mô hình ngôn ngữ thị giác với 397 tỷ tham số đột phá của Alibaba, sử dụng kiến trúc Mixture of Experts (MoE). Bạn có thể truy cập nó miễn phí thông qua các điểm cuối tăng tốc GPU của NVIDIA bằng cách đăng ký Chương trình Phát triển NVIDIA. Hướng dẫn này sẽ chỉ cho bạn cách lấy khóa API, thực hiện các lệnh gọi đầu tiên và tích hợp khả năng đa phương thức của Qwen3.5 vào ứng dụng của bạn.

Giới thiệu

Qwen3.5 của Alibaba đại diện cho một bước tiến đáng kể trong AI đa phương thức. Mô hình 397 tỷ tham số này kết hợp kiến trúc Mixture of Experts (MoE) với Gated Delta Networks, mang lại khả năng suy luận mạnh mẽ trong khi chỉ giữ các tham số hoạt động ở mức 17 tỷ. Kết quả là một mô hình có thể hiểu hình ảnh, điều hướng giao diện người dùng và xử lý các tác vụ đa phương thức phức tạp, tất cả đều có thể truy cập thông qua API miễn phí.

Phần tốt nhất? Bạn có thể bắt đầu sử dụng Qwen3.5 miễn phí ngay bây giờ thông qua nền tảng dành cho nhà phát triển của NVIDIA. Cho dù bạn đang xây dựng các tác nhân AI, phát triển các ứng dụng suy luận thị giác hay khám phá AI đa phương thức, hướng dẫn này sẽ chỉ cho bạn từng bước.

💡

Nếu bạn đang xây dựng các ứng dụng tích hợp với Qwen3.5 hoặc bất kỳ API AI nào khác, bạn sẽ cần các công cụ kiểm thử mạnh mẽ. Apidog cung cấp nền tảng kiểm thử API toàn diện giúp bạn dễ dàng xác thực các tích hợp API AI của mình, quản lý biến môi trường và tự động hóa quy trình kiểm thử.

button

Qwen3.5 VLM là gì?

Qwen3.5 là mô hình ngôn ngữ thị giác tự nhiên đầu tiên của Alibaba trong dòng Qwen3.5, được thiết kế đặc biệt để xây dựng các tác nhân tự động. Không giống như các VLM trước đây được điều chỉnh từ các mô hình chỉ dựa trên văn bản, Qwen3.5 được xây dựng từ đầu cho suy luận đa phương thức và điều hướng giao diện người dùng.

Thông số kỹ thuật chính

Thông số kỹ thuật	Giá trị
Tổng số tham số	397 tỷ
Tham số hoạt động	17 tỷ
Tỷ lệ kích hoạt	4.28%
Số chuyên gia	512 chuyên gia
Số chuyên gia trên mỗi Token	11 (10 được định tuyến + 1 được chia sẻ)
Ngữ cảnh đầu vào	256K (có thể mở rộng lên 1M)
Ngôn ngữ được hỗ trợ	Hơn 200
Kiến trúc	MoE + Gated Delta Networks

Điều gì làm nên sự đặc biệt của Qwen3.5

Kiến trúc Mixture of Experts (MoE) có nghĩa là chỉ một tập hợp con các tham số của mô hình được hoạt động cho bất kỳ đầu vào nào. Điều này làm cho mô hình hiệu quả về mặt tính toán trong khi vẫn duy trì khả năng suy luận phức tạp trên tất cả 397 tỷ tham số.

Khả năng tác nhân đa phương thức gốc khiến Qwen3.5 khác biệt so với các VLM khác:

Hiểu và điều hướng giao diện người dùng
Thực hiện suy luận thị giác trên giao diện di động và web
Xử lý các tác vụ mã hóa phức tạp
Cung cấp sức mạnh cho các ứng dụng trò chuyện với khả năng hiểu đa phương thức

Các trường hợp sử dụng lý tưởng

Lập trình và Phát triển Web: Viết và gỡ lỗi mã với ngữ cảnh trực quan
Suy luận thị giác: Phân tích ảnh chụp màn hình, ảnh và các yếu tố giao diện người dùng
Ứng dụng trò chuyện: Xây dựng AI đàm thoại với khả năng hiểu đa phương thức
Tìm kiếm phức tạp: Tìm kiếm đồng thời trên hình ảnh và văn bản
Tự động hóa giao diện người dùng: Tự động điều hướng và tương tác với giao diện

Chương trình Nhà phát triển NVIDIA: Lấy khóa API miễn phí của bạn

NVIDIA cung cấp quyền truy cập miễn phí vào Qwen3.5 thông qua các điểm cuối tăng tốc GPU của họ. Dưới đây là cách bắt đầu:

Bước 1: Tham gia Chương trình Nhà phát triển NVIDIA

Truy cập build.nvidia.com
Nhấp vào Đăng nhập hoặc Tạo tài khoản
Đăng ký Chương trình Nhà phát triển NVIDIA (miễn phí)
Xác minh địa chỉ email của bạn

Bước 2: Lấy khóa API của bạn

Sau khi đăng nhập, điều hướng đến cài đặt tài khoản của bạn
Tìm Khóa API hoặc Khóa API NVIDIA
Sao chép khóa API của bạn (bắt đầu bằng nvapi-)
Lưu trữ nó an toàn (bạn sẽ cần nó để xác thực)

Quan trọng

Bước 3: Kiểm tra quyền truy cập của bạn

Bạn có thể kiểm thử Qwen3.5 trực tiếp trong trình duyệt tại build.nvidia.com/qwen/qwen3.5-397b-a17b. Điều này cho phép bạn thử nghiệm với các lời nhắc (prompts) và đánh giá mô hình với dữ liệu của riêng bạn trước khi viết bất kỳ mã nào.

Lệnh gọi API Qwen3.5 đầu tiên của bạn

Bây giờ, hãy thực hiện lệnh gọi API đầu tiên của bạn tới Qwen3.5. API tương thích với định dạng của OpenAI, giúp dễ dàng tích hợp vào các ứng dụng hiện có.

Lệnh gọi API cơ bản

import requests

# Cấu hình
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"  # Thay thế bằng khóa API của bạn

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Payload - yêu cầu chỉ văn bản đơn giản
payload = {
    "messages": [
        {
            "role": "user",
            "content": "What are the key features of Qwen3.5 VLM?"
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
    "temperature": 0.7,
}

# Thực hiện yêu cầu
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()

# In phản hồi
result = response.json()
print(result['choices'][0]['message']['content'])

Thực hiện yêu cầu đa phương thức (Với hình ảnh)

Để sử dụng khả năng thị giác của Qwen3.5, hãy bao gồm dữ liệu hình ảnh trong yêu cầu của bạn:

import requests
import base64

# Hàm mã hóa hình ảnh sang base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Mã hóa hình ảnh của bạn
image_base64 = encode_image("screenshot.png")

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"

headers = {
    "Authorization": f"Bearer {api_key}",
    "Accept": "application/json",
}

# Yêu cầu đa phương thức với hình ảnh
payload = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_base64}"}
                },
                {
                    "type": "text",
                    "text": "What do you see in this image? Describe the UI elements."
                }
            ]
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "max_tokens": 1024,
}

response = requests.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Ví dụ mã trong Python và JavaScript

Python: Ví dụ tích hợp hoàn chỉnh

import os
import requests
from requests.exceptions import RequestException

class QwenClient:
    """Python client for Qwen3.5 API"""

    def __init__(self, api_key=None):
        self.api_key = api_key or os.getenv("NVIDIA_API_KEY")
        self.endpoint = "https://integrate.api.nvidia.com/v1/chat/completions"
        self.model = "qwen/qwen3.5-397b-a17b"

    def chat(self, message, system_prompt=None, **kwargs):
        """Send a chat message to Qwen3.5"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        messages = []
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": message})

        payload = {
            "messages": messages,
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
            "top_p": kwargs.get("top_p", 0.9),
        }

        # Enable thinking mode if requested
        if kwargs.get("thinking", False):
            payload["chat_template_kwargs"] = {"thinking": True}

        try:
            response = requests.post(
                self.endpoint,
                headers=headers,
                json=payload,
                timeout=kwargs.get("timeout", 60)
            )
            response.raise_for_status()
            return response.json()
        except RequestException as e:
            return {"error": str(e)}

    def chat_with_image(self, message, image_path, **kwargs):
        """Send a chat message with image to Qwen3.5"""
        import base64

        with open(image_path, "rb") as f:
            image_base64 = base64.b64encode(f.read()).decode("utf-8")

        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }

        payload = {
            "messages": [{
                "role": "user",
                "content": [
                    {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
                    {"type": "text", "text": message}
                ]
            }],
            "model": self.model,
            "max_tokens": kwargs.get("max_tokens", 2048),
            "temperature": kwargs.get("temperature", 0.7),
        }

        response = requests.post(self.endpoint, headers=headers, json=payload)
        response.raise_for_status()
        return response.json()


# Ví dụ sử dụng
client = QwenClient(api_key="YOUR_NVIDIA_API_KEY")

# Trò chuyện chỉ văn bản
result = client.chat("Giải thích kiến trúc Mixture of Experts bằng các thuật ngữ đơn giản")
print(result['choices'][0]['message']['content'])

# Trò chuyện đa phương thức
result = client.chat_with_image(
    "Những yếu tố giao diện người dùng nào có trong ảnh chụp màn hình này?",
    "screenshot.png"
)
print(result['choices'][0]['message']['content'])

JavaScript/Node.js: Ví dụ tích hợp hoàn chỉnh

const axios = require('axios');

class QwenClient {
  constructor(apiKey) {
    this.apiKey = apiKey;
    this.endpoint = 'https://integrate.api.nvidia.com/v1/chat/completions';
    this.model = 'qwen/qwen3.5-397b-a17b';
  }

  async chat(message, options = {}) {
    const { systemPrompt, temperature = 0.7, maxTokens = 2048, thinking = false } = options;

    const messages = [];
    if (systemPrompt) {
      messages.push({ role: 'system', content: systemPrompt });
    }
    messages.push({ role: 'user', content: message });

    const payload = {
      messages,
      model: this.model,
      temperature,
      max_tokens: maxTokens,
      ...(thinking && { chat_template_kwargs: { thinking: true } })
    };

    try {
      const response = await axios.post(this.endpoint, payload, {
        headers: {
          'Authorization': `Bearer ${this.apiKey}`,
          'Content-Type': 'application/json'
        },
        timeout: 60000
      });

      return response.data;
    } catch (error) {
      console.error('API Error:', error.response?.data || error.message);
      throw error;
    }
  }

  async chatWithImage(message, imageBase64, options = {}) {
    const { temperature = 0.7, maxTokens = 2048 } = options;

    const payload = {
      messages: [{
        role: 'user',
        content: [
          { type: 'image_url', image_url: { url: `data:image/png;base64,${imageBase64}` } },
          { type: 'text', text: message }
        ]
      }],
      model: this.model,
      temperature,
      max_tokens: maxTokens
    };

    const response = await axios.post(this.endpoint, payload, {
      headers: {
        'Authorization': `Bearer ${this.apiKey}`,
        'Content-Type': 'application/json'
      }
    });

    return response.data;
  }
}

// Sử dụng
const client = new QwenClient(process.env.NVIDIA_API_KEY);

// Trò chuyện văn bản
const result = await client.chat('Lợi ích của kiến trúc MoE là gì?');
console.log(result.choices[0].message.content);

// Với chế độ suy nghĩ được bật
const deepResult = await client.chat('Giải thích cách suy luận hoạt động trong các LLM', {
  thinking: true
});
console.log(deepResult.choices[0].message.content);

Tính năng nâng cao: Chế độ tư duy và gọi công cụ

Chế độ tư duy

Qwen3.5 hỗ trợ chế độ "tư duy" nâng cao cho phép mô hình hiển thị quá trình suy luận của nó. Điều này đặc biệt hữu ích cho các tác vụ giải quyết vấn đề phức tạp.

payload = {
    "messages": [{"role": "user", "content": "Giải quyết từng bước: Nếu một chuyến tàu đi 120km trong 2 giờ, tốc độ của nó là bao nhiêu?"}],
    "model": "qwen/qwen3.5-397b-a17b",
    "chat_template_kwargs": {"thinking": True},
    "max_tokens": 4096,
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Gọi công cụ

Qwen3.5 hỗ trợ gọi hàm thông qua các công cụ tương thích với OpenAI. Điều này cho phép bạn xây dựng các ứng dụng tác nhân có thể thực hiện các hành động thực tế.

import json

# Định nghĩa các công cụ để mô hình sử dụng
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Lấy thời tiết hiện tại cho một địa điểm",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "Tên thành phố"}
                },
                "required": ["location"]
            }
        }
    }
]

payload = {
    "messages": [
        {"role": "user", "content": "Thời tiết ở Tokyo như thế nào?"}
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "tools": tools,
    "tool_choice": "auto"
}

response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()

# Kiểm tra xem mô hình có muốn gọi một công cụ hay không
if 'tool_calls' in result['choices'][0]['message']:
    tool_call = result['choices'][0]['message']['tool_calls'][0]
    print(f"Mô hình muốn gọi: {tool_call['function']['name']}")
    print(f"Đối số: {tool_call['function']['arguments']}")

Tìm hiểu về giới hạn tốc độ và giá cả

Bậc miễn phí hiện tại (Chương trình Nhà phát triển NVIDIA)

Tính năng	Giới hạn
Truy cập API	Miễn phí khi đăng ký
Điểm cuối tăng tốc GPU	Bao gồm
Kiểm thử trình duyệt	Không giới hạn
Giới hạn tốc độ	Kiểm tra bảng điều khiển dành cho nhà phát triển

Điều này có ý nghĩa gì đối với bạn

Không yêu cầu thẻ tín dụng: Chỉ cần đăng ký Chương trình Nhà phát triển NVIDIA miễn phí
Tăng tốc bằng GPU: Các yêu cầu chạy trên GPU NVIDIA Blackwell
Sẵn sàng cho sản xuất: Các điểm cuối tương tự được sử dụng cho các tác vụ sản xuất

Mở rộng quy mô sản xuất

Khi bạn sẵn sàng vượt ra ngoài bậc miễn phí:

NVIDIA NIM: Triển khai các mô hình container hóa ở bất cứ đâu (đám mây, tại chỗ, hỗn hợp)
NeMo: Tùy chỉnh mô hình cho lĩnh vực cụ thể của bạn
Hỗ trợ doanh nghiệp: Liên hệ với NVIDIA để có cơ sở hạ tầng chuyên dụng

Triển khai sản xuất với NVIDIA NIM

NVIDIA NIM (NVIDIA Inference Microservices) giúp bạn dễ dàng đưa Qwen3.5 từ phát triển sang sản xuất.

NIM là gì?

NIM cung cấp các container được tối ưu hóa, được xây dựng sẵn để suy luận AI. Mỗi microservice NIM đóng gói:

Mô hình với các tối ưu hóa hiệu suất
API tiêu chuẩn hóa (tương thích OpenAI)
Tính linh hoạt triển khai (đám mây, tại chỗ, biên)

Triển khai Qwen3.5 với NIM

# Kéo container Qwen3.5 NIM
docker pull nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

# Chạy container
docker run --gpus all --rm -p 8000:8000 \
  -e NVIDIA_API_KEY=$NVIDIA_API_KEY \
  nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest

Giờ đây, mô hình của bạn đang chạy cục bộ tại http://localhost:8000/v1/chat/completions.

Lợi ích của NIM

Triển khai mọi nơi: Chạy tại chỗ, trên đám mây hoặc kết hợp
Hiệu suất tối ưu: Được điều chỉnh cho suy luận trên GPU NVIDIA
API nhất quán: Giao diện tương thích OpenAI
Khả năng mở rộng: Mở rộng từ phát triển đến sản xuất một cách liền mạch

Tùy chỉnh với NVIDIA NeMo

Đối với các ứng dụng chuyên biệt, bạn có thể tinh chỉnh Qwen3.5 bằng cách sử dụng NVIDIA NeMo.

Khả năng của Framework NeMo

Tinh chỉnh thông lượng cao: Huấn luyện gốc PyTorch
Hỗ trợ LoRA: Tùy chỉnh hiệu quả bộ nhớ
Huấn luyện đa nút: Hỗ trợ Slurm và Kubernetes
Tích hợp Hugging Face: Huấn luyện trực tiếp trên các điểm kiểm tra hiện có

Ví dụ: Tinh chỉnh cho VQA y tế

NVIDIA cung cấp hướng dẫn kỹ thuật để tinh chỉnh Qwen3.5 trên các tập dữ liệu X quang cho Hỏi đáp trực quan y tế (Medical Visual Question Answering). Điều này chứng tỏ cách điều chỉnh mô hình cho các lĩnh vực chuyên biệt như chăm sóc sức khỏe.

Kết luận

Qwen3.5 đại diện cho một cơ hội thú vị để sử dụng mô hình AI đa phương thức tiên tiến miễn phí thông qua nền tảng dành cho nhà phát triển của NVIDIA. Với kiến trúc MoE 397 tỷ tham số, khả năng thị giác gốc và quyền truy cập API miễn phí, đây là lựa chọn tuyệt vời cho:

Xây dựng các tác nhân AI đa phương thức
Phát triển các ứng dụng suy luận thị giác
Tạo trợ lý lập trình với ngữ cảnh trực quan
Tự động hóa các tác vụ điều hướng giao diện người dùng

Bắt đầu thật đơn giản: đăng ký Chương trình Nhà phát triển NVIDIA, lấy khóa API của bạn và bắt đầu xây dựng.

Nếu bạn đang xây dựng các ứng dụng tích hợp với Qwen3.5 hoặc các API AI khác, Apidog cung cấp cơ sở hạ tầng kiểm thử mà bạn cần. Kiểm thử các tích hợp API của bạn, xác thực phản hồi, quản lý biến môi trường và tự động hóa quy trình kiểm thử của bạn với nền tảng toàn diện của Apidog.

button

Câu hỏi thường gặp

Qwen3.5 có thực sự miễn phí để sử dụng không?

Có, NVIDIA cung cấp quyền truy cập miễn phí vào các điểm cuối tăng tốc GPU của Qwen3.5 thông qua Chương trình Nhà phát triển của họ. Không yêu cầu thẻ tín dụng. Chỉ cần đăng ký tại build.nvidia.com để lấy khóa API của bạn.

Điều gì làm cho Qwen3.5 khác biệt so với các VLM khác?

Qwen3.5 được xây dựng đặc biệt cho các tác nhân tự động, không được điều chỉnh từ một mô hình chỉ dựa trên văn bản. Kiến trúc Mixture of Experts của nó (tổng cộng 397 tỷ, 17 tỷ hoạt động) cung cấp khả năng suy luận mạnh mẽ trong khi vẫn hiệu quả về mặt tính toán. Nó đặc biệt tốt trong các tác vụ điều hướng giao diện người dùng và suy luận thị giác.

Tôi có thể sử dụng Qwen3.5 cho các dự án thương mại không?

Kiểm tra các điều khoản cấp phép hiện tại trên nền tảng của NVIDIA. Để sử dụng trong sản xuất, hãy cân nhắc NVIDIA NIM để triển khai hoặc liên hệ với NVIDIA về các tùy chọn dành cho doanh nghiệp.

Sự khác biệt giữa bậc miễn phí và NIM là gì?

Bậc miễn phí (Chương trình Nhà phát triển) sử dụng các điểm cuối được NVIDIA lưu trữ. NIM cho phép bạn tự triển khai mô hình bằng cách sử dụng các container, dù là tại chỗ, trong đám mây của bạn hay môi trường kết hợp. NIM được thiết kế cho các triển khai quy mô sản xuất.

Làm cách nào để xử lý giới hạn tốc độ?

Bậc miễn phí có giới hạn tốc độ nhất định. Để có giới hạn cao hơn, hãy cân nhắc nâng cấp lên quyền truy cập sản xuất thông qua NVIDIA NIM hoặc liên hệ với NVIDIA về các tùy chọn dành cho doanh nghiệp.

Tôi có thể tinh chỉnh Qwen3.5 không?

Có! Framework NVIDIA NeMo cung cấp các công cụ để tinh chỉnh Qwen3.5 trên dữ liệu chuyên biệt của bạn. Điều này bao gồm LoRA để tùy chỉnh hiệu quả bộ nhớ và hỗ trợ đa nút để huấn luyện quy mô lớn.