Hướng Dẫn Sử Dụng Qwen3.5 Flash API

API Qwen3.5 Flash của Alibaba Cloud là một bước tiến đáng kể trong các mô hình ngôn ngữ lớn có khả năng truy cập, mang đến cho các nhà phát triển một giải pháp mạnh mẽ, tiết kiệm chi phí để xây dựng các ứng dụng được hỗ trợ bởi AI. Dù bạn đang xây dựng chatbot, trợ lý lập trình hay ứng dụng đa phương thức, Qwen3.5 Flash đều cung cấp sự linh hoạt và hiệu suất cần thiết để mang lại trải nghiệm người dùng vượt trội. Hướng dẫn toàn diện này sẽ hướng dẫn bạn mọi thứ cần biết để bắt đầu với API Qwen3.5 Flash, từ thiết lập ban đầu đến các kỹ thuật triển khai nâng cao.

💡

Sử dụng Apidog để quản lý khóa API và kiểm thử các tích hợp Qwen3.5 của bạn. Apidog cung cấp một giao diện hợp nhất để thiết kế, gỡ lỗi và lập tài liệu cho các tích hợp API của bạn—hoàn hảo để đảm bảo triển khai Qwen3.5 của bạn hoạt động chính xác trước khi triển khai vào môi trường sản xuất.

Tải ứng dụng

Tìm hiểu về API Qwen3.5 Flash

Qwen3.5 Flash (Qwen3.5-35B-A3B) là một phần của chuỗi mô hình Qwen3 của Alibaba, được thiết kế để cung cấp khả năng AI hiệu suất cao với mức giá cạnh tranh. Định danh "Flash" cho thấy các mô hình này được tối ưu hóa về tốc độ và hiệu quả chi phí, làm cho chúng trở nên lý tưởng cho các ứng dụng sản xuất nơi cả chất lượng phản hồi và quản lý tài nguyên đều quan trọng.

Dòng Qwen3.5 bao gồm nhiều biến thể được điều chỉnh cho các trường hợp sử dụng khác nhau. Mô hình Qwen3.5-397B-A17B cung cấp khả năng tối đa với 403 tỷ tham số cho các tác vụ suy luận phức tạp. Qwen3.5-397B-FP8 cung cấp khả năng tương tự với bộ nhớ tối ưu hóa. Qwen3.5-122B-A10B cung cấp 125 tỷ tham số cho hiệu suất cân bằng, trong khi Qwen3.5-35B-A3B (Qwen3.5 Flash) cung cấp 36 tỷ tham số như một lựa chọn tiết kiệm chi phí cho các ứng dụng đa năng. Tất cả các mô hình đều hỗ trợ khả năng thị giác (Hình ảnh-Văn bản-sang-Văn bản), cho phép tương tác đa phương thức xử lý cả văn bản và hình ảnh.

Bắt đầu: Các Yêu cầu Tiên quyết và Thiết lập

Trước khi bạn có thể bắt đầu sử dụng API Qwen3.5 Flash, bạn sẽ cần hoàn thành một số bước thiết lập. Đầu tiên, hãy tạo một tài khoản Alibaba Cloud nếu bạn chưa có, sau đó điều hướng đến Model Studio để tạo khóa API của bạn. Khóa này xác thực các yêu cầu của bạn và theo dõi việc sử dụng của bạn cho mục đích thanh toán. Hãy giữ khóa này an toàn và không bao giờ để lộ nó trong mã phía máy khách hoặc các kho lưu trữ công khai.

Bạn cũng sẽ cần cài đặt SDK phù hợp cho môi trường phát triển của mình. Các nhà phát triển Python có thể cài đặt SDK tương thích với OpenAI bằng cách sử dụng pip:

pip install openai

Đối với môi trường Node.js, gói npm openai cung cấp chức năng tương đương. API được thiết kế tương thích với OpenAI, có nghĩa là nếu bạn đã từng làm việc với API của OpenAI, bạn sẽ thấy việc chuyển đổi sang Qwen3.5 Flash rất đơn giản. Sự khác biệt chính nằm ở URL cơ sở và cơ chế xác thực.

Cấu hình API và Các Điểm Cuối Khu Vực

Một khía cạnh quan trọng trong việc cấu hình tích hợp Qwen3.5 Flash của bạn là chọn điểm cuối khu vực phù hợp. Lựa chọn của bạn ảnh hưởng đến độ trễ, giá cả và các tính năng có sẵn. Alibaba Cloud cung cấp nhiều điểm cuối khu vực để phục vụ người dùng trên toàn thế giới:

Điểm cuối Singapore (https://dashscope-intl.aliyuncs.com/compatible-mode/v1) phục vụ khu vực Châu Á – Thái Bình Dương và cung cấp một gói miễn phí hào phóng—1 triệu token miễn phí trong 90 ngày cho người dùng mới. Điều này làm cho nó trở thành một điểm khởi đầu tuyệt vời cho các nhà phát triển khám phá API. Điểm cuối Virginia (Mỹ) (https://dashscope-us.aliyuncs.com/compatible-mode/v1) cung cấp hiệu suất tốt hơn cho người dùng Bắc Mỹ, trong khi điểm cuối Bắc Kinh (https://dashscope.aliyuncs.com/compatible-mode/v1) phục vụ người dùng ở Trung Quốc đại lục.

Khi cấu hình máy khách của bạn, hãy đảm bảo bạn chọn điểm cuối gần nhất về mặt địa lý với người dùng ứng dụng của bạn để có hiệu suất tối ưu. Quá trình xác thực sử dụng khóa API thay vì luồng OAuth mà một số dịch vụ khác sử dụng, đơn giản hóa việc tích hợp đồng thời duy trì bảo mật.

Thực hiện cuộc gọi API đầu tiên của bạn

Với khóa API và điểm cuối đã được cấu hình, bạn đã sẵn sàng thực hiện yêu cầu đầu tiên của mình. Dưới đây là một ví dụ Python cơ bản minh họa một cuộc trò chuyện đơn giản:

"""
Các biến môi trường (theo tài liệu chính thức):
  DASHSCOPE_API_KEY: Khóa API của bạn từ https://bailian.console.aliyun.com
  DASHSCOPE_BASE_URL: (tùy chọn) URL cơ sở cho API chế độ tương thích.
  DASHSCOPE_MODEL: (tùy chọn) Tên mô hình; ghi đè cho các mô hình khác nhau.
  DASHSCOPE_BASE_URL:
    - Bắc Kinh: https://dashscope.aliyuncs.com/compatible-mode/v1
    - Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    - Mỹ (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""
from openai import OpenAI
import os

api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
    raise ValueError(
        "DASHSCOPE_API_KEY is required. "
        "Set it via: export DASHSCOPE_API_KEY='your-api-key'"
    )

client = OpenAI(
    api_key=api_key,
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
    ),
)

messages = [{"role": "user", "content": "Introduce Qwen3.5."}]

model = os.environ.get(
    "DASHSCOPE_MODEL",
    "qwen3.5-plus",
)
completion = client.chat.completions.create(
    model=model,
    messages=messages,
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

reasoning_content = ""  # Dấu vết suy luận đầy đủ
answer_content = ""  # Phản hồi đầy đủ
is_answering = False  # Liệu chúng ta đã vào giai đoạn trả lời chưa
print("\n" + "=" * 20 + "Suy luận" + "=" * 20 + "\n")

for chunk in completion:
    if not chunk.choices:
        print("\nSử dụng:")
        print(chunk.usage)
        continue

    delta = chunk.choices[0].delta

    # Chỉ thu thập nội dung suy luận
    if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
        if not is_answering:
            print(delta.reasoning_content, end="", flush=True)
        reasoning_content += delta.reasoning_content

    # Đã nhận nội dung, bắt đầu giai đoạn trả lời
    if hasattr(delta, "content") and delta.content:
        if not is_answering:
            print("\n" + "=" * 20 + "Trả lời" + "=" * 20 + "\n")
            is_answering = True
        print(delta.content, end="", flush=True)
        answer_content += delta.content

Đối với các nhà phát triển ưa thích các cuộc gọi HTTP trực tiếp, đây là lệnh curl tương đương:

curl -X POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "Qwen3.5-35B-A3B",
    "messages": [{"role": "user", "content": "Explain quantum computing in simple terms"}]
}'

Cấu trúc phản hồi tuân theo định dạng OpenAI tiêu chuẩn, giúp dễ dàng tích hợp với các cơ sở mã hiện có mong đợi phản hồi hoàn thành trò chuyện.

Các Tính năng Nâng cao: Chế độ Suy nghĩ

Một trong những tính năng mạnh mẽ nhất của Qwen3.5 là chế độ suy nghĩ, cho phép mô hình thực hiện suy luận từng bước trước khi đưa ra câu trả lời. Điều này đặc biệt có giá trị đối với các bài toán phức tạp, suy luận logic và phân tích nhiều bước, nơi việc hiển thị quá trình suy luận giúp cải thiện chất lượng kết quả.

Để bật chế độ suy nghĩ, hãy bao gồm tham số `enable_thinking` trong yêu cầu của bạn:

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "If a train travels 120km in 1.5 hours, what is its average speed?"}
    ],
    extra_body={
        'enable_thinking': True,
        'thinking_budget': 81920
    }
)

Tham số `thinking_budget` kiểm soát lượng phân bổ token mà mô hình có thể sử dụng để suy luận. Ngân sách cao hơn cho phép suy luận kỹ lưỡng hơn nhưng làm tăng mức tiêu thụ token và thời gian phản hồi. Đối với các truy vấn đơn giản, ngân sách thấp hơn là đủ, trong khi các vấn đề phức tạp sẽ được hưởng lợi từ sự phân bổ hào phóng.

Triển khai Khả năng Thị giác Đa phương thức

Các biến thể có hỗ trợ thị giác—qwen3-vl-plus và qwen3-vl-flash—mở rộng khả năng của API sang hiểu hình ảnh. Các mô hình này có thể phân tích hình ảnh, mô tả nội dung trực quan, trả lời các câu hỏi về hình ảnh và trích xuất thông tin từ ảnh hoặc sơ đồ. Điều này mở ra nhiều khả năng cho các ứng dụng như chú thích hình ảnh tự động, tìm kiếm trực quan, xử lý tài liệu với sơ đồ và các công cụ hỗ trợ tiếp cận.

Dưới đây là cách gửi một hình ảnh để phân tích:

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/sample-image.jpg"}},
            {"type": "text", "text": "Describe what you see in this image"}
        ]
    }
]

completion = client.chat.completions.create(
    model="Qwen3.5-35B-A3B",
    messages=messages
)

Bạn có thể cung cấp URL hình ảnh hoặc dữ liệu hình ảnh được mã hóa base64 trực tiếp trong yêu cầu. Mô hình xử lý hình ảnh cùng với lời nhắc văn bản của bạn, tạo ra các phản hồi tham chiếu các yếu tố trực quan trong hình ảnh. Khả năng này rất có giá trị để xây dựng các bot dịch vụ khách hàng có thể xử lý ảnh chụp màn hình được tải lên, hệ thống kiểm duyệt tự động và các công cụ giáo dục giải thích nội dung trực quan.

Gọi hàm để Tích hợp Công cụ

Gọi hàm cho phép Qwen3.5 gọi một cách thông minh các công cụ và API bên ngoài dựa trên yêu cầu của người dùng. Điều này thu hẹp khoảng cách giữa AI đàm thoại và chức năng trong thế giới thực, cho phép ứng dụng của bạn thực hiện các hành động như truy vấn cơ sở dữ liệu, gọi API của bên thứ ba hoặc thực thi logic nghiệp vụ tùy chỉnh.

Để triển khai gọi hàm, trước tiên hãy định nghĩa các công cụ có sẵn trong yêu cầu của bạn:

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a specified location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "City name, e.g., San Francisco"
                    }
                },
                "required": ["location"]
            }
        }
    }
]

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "What's the weather like in Tokyo?"}
    ],
    tools=tools
)

Khi mô hình xác định rằng một cuộc gọi hàm là thích hợp, phản hồi sẽ bao gồm một đối tượng gọi công cụ thay vì một tin nhắn văn bản. Ứng dụng của bạn sau đó thực thi hàm và trả về kết quả, cho phép mô hình tạo ra một phản hồi ngữ cảnh cuối cùng. Mẫu này cho phép các quy trình làm việc phức tạp như hệ thống đặt chỗ, ứng dụng truy xuất dữ liệu và trợ lý tương tác có thể thực hiện các hành động có ý nghĩa.

Phản hồi Truyền phát cho các Ứng dụng Thời gian thực

Đối với các ứng dụng mà độ trễ nhận biết được là quan trọng—chẳng hạn như chatbot, trợ lý viết lách và công cụ tương tác—phản hồi truyền phát mang lại trải nghiệm người dùng tốt hơn bằng cách hiển thị văn bản ngay khi nó được tạo ra thay vì chờ đợi phản hồi hoàn chỉnh.

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Write a short story about a robot learning to paint"}
    ],
    stream=True
)

for chunk in completion:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Truyền phát làm giảm thời gian người dùng chờ đợi trước khi thấy kết quả có ý nghĩa, đặc biệt có lợi cho các phản hồi dài hơn. Giao thức truyền phát gửi các phần khi chúng được tạo ra, cho phép hiển thị dần dần trong khi mô hình tiếp tục xử lý.

Tối ưu hóa chi phí với Bộ nhớ đệm ngữ cảnh

Qwen3.5 cung cấp khả năng tiết kiệm chi phí đáng kể thông qua bộ nhớ đệm ngữ cảnh (context caching), một tính năng giúp giảm chi phí cho các ứng dụng có ngữ cảnh lặp lại. Khi bạn gửi các tin nhắn có chung lời nhắc hệ thống hoặc tài liệu cơ sở, bộ nhớ đệm sẽ lưu trữ ngữ cảnh này để tái sử dụng. Các yêu cầu tiếp theo tham chiếu cùng nội dung được lưu trong bộ nhớ đệm sẽ nhận được giảm giá đáng kể—20% giá tiêu chuẩn cho bộ nhớ đệm ngầm định và 10% cho quản lý bộ nhớ đệm rõ ràng.

Tính năng này đặc biệt có giá trị đối với các ứng dụng như hệ thống hỏi đáp tài liệu, nơi một tài liệu cơ sở vẫn không đổi trong khi các câu hỏi của người dùng khác nhau. Thay vì gửi lại toàn bộ tài liệu với mỗi truy vấn, bạn tham chiếu ngữ cảnh được lưu trong bộ nhớ đệm, giúp giảm đáng kể chi phí token ở quy mô lớn.

Chọn Mô hình Phù hợp với Nhu cầu của bạn

Việc chọn biến thể Qwen3.5 phù hợp phụ thuộc vào các yêu cầu cụ thể của bạn. Dưới đây là hướng dẫn thực tế:

Mô hình	Loại	Tham số	Tốt nhất cho
Qwen3.5-397B-A17B	Hình ảnh-Văn bản-sang-Văn bản	403B	Khả năng tối đa, suy luận phức tạp
Qwen3.5-397B-A17B-FP8	Hình ảnh-Văn bản-sang-Văn bản	403B	Khả năng cao với bộ nhớ tối ưu hóa
Qwen3.5-122B-A10B	Hình ảnh-Văn bản-sang-Văn bản	125B	Hiệu suất và hiệu quả cân bằng
Qwen3.5-35B-A3B	Hình ảnh-Văn bản-sang-Văn bản	36B	Tiết kiệm chi phí, tác vụ đa năng
Qwen3.5-35B-A3B-Base	Hình ảnh-Văn bản-sang-Văn bản	36B	Mô hình cơ sở để tinh chỉnh
Qwen3.5-27B	Hình ảnh-Văn bản-sang-Văn bản	28B	Ứng dụng nhẹ

Qwen3.5-397B-A17B

Mô hình chủ lực với 403 tỷ tham số, được thiết kế cho khả năng tối đa trong suy luận phức tạp, phân tích dữ liệu quy mô lớn và các tác vụ giải quyết vấn đề nâng cao.

Qwen3.5-397B-A17B-FP8

Khả năng tương tự như mô hình 397B với lượng tử hóa FP8 được tối ưu hóa để giảm bộ nhớ và suy luận nhanh hơn trong khi vẫn duy trì chất lượng cao.

Qwen3.5-122B-A10B

Một mô hình 125 tỷ tham số cân bằng, mang lại hiệu suất mạnh mẽ trên các tác vụ chung với yêu cầu tài nguyên hợp lý.

Qwen3.5-35B-A3B (Qwen3.5 Flash)

Mô hình 36 tỷ tham số linh hoạt nhất, lý tưởng cho các ứng dụng đa năng, chatbot và triển khai sản xuất tiết kiệm chi phí.

Qwen3.5-35B-A3B-Base

Phiên bản mô hình cơ sở của biến thể 35B, hoàn hảo để tinh chỉnh trên các bộ dữ liệu chuyên biệt để tạo ra các giải pháp AI tùy chỉnh.

Qwen3.5-27B

Mô hình 28 tỷ tham số nhẹ, được thiết kế cho các môi trường hạn chế tài nguyên và các ứng dụng mà tốc độ là yếu tố quan trọng.

Đối với hầu hết các ứng dụng chung, Qwen3.5 Flash (Qwen3.5-35B-A3B) cung cấp sự cân bằng tốt nhất giữa khả năng và chi phí. Nếu bạn cần hiệu suất tối đa cho các tác vụ suy luận phức tạp, các mô hình 397B mang lại khả năng cao nhất. Biến thể 122B cung cấp một sự lựa chọn trung gian giữa hiệu suất và yêu cầu tài nguyên.

Kết luận

API Qwen3.5 Flash mang đến cho các nhà phát triển một giải pháp mạnh mẽ, linh hoạt và tiết kiệm chi phí để tích hợp các khả năng AI tiên tiến vào ứng dụng. Với giao diện tương thích OpenAI, các gói miễn phí hào phóng và một loạt các mô hình chuyên biệt, việc bắt đầu yêu cầu ít nỗ lực nhất trong khi vẫn cung cấp các con đường dẫn đến các triển khai phức tạp. Dù bạn đang xây dựng các chatbot đơn giản hay các ứng dụng đa phương thức phức tạp, Qwen3.5 Flash đều cung cấp nền tảng cho những trải nghiệm được hỗ trợ bởi AI hấp dẫn.

Chìa khóa để triển khai thành công nằm ở việc hiểu các yêu cầu cụ thể của bạn—độ nhạy độ trễ, hạn chế ngân sách và nhu cầu chức năng—và chọn biến thể mô hình तथा cấu hình phù hợp. Hãy bắt đầu với gói miễn phí ở khu vực Singapore để khám phá các khả năng, sau đó tối ưu hóa việc triển khai của bạn dựa trên hiệu suất thực tế và các quan sát về chi phí.

Tinh gọn quy trình làm việc phát triển API của bạn với Apidog. Từ việc thiết kế lược đồ API đến gỡ lỗi các điểm cuối và tạo tài liệu, Apidog giúp bạn xây dựng các tích hợp đáng tin cậy nhanh hơn. Đây là nền tảng tất cả trong một giúp việc làm việc với Qwen3.5 và bất kỳ API nào khác trở nên dễ dàng.

Tải ứng dụng