Cách Sử Dụng NVIDIA API Miễn Phí Với Nemotron Nano 12B v2 VL

Ashley Innocent

Ashley Innocent

26 tháng 11 2025

Cách Sử Dụng NVIDIA API Miễn Phí Với Nemotron Nano 12B v2 VL

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Các nhà phát triển tìm kiếm những công cụ hiệu quả có thể xử lý cả văn bản và hình ảnh mà không tốn kém. NVIDIA Nemotron Nano 12B v2 VL nổi bật như một mô hình ngôn ngữ thị giác mạnh mẽ nhưng nhỏ gọn, và việc truy cập nó thông qua tầng miễn phí của NVIDIA API qua các nền tảng như OpenRouter giúp việc thử nghiệm trở nên dễ dàng.

💡
Trước khi tiếp tục, hãy cân nhắc trang bị cho mình Apidog—một công cụ phát triển API mạnh mẽ giúp tối ưu hóa việc kiểm thử và tài liệu hóa cho các điểm cuối như thế này. Tải xuống Apidog miễn phí để nhập các bộ sưu tập OpenRouter và gỡ lỗi các yêu cầu miễn phí của NVIDIA API một cách dễ dàng, đảm bảo tích hợp mượt mà hơn vào quy trình làm việc của bạn.
nút

Bài viết này sẽ hướng dẫn bạn quy trình tận dụng API NVIDIA Nemotron Nano 12B v2 VL miễn phí. Bạn sẽ tìm hiểu về kiến trúc của mô hình, các yêu cầu thiết lập, các bước triển khai thực tế và các mẫu sử dụng nâng cao. Cuối cùng, bạn sẽ có kiến thức để triển khai mô hình này vào các ứng dụng của mình, từ chú thích hình ảnh đến trả lời câu hỏi bằng hình ảnh.

Tìm hiểu NVIDIA Nemotron Nano 12B v2 VL: Kiến trúc cốt lõi và khả năng

Các kỹ sư của NVIDIA đã thiết kế mô hình Nemotron Nano 12B v2 VL để đáp ứng nhu cầu ngày càng tăng về xử lý ngôn ngữ thị giác hiệu quả. Mô hình 12 tỷ tham số này kết hợp hiểu ngôn ngữ dựa trên transformer với bộ mã hóa hình ảnh, cho phép nó xử lý các chuỗi văn bản và hình ảnh xen kẽ. Không giống như các mô hình lớn hơn yêu cầu tài nguyên GPU đáng kể, Nemotron Nano 12B v2 VL được tối ưu hóa cho việc triển khai ở biên và suy luận độ trễ thấp, làm cho nó lý tưởng cho các ứng dụng thời gian thực.

Về cốt lõi, mô hình sử dụng một bộ biến đổi thị giác (ViT) để trích xuất các đặc trưng từ hình ảnh đầu vào, sau đó là một bộ chiếu đa phương thức (multimodal projector) để căn chỉnh các đặc trưng này với không gian nhúng văn bản. Thành phần ngôn ngữ được xây dựng trên kiến trúc Nemotron của NVIDIA, tích hợp các nhúng vị trí xoay (rotary positional embeddings) để xử lý ngữ cảnh mở rộng. Thiết lập này hỗ trợ độ dài ngữ cảnh lên tới 4.096 token, đủ cho hầu hết các tác vụ thực tế liên quan đến mô tả ngắn hoặc truy vấn kết hợp với hình ảnh.

Các khả năng chính bao gồm:

Các điểm chuẩn cho thấy hiệu suất mạnh mẽ: Trên tập dữ liệu VQAv2, Nemotron Nano 12B v2 VL đạt độ chính xác xấp xỉ 75%, cạnh tranh với các mô hình lớn hơn trong khi tiêu thụ ít tài nguyên tính toán hơn nhiều. Đối với các nhà phát triển, điều này có nghĩa là chu kỳ tạo mẫu nhanh hơn, đặc biệt khi sử dụng quyền truy cập miễn phí NVIDIA API.

Hơn nữa, các tùy chọn lượng tử hóa của mô hình—chẳng hạn như trọng số 4-bit hoặc 8-bit—giúp giảm dung lượng bộ nhớ mà không làm mất đi độ chính xác đáng kể. NVIDIA cung cấp các tùy chọn này thông qua danh mục NGC của họ, nhưng đối với việc sử dụng dựa trên API, các nền tảng như OpenRouter sẽ xử lý phần lớn công việc, hiển thị mô hình thông qua các điểm cuối HTTP tiêu chuẩn.

Truy cập tầng miễn phí của NVIDIA API: Tích hợp OpenRouter

Để sử dụng API NVIDIA Nemotron Nano 12B v2 VL miễn phí, bạn định tuyến các yêu cầu thông qua OpenRouter, một cổng thống nhất cho các mô hình AI. OpenRouter cung cấp một tầng miễn phí hào phóng cho biến thể mô hình cụ thể này, cho phép tối đa 10 yêu cầu mỗi phút và 1.000 token mỗi phút mà không mất phí. Giới hạn này phù hợp cho việc thử nghiệm và phát triển quy mô nhỏ, và bạn có thể nâng cấp lên các gói trả phí để có thông lượng cao hơn nếu cần.

Đầu tiên, tạo một tài khoản trên OpenRouter. Điều hướng đến bảng điều khiển của họ và đăng ký bằng email hoặc thông tin đăng nhập GitHub của bạn. Sau khi đăng nhập, hãy tạo một khóa API từ phần "Keys". Khóa này sẽ xác thực tất cả các cuộc gọi tiếp theo, theo một sơ đồ token Bearer đơn giản.

OpenRouter chuẩn hóa giao diện API để bắt chước định dạng của OpenAI, điều này đơn giản hóa việc di chuyển cho các nhà phát triển quen thuộc với các điểm cuối GPT. URL cơ sở cho các yêu cầu là https://openrouter.ai/api/v1, và bạn chỉ định mô hình là nvidia/nemotron-nano-12b-v2-vl:free. Thẻ này đảm bảo bạn truy cập điểm cuối của tầng miễn phí, tránh mọi khoản phí vô ý.

Đối với đầu vào thị giác, bạn mã hóa hình ảnh dưới dạng chuỗi base64 trong tải trọng JSON. API hỗ trợ các định dạng JPEG và PNG, với độ phân giải tối đa 1024x1024 pixel cho mỗi hình ảnh—độ phân giải cao hơn sẽ kích hoạt tự động thay đổi kích thước để ngăn chặn tràn. Đầu vào văn bản vẫn là các chuỗi UTF-8 tiêu chuẩn, và mô hình xuất ra các phản hồi định dạng JSON chứa văn bản được tạo.

Chuyển từ thiết lập sang triển khai, giờ đây bạn chuẩn bị môi trường phát triển của mình. Cài đặt Python 3.8 trở lên, cùng với thư viện requests để xử lý HTTP. Để kiểm thử nâng cao hơn, Apidog tích hợp liền mạch, cho phép bạn hình dung các chu trình yêu cầu/phản hồi và xuất các bộ sưu tập để cộng tác nhóm.

Thiết lập từng bước: Điều kiện tiên quyết và cấu hình môi trường

Bạn bắt đầu bằng cách xác minh sự sẵn sàng của hệ thống. Đảm bảo Python có trên máy của bạn; kiểm tra qua python --version trong terminal. Nếu không có, hãy tải xuống từ trang web chính thức của Python.

Tiếp theo, tạo một môi trường ảo để cô lập các phụ thuộc:

python -m venv nemotron_env
source nemotron_env/bin/activate  # On Windows: nemotron_env\Scripts\activate

Cài đặt gói cần thiết:

pip install requests

Lưu trữ khóa API OpenRouter của bạn một cách an toàn. Sử dụng biến môi trường cho mục đích này—tạo một tệp .env trong thư mục dự án của bạn với OPENROUTER_API_KEY=your_key_here. Tải nó bằng thư viện python-dotenv:

pip install python-dotenv

Trong mã của bạn, nhập và sử dụng nó như sau:

import os
from dotenv import load_dotenv
load_dotenv()
api_key = os.getenv('OPENROUTER_API_KEY')

Cấu hình này ngăn chặn việc mã hóa cứng dữ liệu nhạy cảm, một phương pháp hay nhất cho môi trường sản xuất. Với những nền tảng này, bạn tiến hành tạo cuộc gọi API đầu tiên của mình.

Hơn nữa, nếu bạn ưa thích kiểm thử dựa trên GUI, Apidog sẽ rất hữu ích. Nhập trực tiếp lược đồ OpenRouter vào Apidog, cấu hình khóa miễn phí NVIDIA API của bạn và chạy mô phỏng mà không cần viết mã. Phương pháp này đẩy nhanh quá trình gỡ lỗi, đặc biệt đối với các tải trọng đa phương thức mà cấu trúc JSON rất quan trọng.

Thực hiện các cuộc gọi API cơ bản: Ví dụ chỉ văn bản và chỉ hình ảnh

Bạn bắt đầu với các yêu cầu đơn giản để xây dựng sự tự tin. Điểm cuối cốt lõi là /chat/completions, một phương thức POST chấp nhận một nội dung JSON với model, messages và các tham số tùy chọn như temperature (0-2 để kiểm soát sự sáng tạo) và max_tokens (lên đến 2048).

Hãy xem xét một truy vấn chỉ văn bản để làm quen với mô hình:

import requests
import json
import base64

url = "https://openrouter.ai/api/v1/chat/completions"
headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json"
}

payload = {
    "model": "nvidia/nemotron-nano-12b-v2-vl:free",
    "messages": [
        {"role": "user", "content": "Explain the basics of vision-language models in 100 words."}
    ],
    "max_tokens": 150,
    "temperature": 0.7
}

response = requests.post(url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])

Tập lệnh này gửi một lời nhắc và truy xuất một lời giải thích ngắn gọn. Phản hồi được truyền về trong vòng chưa đầy 2 giây trung bình, nhờ vào định tuyến tối ưu của OpenRouter.

Bây giờ, mở rộng sang xử lý chỉ hình ảnh. Mã hóa tệp hình ảnh sang base64:

with open("sample_image.jpg", "rb") as image_file:
    base64_image = base64.b64encode(image_file.read()).decode('utf-8')

content = [
    {
        "type": "text",
        "text": "Describe this image in detail."
    },
    {
        "type": "image_url",
        "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
        }
    }
]

payload["messages"] = [{"role": "user", "content": content}]
# Repeat the POST request as above

Mô hình phân tích hình ảnh, xuất ra các mô tả như "Một chiếc xe thể thao màu đỏ đậu trên đường phố vào lúc hoàng hôn, với những người đi bộ mờ ở hậu cảnh." Các đầu ra như vậy thể hiện sự kết hợp VL một cách hiệu quả.

Tuy nhiên, đối với các kịch bản phức tạp, bạn kết hợp các phương thức, như sẽ được khám phá tiếp theo.

Sử dụng nâng cao: Truy vấn đa phương thức với NVIDIA Nemotron Nano 12B v2 VL

Kết hợp văn bản và hình ảnh sẽ mở khóa toàn bộ tiềm năng của mô hình. Bạn xây dựng các tin nhắn với các mảng nội dung xen kẽ, trong đó mỗi phần tử chỉ định loại ("text" hoặc "image_url") và giá trị.

Ví dụ về trả lời câu hỏi bằng hình ảnh:

content = [
    {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{base64_chart_image}"}},
    {"type": "text", "text": "What is the trend in sales from Q1 to Q4 in this chart?"}
]

payload["messages"] = [{"role": "user", "content": content}]
response = requests.post(url, headers=headers, json=payload)

API trả về các phản hồi hợp lý, chẳng hạn như "Doanh số tăng đều đặn từ 100 nghìn đô la trong Q1 lên 400 nghìn đô la trong Q4, cho thấy mức tăng trưởng 300%." Khả năng này chứng tỏ là vô giá đối với các công cụ trực quan hóa dữ liệu hoặc hệ thống báo cáo tự động.

Để tăng cường độ tin cậy, bạn kết hợp các lời nhắc hệ thống cho việc đóng vai:

payload["messages"] = [
    {"role": "system", "content": "You are a precise image analyst."},
    {"role": "user", "content": content}
]

Tin nhắn hệ thống hướng dẫn hành vi của mô hình, giảm thiểu ảo giác trong đầu ra. Ngoài ra, hãy đặt top_p thành 0.9 cho lấy mẫu hạt nhân (nucleus sampling), giúp cân bằng giữa sự đa dạng và tính mạch lạc.

Đối với xử lý hàng loạt, OpenRouter hỗ trợ các cuộc gọi không đồng bộ qua WebSockets, nhưng hãy tuân thủ các POST đồng bộ để đơn giản hóa việc sử dụng tầng miễn phí. Theo dõi mức sử dụng thông qua bảng điều khiển để duy trì trong giới hạn—việc vượt quá giới hạn sẽ kích hoạt lỗi 429, mà bạn xử lý bằng cách lùi lại theo cấp số nhân (exponential backoff):

import time
try:
    response = requests.post(url, headers=headers, json=payload)
    if response.status_code == 429:
        time.sleep(60)  # Wait 1 minute
        response = requests.post(url, headers=headers, json=payload)
except Exception as e:
    print(f"Error: {e}")

Khả năng phục hồi này đảm bảo các quy trình làm việc không bị gián đoạn. Khi bạn mở rộng quy mô, các tính năng mô phỏng của Apidog sẽ mô phỏng các phản hồi, hỗ trợ phát triển ngoại tuyến.

Tận dụng Apidog để kiểm thử và tài liệu hóa NVIDIA API miễn phí

Apidog nâng tầm tương tác API của bạn vượt ra ngoài các tập lệnh thô. Công cụ mã nguồn mở này hỗ trợ nhập thông số kỹ thuật OpenAPI và OpenRouter cung cấp một cái cho các điểm cuối Nemotron.

Tải xuống Apidog miễn phí, như đã đề cập trước đó, và làm theo các bước sau:

  1. Khởi chạy Apidog và tạo một dự án mới.
  2. Nhập bộ sưu tập OpenRouter từ kho lưu trữ GitHub của họ hoặc dán JSON lược đồ.
  3. Thêm khóa miễn phí NVIDIA API của bạn vào biến môi trường.
  4. Thiết kế yêu cầu: Tải lên hình ảnh bằng cách kéo và thả sẽ tự động chuyển đổi sang base64.
  5. Chạy kiểm thử và xem dấu vết—Apidog làm nổi bật các đỉnh độ trễ hoặc lỗi tải trọng.

Bạn dễ dàng tài liệu hóa các điểm cuối, tạo báo cáo Markdown với các ví dụ. Ví dụ, xuất một lệnh curl cho truy vấn VQA của bạn:

curl -X POST https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization": "Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type": "application/json" \
  -d '{"model":"nvidia/nemotron-nano-12b-v2-vl:free","messages":[{"role":"user","content":[{"type":"image_url","image_url":{"url":"data:image/jpeg;base64,..."},"type":"text","text":"Analyze this."}]}]}'

Các bản xuất như vậy tạo điều kiện chia sẻ với các nhóm. Hơn nữa, chế độ cộng tác của Apidog theo dõi các thay đổi, kiểm soát phiên bản các thử nghiệm NVIDIA Nemotron Nano 12B v2 VL của bạn.

Trong thực tế, các nhà phát triển báo cáo chu kỳ lặp lại nhanh hơn 40% với Apidog, vì nó trừu tượng hóa mã boilerplate. Chuyển sang sản xuất bằng cách xuất sang Postman hoặc tích hợp trực tiếp qua SDK.

Xử lý lỗi, Các phương pháp hay nhất và Chiến lược tối ưu hóa

Lỗi phát sinh trong việc sử dụng API, vì vậy bạn chủ động dự đoán chúng. Các vấn đề phổ biến bao gồm 401 (khóa không hợp lệ)—hãy kiểm tra lại token Bearer của bạn. Đối với 400 (JSON bị định dạng sai), hãy xác thực tải trọng bằng các công cụ như JSONLint. Các lỗi liên quan đến hình ảnh, chẳng hạn như chuỗi base64 quá lớn, được giải quyết bằng cách nén tệp trước đó bằng Pillow:

from PIL import Image
img = Image.open("large_image.jpg")
img = img.resize((512, 512))
img.save("resized.jpg", quality=85)

Các phương pháp hay nhất bao gồm giới hạn tốc độ ở phía bạn với time.sleep(6) giữa các cuộc gọi để tôn trọng giới hạn 10 RPM. Lưu trữ các phản hồi thường xuyên bằng Redis để giảm thiểu số lần truy cập API.

Tối ưu hóa tập trung vào kỹ thuật nhắc lệnh (prompt engineering). Sử dụng các truy vấn ngắn gọn: "Xác định các đối tượng và mối quan hệ của chúng trong bức ảnh này" mang lại kết quả tốt hơn so với các truy vấn mơ hồ. Thử nghiệm với các giá trị nhiệt độ—thấp hơn cho các tác vụ thực tế, cao hơn cho việc tạo ra nội dung sáng tạo.

Để mở rộng quy mô miễn phí trong giới hạn, hãy nhóm các truy vấn logic vào các tin nhắn đơn lẻ, tối đa hóa hiệu quả token. Theo dõi việc sử dụng token qua siêu dữ liệu phản hồi: result['usage']['total_tokens'].

Hơn nữa, hãy tích hợp ghi nhật ký với mô-đun logging để theo dõi hiệu suất:

import logging
logging.basicConfig(level=logging.INFO)
logging.info(f"Response tokens: {result['usage']['total_tokens']}")

Những thói quen này xây dựng các ứng dụng mạnh mẽ. Khi bạn tinh chỉnh, hãy cân nhắc các thiết lập lai kết hợp Nemotron với tiền xử lý cục bộ để có độ trễ cực thấp.

Kết luận

Giờ đây bạn đã có trong tay các công cụ để tận dụng API NVIDIA Nemotron Nano 12B v2 VL miễn phí. Từ thiết lập ban đầu đến triển khai nâng cao, hướng dẫn này trang bị cho bạn để thành công. Hãy mạnh dạn thử nghiệm—bắt đầu với các cuộc gọi đơn giản và lặp lại để tạo ra các ứng dụng phức tạp. Hãy nhớ rằng, những điều chỉnh nhỏ nhất quán, như các lời nhắc tinh tế hoặc kiểm thử được hỗ trợ bởi Apidog, sẽ mang lại những lợi ích đáng kể.

Để đọc thêm, hãy khám phá các diễn đàn nhà phát triển của NVIDIA hoặc nhật ký thay đổi của OpenRouter. Tải xuống Apidog ngay hôm nay nếu bạn chưa làm, và biến đổi quy trình làm việc API của bạn. Dự án nào bạn sẽ bắt đầu đầu tiên?

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API