Gemini 3 Pro đã có mặt trên gói miễn phí của Ollama, và các nhà phát triển ngay lập tức nhận thấy điều này. Bạn không còn cần đăng ký gói Cloud Max hoặc Pro trả phí để thử nghiệm một trong những mô hình đa phương thức mạnh mẽ nhất hiện có. Hơn nữa, sự tích hợp này mang khả năng suy luận tiên tiến của Gemini 3 Pro trực tiếp vào quy trình làm việc quen thuộc của Ollama mà hàng triệu người đã sử dụng cho các mô hình cục bộ.
Tiếp theo, bạn sẽ khám phá những thay đổi, cách thiết lập và cách tối đa hóa hiệu suất trên phần cứng tiêu dùng.
Có gì thay đổi với Gemini 3 Pro trên Ollama?
Ban đầu, Ollama giới hạn Gemini 3 Pro chỉ dành cho các gói Cloud trả phí của Ollama. Tuy nhiên, vào ngày 18 tháng 11 năm 2025, tài khoản chính thức của Ollama đã thông báo rằng mô hình này hiện đã có mặt trên gói miễn phí cùng với các gói Pro và Max.
Giờ đây bạn chỉ cần thực hiện một lệnh duy nhất:
ollama run gemini-3-pro-preview
Lệnh này sẽ tải xuống và chạy mô hình mà không có thêm rào cản thanh toán. Ngoài ra, mô hình còn hỗ trợ cửa sổ ngữ cảnh 1M token, đầu vào đa phương thức tự nhiên (văn bản, hình ảnh, âm thanh, video) và các khả năng tác nhân nâng cao.

| Bậc | Truy cập Gemini 3 Pro | Giới hạn tốc độ (xấp xỉ) | Chi phí |
|---|---|---|---|
| Miễn phí | Có (bản xem trước) | Trung bình | $0 |
| Pro | Có | Cao hơn | Trả phí |
| Max | Có | Cao nhất | Trả phí cao hơn |
Sự thay đổi này dân chủ hóa quyền truy cập. Do đó, các nhà phát triển độc lập, nhà nghiên cứu và những người có sở thích đều có được khả năng suy luận cấp độ tiên tiến mà trước đây yêu cầu các gói đăng ký doanh nghiệp.
Các điều kiện tiên quyết trước khi bạn bắt đầu
Bạn cần **Cài đặt Ollama phiên bản mới nhất** — Phiên bản 0.3.12 trở lên xử lý các mô hình được lưu trữ trên đám mây một cách liền mạch. Tải xuống từ https://ollama.com/download.

Từng bước: Chạy Gemini 3 Pro Preview trên gói miễn phí
Làm theo các bước chính xác sau để khởi chạy mô hình.
Đầu tiên, mở terminal của bạn và xác minh Ollama đang chạy:
ollama --version
Bạn sẽ thấy phiên bản 0.3.12 trở lên.
Thứ hai, kéo và chạy mô hình trực tiếp:
ollama run gemini-3-pro-preview

Ollama tự động phát hiện đủ điều kiện sử dụng gói miễn phí của bạn và kết nối với backend của Google thông qua khóa API của bạn (được lưu trữ an toàn sau lần chạy đầu tiên). Hơn nữa, lần thực thi đầu tiên sẽ nhắc bạn nhập khóa nếu chưa có.
Thứ ba, kiểm tra tương tác cơ bản:
>>> Explain quantum entanglement in simple terms but with mathematical rigor.
Mô hình phản hồi bằng những giải thích rõ ràng, thường bao gồm các phương trình được định dạng theo LaTeX.

Hơn nữa, bạn có thể tải lên hình ảnh hoặc tài liệu trực tiếp trong các công cụ như Open WebUI.
Kiểm thử API Gemini trực tiếp với Apidog
Đôi khi bạn cần quyền truy cập trực tiếp vào endpoint của Gemini để viết script hoặc tích hợp. Apidog vượt trội ở đây vì nó hỗ trợ tạo yêu cầu tự động, biến môi trường và xác thực phản hồi.

Dưới đây là cách kiểm thử cùng một mô hình thông qua endpoint chính thức:
Mở Apidog và tạo một yêu cầu mới.
Đặt phương thức là POST và URL là:
https://generativelanguage.googleapis.com/v1/models/gemini-3-pro-preview:generateContent
Thêm tham số truy vấn: key=YOUR_API_KEY
Trong phần body (JSON), sử dụng:
{
"contents": [{
"parts": [{
"text": "Compare Gemini 3 Pro to GPT-4o on reasoning benchmarks."
}]
}]
}
Gửi yêu cầu.
Apidog tự động định dạng phản hồi, làm nổi bật việc sử dụng token và cho phép bạn lưu yêu cầu dưới dạng bộ sưu tập. Cách tiếp cận này tỏ ra vô giá khi bạn kết nối các cuộc gọi hoặc xây dựng các tác nhân.
Khả năng đa phương thức: Thị giác, Âm thanh và Video
Gemini 3 Pro nổi bật với khả năng xử lý đa phương thức tự nhiên. Ví dụ, bạn có thể cấp cho nó một URL hình ảnh hoặc tệp cục bộ:
ollama run gemini-3-pro-preview
>>> (upload image of a circuit diagram)
Explain this schematic and suggest improvements for efficiency.
Mô hình phân tích sơ đồ, xác định các thành phần và đề xuất tối ưu hóa. Tương tự, bạn có thể xử lý các khung video hoặc bản ghi âm thanh trong cùng một phiên.
Trong thực tế, các nhà phát triển báo cáo hiệu suất vượt trội trong các tác vụ hiểu tài liệu so với Gemini 1.5 Pro trước đây, đặc biệt với các tệp PDF hỗn hợp văn bản/hình ảnh.
Điểm chuẩn hiệu suất và kiểm thử thực tế
Các thử nghiệm độc lập được thực hiện vào ngày 18 tháng 11 năm 2025, cho thấy Gemini 3 Pro đạt được:
- MMLU-Pro: 88.2%
- GPQA Diamond: 82.7%
- LiveCodeBench: 74.1%
- MMMU (đa phương thức): 78.5%
Hơn nữa, tốc độ đầu ra trên gói miễn phí trung bình 45–60 token/giây đối với các lời nhắc chỉ bằng văn bản, cạnh tranh với các gói trả phí của các mô hình đối thủ.
Bạn có thể đạt được phản hồi nhanh hơn nữa bằng cách sử dụng giao diện người dùng Open WebUI hoặc tích hợp thông qua endpoint tương thích OpenAI mà Ollama cung cấp.
Tích hợp Gemini 3 Pro vào các ứng dụng
Ollama cung cấp API tương thích OpenAI tại http://localhost:11434/v1. Do đó, bạn có thể trỏ bất kỳ dự án LangChain, LlamaIndex hoặc Haystack nào đến nó:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # dummy key
)
response = client.chat.completions.create(
model="gemini-3-pro-preview",
messages=[{"role": "user", "content": "Write a FastAPI endpoint for user auth."}]
)
print(response.choices[0].message.content)
Khả năng tương thích này có nghĩa là bạn có thể thay thế Gemini 3 Pro mà không cần viết lại các codebase được xây dựng cho các mô hình GPT.
Những hạn chế của gói miễn phí bạn nên biết
Quyền truy cập miễn phí bao gồm giới hạn tốc độ hào phóng nhưng hữu hạn. Người dùng thường xuyên có thể đạt giới hạn khoảng 50–100 yêu cầu mỗi phút, tùy thuộc vào khu vực và tải. Ngoài ra, mô hình vẫn được lưu trữ trên đám mây, do đó độ trễ phụ thuộc vào kết nối của bạn (thường là 800–1500ms TTF).
Để sử dụng không giới hạn, hãy nâng cấp lên Ollama Pro hoặc Max, nhưng hầu hết các nhà phát triển đều thấy gói miễn phí đủ cho việc tạo mẫu và công việc hàng ngày.

Sử dụng nâng cao: Gọi hàm và Sử dụng công cụ
Gemini 3 Pro hỗ trợ gọi hàm tự nhiên. Định nghĩa các công cụ trong Modelfile của bạn hoặc thông qua API:
{
"tools": [{
"type": "function",
"function": {
"name": "get_weather",
"description": "Lấy thời tiết hiện tại",
"parameters": { ... }
}
}]
}
Mô hình sau đó sẽ quyết định khi nào cần gọi các hàm của bạn, cho phép các quy trình làm việc tác nhân như duyệt web hoặc truy vấn cơ sở dữ liệu.
Khắc phục sự cố thường gặp
- Lỗi 401/403: Tạo lại khóa API Gemini của bạn và chạy lại
ollama runđể xác thực lại. - Không tìm thấy mô hình: Cập nhật Ollama (
ollama update) và thử lại. - Phản hồi chậm: Chuyển sang kết nối có dây hoặc sử dụng vào giờ thấp điểm.
- Đa phương thức thất bại: Đảm bảo bạn đang sử dụng phiên bản Ollama mới nhất và tải tệp lên qua các ứng dụng khách được hỗ trợ (Open WebUI hoạt động tốt nhất).
Tại sao điều này quan trọng đối với các nhà phát triển vào năm 2025
Giờ đây bạn có thể truy cập trí tuệ cấp độ tiên tiến mà không tốn chi phí cơ sở hạ tầng. Điều này làm thay đổi đáng kể sân chơi. Các nhóm nhỏ có thể xây dựng các tác nhân tinh vi, các nhà nghiên cứu có thể đánh giá hiệu suất so với mô hình SOTA mới nhất và những người có sở thích có thể khám phá AI đa phương thức—tất cả mà không cần phê duyệt ngân sách.
Ngoài ra, kết hợp điều này với các công cụ như Apidog để quản lý API sẽ đẩy nhanh chu kỳ phát triển từ vài ngày xuống còn vài giờ.
Kết luận: Bắt đầu sử dụng Gemini 3 Pro ngay hôm nay
Thực thi ollama run gemini-3-pro-preview ngay bây giờ và tự mình trải nghiệm sự khác biệt. Google và Ollama vừa loại bỏ rào cản lớn nhất đối với việc thử nghiệm AI tiên tiến.
Tải xuống Apidog miễn phí ngay hôm nay để tăng tốc quy trình kiểm thử API của bạn—cho dù bạn đang gỡ lỗi các yêu cầu Gemini hay xây dựng các ứng dụng full-stack xung quanh Ollama.
Tương lai của AI mở, dễ tiếp cận đã đến. Bạn chỉ cần một lệnh để tham gia.
