Cách sử dụng Nano Banana qua API (Gemini-2-5-flash-image-preview)

Ashley Innocent

Ashley Innocent

27 tháng 8 2025

Cách sử dụng Nano Banana qua API (Gemini-2-5-flash-image-preview)

Google gần đây đã ra mắt Nano Banana, một bước đột phá trong chỉnh sửa hình ảnh do AI điều khiển, thiết lập các tiêu chuẩn mới về tính nhất quán và sáng tạo. Tính năng này, được biết đến chính thức là Gemini 2.5 Flash Image Preview, cho phép người dùng tạo và chỉnh sửa hình ảnh với độ chính xác đáng kinh ngạc, duy trì sự giống nhau của chủ thể qua nhiều lần sửa đổi. Các kỹ sư và nhà phát triển hiện có thể truy cập khả năng này thông qua Gemini API, cho phép tích hợp vào các ứng dụng tùy chỉnh cho các tác vụ từ cải thiện ảnh đơn giản đến bố cục cảnh phức tạp.

💡
Hơn nữa, để hợp lý hóa quy trình phát triển của bạn, hãy cân nhắc tải xuống Apidog miễn phí. Công cụ khách API mạnh mẽ này tạo điều kiện thuận lợi cho việc kiểm tra các lệnh gọi đến điểm cuối Gemini-2-5-flash-image-preview, đảm bảo bạn xác thực phản hồi nhanh chóng và lặp lại các triển khai của mình mà không gặp trở ngại. Giao diện trực quan của Apidog hỗ trợ xác thực, cấu hình tham số và phân tích phản hồi, biến nó thành một công cụ lý tưởng để làm việc với API của Nano Banana.
nút

Khi các mô hình AI phát triển, các công cụ như Nano Banana trao quyền cho người sáng tạo vượt qua ranh giới trong hình ảnh kỹ thuật số. Bài viết này hướng dẫn bạn qua các khía cạnh kỹ thuật của việc sử dụng Nano Banana thông qua API, từ thiết lập ban đầu đến các kỹ thuật nâng cao. Các nhà phát triển tận dụng mô hình này để xây dựng các ứng dụng biến các gợi ý văn bản thành các chỉnh sửa hình ảnh có tính nhất quán, và các phần sau sẽ trình bày chi tiết từng bước.

Tìm hiểu Nano Banana và Gemini 2.5 Flash Image Preview

Nano Banana đại diện cho bước tiến mới nhất của Google trong AI đa phương thức, được thiết kế đặc biệt để tạo và chỉnh sửa hình ảnh. Thuật ngữ "Nano Banana" đóng vai trò là một biệt danh vui nhộn cho mô hình Gemini 2.5 Flash Image, làm nổi bật thiết kế hiệu quả, nhẹ nhàng của nó mang lại kết quả chất lượng cao mà không đòi hỏi quá nhiều tài nguyên tính toán. Không giống như các trình chỉnh sửa hình ảnh truyền thống, mô hình này vượt trội trong việc duy trì tính nhất quán của nhân vật—đảm bảo rằng khuôn mặt, tư thế và chi tiết vẫn đúng với chủ thể ban đầu ngay cả sau những thay đổi lớn.

Nano Banana

Hơn nữa, Gemini-2-5-flash-image-preview tích hợp khả năng suy luận, cho phép mô hình "suy nghĩ" về các chỉnh sửa trước khi áp dụng chúng. Điều này dẫn đến các kết quả đầu ra tránh được các lỗi phổ biến như các tính năng bị biến dạng hoặc ánh sáng không phù hợp. Ví dụ, bạn hướng dẫn mô hình thay đổi trang phục của một người từ bình thường sang trang trọng, và nó bảo toàn biểu cảm khuôn mặt và tỷ lệ cơ thể một cách liền mạch.

Kiến trúc của mô hình được xây dựng dựa trên các phiên bản Gemini trước đó, kết hợp các cải tiến trong xử lý ngôn ngữ-thị giác. Nó hỗ trợ các đầu vào như gợi ý văn bản kết hợp với hình ảnh, cho phép tương tác nhiều lượt nơi bạn tinh chỉnh các chỉnh sửa một cách lặp đi lặp lại. Google định vị Nano Banana là một công cụ dẫn đầu trong các tiêu chuẩn chỉnh sửa hình ảnh, vượt trội so với các đối thủ cạnh tranh về tính nhất quán và chất lượng.

Nano Banana GIF

Ngoài ra, mô hình bao gồm các biện pháp bảo vệ tích hợp, chẳng hạn như hình mờ hiển thị và không hiển thị (SynthID) để chỉ ra nội dung do AI tạo ra. Điều này thúc đẩy việc sử dụng có đạo đức, đặc biệt trong các môi trường chuyên nghiệp nơi tính xác thực quan trọng. Các nhà phát triển áp dụng Nano Banana cho các ứng dụng trong thương mại điện tử, thiết kế và tạo nội dung, nơi việc tạo mẫu hình ảnh nhanh chóng giúp tăng tốc quy trình làm việc.

Điều kiện tiên quyết để sử dụng API Nano Banana

Trước khi triển khai Nano Banana, hãy đảm bảo thiết lập của bạn đáp ứng các yêu cầu thiết yếu. Đầu tiên, hãy có một tài khoản Google Cloud, vì Gemini API hoạt động thông qua Vertex AI hoặc Google AI Studio. Nền tảng này cung cấp quyền truy cập vào Gemini-2-5-flash-image-preview, cùng với quản lý hạn mức cho các lệnh gọi API.

Google AI Studio

Tiếp theo, xác minh hỗ trợ ngôn ngữ lập trình. API hỗ trợ Python, JavaScript, Java, Go và REST, nhưng Python vẫn là ngôn ngữ đơn giản nhất cho người mới bắt đầu do có nhiều thư viện. Cài đặt Google Generative AI SDK qua pip: pip install google-generativeai.

Ngoài ra, hãy chuẩn bị môi trường của bạn với khóa API. Điều hướng đến Google AI Studio, và tạo một khóa chỉ giới hạn cho các dịch vụ Gemini.

Tạo khóa API

Các phương pháp hay nhất về bảo mật yêu cầu sử dụng các biến môi trường để lưu trữ khóa này, ngăn chặn việc lộ ra trong các kho mã.

Hơn nữa, hãy làm quen với các định dạng hình ảnh. Nano Banana chấp nhận các hình ảnh JPEG, PNG và được mã hóa base64 làm đầu vào, với đầu ra ở các định dạng tương tự. Đảm bảo hệ thống của bạn xử lý I/O tệp hiệu quả, đặc biệt đối với xử lý hàng loạt.

Cuối cùng, xem xét giới hạn sử dụng. Các gói miễn phí cung cấp số lượng yêu cầu giới hạn mỗi phút, trong khi các gói trả phí có thể mở rộng cho sản xuất. Theo dõi những điều này để tránh bị giới hạn trong quá trình phát triển.

Thiết lập môi trường phát triển của bạn cho Gemini-2-5-Flash-Image-Preview

Các kỹ sư cấu hình môi trường của họ một cách có phương pháp để tích hợp Nano Banana một cách hiệu quả. Bắt đầu bằng cách sao chép một kho lưu trữ khởi đầu nếu có, chẳng hạn như hướng dẫn nhanh của Google để chỉnh sửa hình ảnh. Điều này cung cấp mã mẫu cho xác thực và các lệnh gọi cơ bản.

Sau đó, nhập các mô-đun cần thiết. Trong Python, sử dụng import google.generativeai as genai và cấu hình với genai.configure(api_key=os.getenv('API_KEY')). Bước này xác thực phiên của bạn.

Hơn nữa, chọn mô hình một cách rõ ràng: model = genai.GenerativeModel('gemini-2.5-flash-image-preview'). Điều này nhắm mục tiêu biến thể Nano Banana được tối ưu hóa cho hình ảnh.

Để tăng cường thử nghiệm, hãy tích hợp Apidog. Tải xuống và cài đặt nó từ trang web chính thức, sau đó tạo một dự án mới cho các điểm cuối Gemini API. Apidog cho phép bạn mô phỏng các yêu cầu, kiểm tra tiêu đề và mô phỏng lỗi, điều này chứng tỏ vô giá khi gỡ lỗi các tương tác của Nano Banana.

nút

Trong thực tế, hãy thiết lập một môi trường ảo bằng cách sử dụng venv để cô lập các phụ thuộc. Điều này ngăn chặn xung đột với các dự án khác và duy trì khả năng tái tạo.

Có được quyền truy cập API vào Nano Banana

Google hợp lý hóa quyền truy cập API cho các nhà phát triển. Bắt đầu trong Google AI Studio, nơi bạn thử nghiệm với Gemini-2-5-flash-image-preview trong giao diện không cần mã trước khi chuyển sang mã.

Khi đã sẵn sàng, hãy bật Vertex AI API trong bảng điều khiển Google Cloud của bạn. Gán các vai trò như "Người dùng Vertex AI" cho tài khoản dịch vụ của bạn để truy cập an toàn.

Kích hoạt Vertex AI API

Ngoài ra, hãy xử lý thanh toán. Mặc dù các bản dùng thử ban đầu là miễn phí, hãy bật thanh toán để sử dụng liên tục. Google cung cấp tín dụng cho người dùng mới, giảm bớt rào cản gia nhập.

Đối với các thiết lập doanh nghiệp, hãy xem xét các điểm cuối được quản lý của Vertex AI, giúp mở rộng quy mô Nano Banana cho các ứng dụng có thông lượng cao.

Các lệnh gọi API cơ bản để tạo hình ảnh với Gemini-2-5-Flash-Image-Preview

Các nhà phát triển bắt đầu tạo hình ảnh bằng các gợi ý đơn giản. Xây dựng một yêu cầu: response = model.generate_content(["Tạo một hình ảnh về một quả chuối nano trong một bối cảnh tương lai."]). Mô hình xử lý văn bản và trả về các hình ảnh được mã hóa base64.

Tiếp theo, giải mã và lưu đầu ra: import base64; with open('output.png', 'wb') as f: f.write(base64.b64decode(response.parts[0].inline_data.data)).

Hơn nữa, kết hợp các cài đặt an toàn để lọc nội dung không phù hợp: safety_settings = [{'category': 'HARM_CATEGORY_HATE_SPEECH', 'threshold': 'BLOCK_MEDIUM_AND_ABOVE'}].

Kiểm tra các lệnh gọi này trong Apidog bằng cách đặt điểm cuối thành https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent và thêm khóa API của bạn vào tiêu đề.

Các kỹ thuật chỉnh sửa hình ảnh nâng cao bằng Nano Banana

Nano Banana tỏa sáng trong các tình huống chỉnh sửa. Tải lên một hình ảnh và gợi ý: response = model.generate_content([{'inline_data': {'mime_type': 'image/png', 'data': base64.b64encode(open('input.png', 'rb').read()).decode()}}, "Thay đổi nền thành một bãi biển."]).

Hơn nữa, bật chỉnh sửa nhiều lượt bằng cách duy trì lịch sử hội thoại: Sử dụng chat = model.start_chat(history=[previous_response]) để tinh chỉnh lặp đi lặp lại.

Trộn hình ảnh: Cung cấp nhiều đầu vào và hướng dẫn trộn, chẳng hạn như hợp nhất một bức chân dung với một phong cảnh.

Áp dụng kiểu: Gợi ý "Áp dụng kết cấu vỏ chuối cho vật thể này," tận dụng các điều khiển sáng tạo của Nano Banana.

Tích hợp tạo video bằng cách chỉnh sửa các khung hình theo trình tự, mặc dù điều này yêu cầu kịch bản tùy chỉnh.

Tích hợp Apidog để kiểm tra API hiệu quả

Apidog nâng cao quy trình làm việc Nano Banana của bạn. Tạo các bộ sưu tập cho các điểm cuối Gemini, tham số hóa các gợi ý và chạy các thử nghiệm tự động.

Ví dụ, viết một trường hợp thử nghiệm trong Apidog để xác thực các phản hồi chỉnh sửa hình ảnh, kiểm tra hình mờ SynthID.

Sự tích hợp này giảm thời gian phát triển, vì Apidog trực quan hóa các phản hồi JSON và xử lý xác thực một cách liền mạch.

Ví dụ mã Python cho Gemini-2-5-Flash-Image-Preview

Dưới đây là một tập lệnh đầy đủ minh họa việc chỉnh sửa:

import os
import base64
import google.generativeai as genai

genai.configure(api_key=os.getenv('GEMINI_API_KEY'))
model = genai.GenerativeModel('gemini-2.5-flash-image-preview')

with open('banana.jpg', 'rb') as img_file:
    img_data = base64.b64encode(img_file.read()).decode()

prompt = "Edit this banana image to make it nano-sized in a lab setting."
response = model.generate_content([{'inline_data': {'mime_type': 'image/jpeg', 'data': img_data}}, prompt])

generated_img = base64.b64decode(response.parts[0].inline_data.data)
with open('edited_nano_banana.png', 'wb') as out:
    out.write(generated_img)

Mã này tải lên một hình ảnh chuối, áp dụng chỉnh sửa và lưu kết quả.

Mở rộng nó cho xử lý hàng loạt: Lặp qua một danh sách các hình ảnh và gợi ý.

Xử lý lỗi một cách linh hoạt bằng các khối try-except cho trường hợp vượt quá hạn mức hoặc đầu vào không hợp lệ.

Các phương pháp hay nhất và giới hạn của API Nano Banana

Áp dụng giới hạn tốc độ trong mã của bạn để tuân thủ hạn mức API. Lưu trữ các phản hồi cho các truy vấn lặp lại để tối ưu hóa chi phí.

Ngoài ra, xác thực đầu vào: Đảm bảo hình ảnh nằm trong giới hạn kích thước (thường là 4MB) và các gợi ý ngắn gọn để có kết quả tốt hơn.

Các giới hạn bao gồm sự không nhất quán đôi khi trong các cảnh phức tạp và các hạn chế về tính khả dụng theo khu vực. Nano Banana hoạt động tốt nhất với các gợi ý rõ ràng, mô tả.

Theo dõi các cập nhật qua các kênh của Google DeepMind, vì các mô hình như Gemini-2-5-flash-image-preview phát triển nhanh chóng.

Kết luận

Nano Banana, thông qua API Gemini 2.5 Flash Image Preview, cách mạng hóa việc chỉnh sửa hình ảnh cho các nhà phát triển. Bằng cách làm theo hướng dẫn này, bạn triển khai các giải pháp mạnh mẽ tận dụng thế mạnh của nó về tính nhất quán và sáng tạo. Hãy nhớ rằng, các công cụ như Apidog khuếch đại hiệu quả của bạn—hãy tải xuống ngay hôm nay để nâng cao các tương tác API của bạn.

Khi bạn thử nghiệm, những điều chỉnh nhỏ trong các gợi ý sẽ mang lại những cải thiện đáng kể trong kết quả đầu ra. Tiếp tục khám phá để mở khóa toàn bộ tiềm năng của Nano Banana trong các dự án của bạn.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API