Google gần đây đã ra mắt Nano Banana, một bước đột phá trong chỉnh sửa hình ảnh do AI điều khiển, thiết lập các tiêu chuẩn mới về tính nhất quán và sáng tạo. Tính năng này, được biết đến chính thức là Gemini 2.5 Flash Image Preview, cho phép người dùng tạo và chỉnh sửa hình ảnh với độ chính xác đáng kinh ngạc, duy trì sự giống nhau của chủ thể qua nhiều lần sửa đổi. Các kỹ sư và nhà phát triển hiện có thể truy cập khả năng này thông qua Gemini API, cho phép tích hợp vào các ứng dụng tùy chỉnh cho các tác vụ từ cải thiện ảnh đơn giản đến bố cục cảnh phức tạp.
Khi các mô hình AI phát triển, các công cụ như Nano Banana trao quyền cho người sáng tạo vượt qua ranh giới trong hình ảnh kỹ thuật số. Bài viết này hướng dẫn bạn qua các khía cạnh kỹ thuật của việc sử dụng Nano Banana thông qua API, từ thiết lập ban đầu đến các kỹ thuật nâng cao. Các nhà phát triển tận dụng mô hình này để xây dựng các ứng dụng biến các gợi ý văn bản thành các chỉnh sửa hình ảnh có tính nhất quán, và các phần sau sẽ trình bày chi tiết từng bước.
Tìm hiểu Nano Banana và Gemini 2.5 Flash Image Preview
Nano Banana đại diện cho bước tiến mới nhất của Google trong AI đa phương thức, được thiết kế đặc biệt để tạo và chỉnh sửa hình ảnh. Thuật ngữ "Nano Banana" đóng vai trò là một biệt danh vui nhộn cho mô hình Gemini 2.5 Flash Image, làm nổi bật thiết kế hiệu quả, nhẹ nhàng của nó mang lại kết quả chất lượng cao mà không đòi hỏi quá nhiều tài nguyên tính toán. Không giống như các trình chỉnh sửa hình ảnh truyền thống, mô hình này vượt trội trong việc duy trì tính nhất quán của nhân vật—đảm bảo rằng khuôn mặt, tư thế và chi tiết vẫn đúng với chủ thể ban đầu ngay cả sau những thay đổi lớn.

Hơn nữa, Gemini-2-5-flash-image-preview tích hợp khả năng suy luận, cho phép mô hình "suy nghĩ" về các chỉnh sửa trước khi áp dụng chúng. Điều này dẫn đến các kết quả đầu ra tránh được các lỗi phổ biến như các tính năng bị biến dạng hoặc ánh sáng không phù hợp. Ví dụ, bạn hướng dẫn mô hình thay đổi trang phục của một người từ bình thường sang trang trọng, và nó bảo toàn biểu cảm khuôn mặt và tỷ lệ cơ thể một cách liền mạch.
Kiến trúc của mô hình được xây dựng dựa trên các phiên bản Gemini trước đó, kết hợp các cải tiến trong xử lý ngôn ngữ-thị giác. Nó hỗ trợ các đầu vào như gợi ý văn bản kết hợp với hình ảnh, cho phép tương tác nhiều lượt nơi bạn tinh chỉnh các chỉnh sửa một cách lặp đi lặp lại. Google định vị Nano Banana là một công cụ dẫn đầu trong các tiêu chuẩn chỉnh sửa hình ảnh, vượt trội so với các đối thủ cạnh tranh về tính nhất quán và chất lượng.

Ngoài ra, mô hình bao gồm các biện pháp bảo vệ tích hợp, chẳng hạn như hình mờ hiển thị và không hiển thị (SynthID) để chỉ ra nội dung do AI tạo ra. Điều này thúc đẩy việc sử dụng có đạo đức, đặc biệt trong các môi trường chuyên nghiệp nơi tính xác thực quan trọng. Các nhà phát triển áp dụng Nano Banana cho các ứng dụng trong thương mại điện tử, thiết kế và tạo nội dung, nơi việc tạo mẫu hình ảnh nhanh chóng giúp tăng tốc quy trình làm việc.
Điều kiện tiên quyết để sử dụng API Nano Banana
Trước khi triển khai Nano Banana, hãy đảm bảo thiết lập của bạn đáp ứng các yêu cầu thiết yếu. Đầu tiên, hãy có một tài khoản Google Cloud, vì Gemini API hoạt động thông qua Vertex AI hoặc Google AI Studio. Nền tảng này cung cấp quyền truy cập vào Gemini-2-5-flash-image-preview, cùng với quản lý hạn mức cho các lệnh gọi API.

Tiếp theo, xác minh hỗ trợ ngôn ngữ lập trình. API hỗ trợ Python, JavaScript, Java, Go và REST, nhưng Python vẫn là ngôn ngữ đơn giản nhất cho người mới bắt đầu do có nhiều thư viện. Cài đặt Google Generative AI SDK qua pip: pip install google-generativeai
.
Ngoài ra, hãy chuẩn bị môi trường của bạn với khóa API. Điều hướng đến Google AI Studio, và tạo một khóa chỉ giới hạn cho các dịch vụ Gemini.

Các phương pháp hay nhất về bảo mật yêu cầu sử dụng các biến môi trường để lưu trữ khóa này, ngăn chặn việc lộ ra trong các kho mã.
Hơn nữa, hãy làm quen với các định dạng hình ảnh. Nano Banana chấp nhận các hình ảnh JPEG, PNG và được mã hóa base64 làm đầu vào, với đầu ra ở các định dạng tương tự. Đảm bảo hệ thống của bạn xử lý I/O tệp hiệu quả, đặc biệt đối với xử lý hàng loạt.
Cuối cùng, xem xét giới hạn sử dụng. Các gói miễn phí cung cấp số lượng yêu cầu giới hạn mỗi phút, trong khi các gói trả phí có thể mở rộng cho sản xuất. Theo dõi những điều này để tránh bị giới hạn trong quá trình phát triển.
Thiết lập môi trường phát triển của bạn cho Gemini-2-5-Flash-Image-Preview
Các kỹ sư cấu hình môi trường của họ một cách có phương pháp để tích hợp Nano Banana một cách hiệu quả. Bắt đầu bằng cách sao chép một kho lưu trữ khởi đầu nếu có, chẳng hạn như hướng dẫn nhanh của Google để chỉnh sửa hình ảnh. Điều này cung cấp mã mẫu cho xác thực và các lệnh gọi cơ bản.
Sau đó, nhập các mô-đun cần thiết. Trong Python, sử dụng import google.generativeai as genai
và cấu hình với genai.configure(api_key=os.getenv('API_KEY'))
. Bước này xác thực phiên của bạn.
Hơn nữa, chọn mô hình một cách rõ ràng: model = genai.GenerativeModel('gemini-2.5-flash-image-preview')
. Điều này nhắm mục tiêu biến thể Nano Banana được tối ưu hóa cho hình ảnh.
Để tăng cường thử nghiệm, hãy tích hợp Apidog. Tải xuống và cài đặt nó từ trang web chính thức, sau đó tạo một dự án mới cho các điểm cuối Gemini API. Apidog cho phép bạn mô phỏng các yêu cầu, kiểm tra tiêu đề và mô phỏng lỗi, điều này chứng tỏ vô giá khi gỡ lỗi các tương tác của Nano Banana.
Trong thực tế, hãy thiết lập một môi trường ảo bằng cách sử dụng venv để cô lập các phụ thuộc. Điều này ngăn chặn xung đột với các dự án khác và duy trì khả năng tái tạo.
Có được quyền truy cập API vào Nano Banana
Google hợp lý hóa quyền truy cập API cho các nhà phát triển. Bắt đầu trong Google AI Studio, nơi bạn thử nghiệm với Gemini-2-5-flash-image-preview trong giao diện không cần mã trước khi chuyển sang mã.
Khi đã sẵn sàng, hãy bật Vertex AI API trong bảng điều khiển Google Cloud của bạn. Gán các vai trò như "Người dùng Vertex AI" cho tài khoản dịch vụ của bạn để truy cập an toàn.

Ngoài ra, hãy xử lý thanh toán. Mặc dù các bản dùng thử ban đầu là miễn phí, hãy bật thanh toán để sử dụng liên tục. Google cung cấp tín dụng cho người dùng mới, giảm bớt rào cản gia nhập.
Đối với các thiết lập doanh nghiệp, hãy xem xét các điểm cuối được quản lý của Vertex AI, giúp mở rộng quy mô Nano Banana cho các ứng dụng có thông lượng cao.
Các lệnh gọi API cơ bản để tạo hình ảnh với Gemini-2-5-Flash-Image-Preview
Các nhà phát triển bắt đầu tạo hình ảnh bằng các gợi ý đơn giản. Xây dựng một yêu cầu: response = model.generate_content(["Tạo một hình ảnh về một quả chuối nano trong một bối cảnh tương lai."])
. Mô hình xử lý văn bản và trả về các hình ảnh được mã hóa base64.
Tiếp theo, giải mã và lưu đầu ra: import base64; with open('output.png', 'wb') as f: f.write(base64.b64decode(response.parts[0].inline_data.data))
.
Hơn nữa, kết hợp các cài đặt an toàn để lọc nội dung không phù hợp: safety_settings = [{'category': 'HARM_CATEGORY_HATE_SPEECH', 'threshold': 'BLOCK_MEDIUM_AND_ABOVE'}]
.
Kiểm tra các lệnh gọi này trong Apidog bằng cách đặt điểm cuối thành https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent
và thêm khóa API của bạn vào tiêu đề.
Các kỹ thuật chỉnh sửa hình ảnh nâng cao bằng Nano Banana
Nano Banana tỏa sáng trong các tình huống chỉnh sửa. Tải lên một hình ảnh và gợi ý: response = model.generate_content([{'inline_data': {'mime_type': 'image/png', 'data': base64.b64encode(open('input.png', 'rb').read()).decode()}}, "Thay đổi nền thành một bãi biển."])
.
Hơn nữa, bật chỉnh sửa nhiều lượt bằng cách duy trì lịch sử hội thoại: Sử dụng chat = model.start_chat(history=[previous_response])
để tinh chỉnh lặp đi lặp lại.
Trộn hình ảnh: Cung cấp nhiều đầu vào và hướng dẫn trộn, chẳng hạn như hợp nhất một bức chân dung với một phong cảnh.
Áp dụng kiểu: Gợi ý "Áp dụng kết cấu vỏ chuối cho vật thể này," tận dụng các điều khiển sáng tạo của Nano Banana.
Tích hợp tạo video bằng cách chỉnh sửa các khung hình theo trình tự, mặc dù điều này yêu cầu kịch bản tùy chỉnh.
Tích hợp Apidog để kiểm tra API hiệu quả
Apidog nâng cao quy trình làm việc Nano Banana của bạn. Tạo các bộ sưu tập cho các điểm cuối Gemini, tham số hóa các gợi ý và chạy các thử nghiệm tự động.
Ví dụ, viết một trường hợp thử nghiệm trong Apidog để xác thực các phản hồi chỉnh sửa hình ảnh, kiểm tra hình mờ SynthID.
Sự tích hợp này giảm thời gian phát triển, vì Apidog trực quan hóa các phản hồi JSON và xử lý xác thực một cách liền mạch.
Ví dụ mã Python cho Gemini-2-5-Flash-Image-Preview
Dưới đây là một tập lệnh đầy đủ minh họa việc chỉnh sửa:
import os
import base64
import google.generativeai as genai
genai.configure(api_key=os.getenv('GEMINI_API_KEY'))
model = genai.GenerativeModel('gemini-2.5-flash-image-preview')
with open('banana.jpg', 'rb') as img_file:
img_data = base64.b64encode(img_file.read()).decode()
prompt = "Edit this banana image to make it nano-sized in a lab setting."
response = model.generate_content([{'inline_data': {'mime_type': 'image/jpeg', 'data': img_data}}, prompt])
generated_img = base64.b64decode(response.parts[0].inline_data.data)
with open('edited_nano_banana.png', 'wb') as out:
out.write(generated_img)
Mã này tải lên một hình ảnh chuối, áp dụng chỉnh sửa và lưu kết quả.
Mở rộng nó cho xử lý hàng loạt: Lặp qua một danh sách các hình ảnh và gợi ý.
Xử lý lỗi một cách linh hoạt bằng các khối try-except cho trường hợp vượt quá hạn mức hoặc đầu vào không hợp lệ.
Các phương pháp hay nhất và giới hạn của API Nano Banana
Áp dụng giới hạn tốc độ trong mã của bạn để tuân thủ hạn mức API. Lưu trữ các phản hồi cho các truy vấn lặp lại để tối ưu hóa chi phí.
Ngoài ra, xác thực đầu vào: Đảm bảo hình ảnh nằm trong giới hạn kích thước (thường là 4MB) và các gợi ý ngắn gọn để có kết quả tốt hơn.
Các giới hạn bao gồm sự không nhất quán đôi khi trong các cảnh phức tạp và các hạn chế về tính khả dụng theo khu vực. Nano Banana hoạt động tốt nhất với các gợi ý rõ ràng, mô tả.
Theo dõi các cập nhật qua các kênh của Google DeepMind, vì các mô hình như Gemini-2-5-flash-image-preview phát triển nhanh chóng.
Kết luận
Nano Banana, thông qua API Gemini 2.5 Flash Image Preview, cách mạng hóa việc chỉnh sửa hình ảnh cho các nhà phát triển. Bằng cách làm theo hướng dẫn này, bạn triển khai các giải pháp mạnh mẽ tận dụng thế mạnh của nó về tính nhất quán và sáng tạo. Hãy nhớ rằng, các công cụ như Apidog khuếch đại hiệu quả của bạn—hãy tải xuống ngay hôm nay để nâng cao các tương tác API của bạn.
Khi bạn thử nghiệm, những điều chỉnh nhỏ trong các gợi ý sẽ mang lại những cải thiện đáng kể trong kết quả đầu ra. Tiếp tục khám phá để mở khóa toàn bộ tiềm năng của Nano Banana trong các dự án của bạn.