วิธีใช้ Nano Banana ผ่าน API (Gemini-2-5-flash-image-preview)

Google ได้เปิดตัว Nano Banana ซึ่งเป็นนวัตกรรมใหม่ในการแก้ไขภาพที่ขับเคลื่อนด้วย AI ซึ่งกำหนดมาตรฐานใหม่สำหรับความสอดคล้องและความคิดสร้างสรรค์ ฟีเจอร์นี้มีชื่ออย่างเป็นทางการว่า Gemini 2.5 Flash Image Preview ช่วยให้ผู้ใช้สามารถสร้างและแก้ไขภาพได้อย่างแม่นยำอย่างน่าทึ่ง โดยยังคงความเหมือนของวัตถุไว้แม้จะมีการปรับเปลี่ยนหลายครั้ง ขณะนี้นักพัฒนาและวิศวกรสามารถเข้าถึงความสามารถนี้ผ่าน Gemini API ซึ่งช่วยให้สามารถผสานรวมเข้ากับแอปพลิเคชันที่กำหนดเองสำหรับงานต่างๆ ตั้งแต่การปรับปรุงภาพถ่ายอย่างง่ายไปจนถึงการจัดองค์ประกอบฉากที่ซับซ้อน

💡

นอกจากนี้ เพื่อปรับปรุงกระบวนการพัฒนาของคุณ ลองดาวน์โหลด Apidog ได้ฟรี ไคลเอนต์ API ที่แข็งแกร่งนี้ช่วยอำนวยความสะดวกในการทดสอบการเรียกใช้ไปยังเอนด์พอยต์ Gemini-2-5-flash-image-preview ทำให้มั่นใจได้ว่าคุณสามารถตรวจสอบการตอบสนองได้อย่างรวดเร็วและปรับปรุงการใช้งานของคุณได้อย่างราบรื่น อินเทอร์เฟซที่ใช้งานง่ายของ Apidog รองรับการตรวจสอบสิทธิ์ การกำหนดค่าพารามิเตอร์ และการวิเคราะห์การตอบสนอง ทำให้เป็นคู่หูที่เหมาะสำหรับการทำงานกับ API ของ Nano Banana

ปุ่ม

ในขณะที่โมเดล AI พัฒนาขึ้น เครื่องมืออย่าง Nano Banana ก็ช่วยให้ผู้สร้างสามารถก้าวข้ามขีดจำกัดในภาพดิจิทัลได้ บทความนี้จะแนะนำคุณเกี่ยวกับด้านเทคนิคของการใช้ Nano Banana ผ่าน API ตั้งแต่การตั้งค่าเริ่มต้นไปจนถึงเทคนิคขั้นสูง นักพัฒนาใช้ประโยชน์จากโมเดลนี้เพื่อสร้างแอปพลิเคชันที่แปลงข้อความแจ้งให้เป็นการแก้ไขที่สอดคล้องกันทางสายตา และส่วนต่อไปนี้จะให้รายละเอียดแต่ละขั้นตอน

ทำความเข้าใจ Nano Banana และ Gemini 2.5 Flash Image Preview

Nano Banana แสดงถึงความก้าวหน้าล่าสุดของ Google ในด้าน AI แบบหลายรูปแบบ ซึ่งปรับแต่งมาโดยเฉพาะสำหรับการสร้างและแก้ไขภาพ คำว่า "Nano Banana" เป็นชื่อเล่นที่สนุกสนานสำหรับโมเดล Gemini 2.5 Flash Image ซึ่งเน้นการออกแบบที่มีประสิทธิภาพและน้ำหนักเบาที่ให้ผลลัพธ์ที่มีความเที่ยงตรงสูงโดยไม่ต้องใช้ทรัพยากรการประมวลผลมากเกินไป แตกต่างจากโปรแกรมแก้ไขภาพทั่วไป โมเดลนี้มีความโดดเด่นในการรักษาความสอดคล้องของตัวละคร ทำให้มั่นใจได้ว่าใบหน้า ท่าทาง และรายละเอียดจะยังคงเหมือนเดิมกับวัตถุต้นฉบับแม้จะมีการเปลี่ยนแปลงอย่างกว้างขวาง

ภาพหน้าจอที่แสดงอินเทอร์เฟซ Gemini 2.5 Flash Image Preview พร้อมรูปภาพกล้วยและตัวเลือกการแก้ไข

ยิ่งไปกว่านั้น Gemini-2-5-flash-image-preview ยังรวมความสามารถในการให้เหตุผลเข้าไว้ด้วยกัน ทำให้โมเดลสามารถ "คิด" ผ่านการแก้ไขก่อนที่จะนำไปใช้ ซึ่งส่งผลให้ได้ผลลัพธ์ที่หลีกเลี่ยงข้อผิดพลาดทั่วไป เช่น คุณสมบัติที่บิดเบี้ยวหรือแสงที่ไม่ตรงกัน ตัวอย่างเช่น คุณสั่งให้โมเดลเปลี่ยนชุดของบุคคลจากชุดลำลองเป็นชุดทางการ และโมเดลจะรักษาสีหน้าและสัดส่วนร่างกายได้อย่างราบรื่น

สถาปัตยกรรมของโมเดลสร้างขึ้นจาก Gemini รุ่นก่อนหน้า โดยรวมการปรับปรุงในการประมวลผลภาพและภาษา รองรับอินพุตเช่นข้อความแจ้งที่รวมกับรูปภาพ ทำให้สามารถโต้ตอบแบบหลายรอบที่คุณสามารถปรับปรุงการแก้ไขได้ซ้ำๆ Google วางตำแหน่ง Nano Banana ให้เป็นผู้นำในเกณฑ์มาตรฐานการแก้ไขภาพ โดยมีประสิทธิภาพเหนือกว่าคู่แข่งในด้านความสอดคล้องและคุณภาพ

ภาพเคลื่อนไหว GIF แสดงกระบวนการแก้ไขภาพ Nano Banana ซึ่งแปลงภาพตามข้อความแจ้ง

นอกจากนี้ โมเดลยังรวมการป้องกันในตัว เช่น ลายน้ำที่มองเห็นและมองไม่เห็น (SynthID) เพื่อระบุเนื้อหาที่สร้างโดย AI ซึ่งส่งเสริมการใช้งานอย่างมีจริยธรรม โดยเฉพาะอย่างยิ่งในการตั้งค่าแบบมืออาชีพที่ความถูกต้องเป็นสิ่งสำคัญ นักพัฒนาใช้ Nano Banana สำหรับแอปพลิเคชันในอีคอมเมิร์ซ การออกแบบ และการสร้างเนื้อหา ซึ่งการสร้างต้นแบบภาพอย่างรวดเร็วช่วยเร่งเวิร์กโฟลว์

ข้อกำหนดเบื้องต้นสำหรับการใช้ Nano Banana API

ก่อนที่คุณจะนำ Nano Banana ไปใช้งาน ตรวจสอบให้แน่ใจว่าการตั้งค่าของคุณตรงตามข้อกำหนดที่จำเป็น ขั้นแรก ให้สร้างบัญชี Google Cloud เนื่องจาก Gemini API ทำงานผ่าน Vertex AI หรือ Google AI Studio แพลตฟอร์มนี้ให้การเข้าถึง Gemini-2-5-flash-image-preview พร้อมกับการจัดการโควต้าสำหรับการเรียกใช้ API

ภาพหน้าจอของอินเทอร์เฟซ Google AI Studio ที่แสดงตัวเลือกการเลือกโมเดลและการสร้างคีย์ API

ถัดไป ตรวจสอบการรองรับภาษาโปรแกรม API รองรับ Python, JavaScript, Java, Go และ REST แต่ Python ยังคงเป็นภาษาที่ตรงไปตรงมาที่สุดสำหรับผู้เริ่มต้นเนื่องจากมีไลบรารีที่กว้างขวาง ติดตั้ง Google Generative AI SDK ผ่าน pip: pip install google-generativeai

นอกจากนี้ เตรียมสภาพแวดล้อมของคุณด้วยคีย์ API ไปที่ Google AI Studio และสร้างคีย์ที่จำกัดเฉพาะบริการ Gemini

ภาพหน้าจอที่แสดงอินเทอร์เฟซการสร้างคีย์ API ภายใน Google AI Studio

แนวทางปฏิบัติที่ดีที่สุดด้านความปลอดภัยกำหนดให้ใช้ตัวแปรสภาพแวดล้อมเพื่อจัดเก็บคีย์นี้ เพื่อป้องกันการเปิดเผยในพื้นที่เก็บโค้ด

นอกจากนี้ ทำความคุ้นเคยกับรูปแบบภาพ Nano Banana รับภาพ JPEG, PNG และภาพที่เข้ารหัส base64 เป็นอินพุต โดยมีเอาต์พุตในรูปแบบที่คล้ายกัน ตรวจสอบให้แน่ใจว่าระบบของคุณจัดการ I/O ไฟล์ได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งสำหรับการประมวลผลแบบแบตช์

สุดท้าย ตรวจสอบขีดจำกัดการใช้งาน ระดับฟรีมีคำขอจำกัดต่อนาที ในขณะที่แผนแบบชำระเงินสามารถปรับขนาดสำหรับการผลิตได้ ตรวจสอบสิ่งเหล่านี้เพื่อหลีกเลี่ยงการจำกัดความเร็วระหว่างการพัฒนา

การตั้งค่าสภาพแวดล้อมการพัฒนาของคุณสำหรับ Gemini-2-5-Flash-Image-Preview

วิศวกรกำหนดค่าสภาพแวดล้อมของตนอย่างเป็นระบบเพื่อรวม Nano Banana เข้าด้วยกันอย่างมีประสิทธิภาพ เริ่มต้นด้วยการโคลนที่เก็บเริ่มต้นหากมี เช่น quickstart ของ Google สำหรับการแก้ไขภาพ ซึ่งให้โค้ดเริ่มต้นสำหรับการตรวจสอบสิทธิ์และการเรียกใช้พื้นฐาน

จากนั้น นำเข้าโมดูลที่จำเป็น ใน Python ให้ใช้ import google.generativeai as genai และกำหนดค่าด้วย genai.configure(api_key=os.getenv('API_KEY')) ขั้นตอนนี้จะตรวจสอบสิทธิ์เซสชันของคุณ

นอกจากนี้ ให้เลือกรุ่นอย่างชัดเจน: model = genai.GenerativeModel('gemini-2.5-flash-image-preview') ซึ่งกำหนดเป้าหมาย Nano Banana รุ่นที่ปรับให้เหมาะสมสำหรับรูปภาพ

เพื่อเพิ่มประสิทธิภาพการทดสอบ ให้รวม Apidog เข้าไปด้วย ดาวน์โหลดและติดตั้งจากเว็บไซต์ทางการ จากนั้นสร้างโปรเจกต์ใหม่สำหรับเอนด์พอยต์ Gemini API Apidog ช่วยให้คุณสามารถจำลองคำขอ ตรวจสอบส่วนหัว และจำลองข้อผิดพลาด ซึ่งมีค่าอย่างยิ่งเมื่อแก้ไขข้อผิดพลาดในการโต้ตอบกับ Nano Banana

ปุ่ม

ในทางปฏิบัติ ให้ตั้งค่าสภาพแวดล้อมเสมือนโดยใช้ venv เพื่อแยกการพึ่งพา ซึ่งจะป้องกันความขัดแย้งกับโปรเจกต์อื่นและรักษาความสามารถในการทำซ้ำได้

การเข้าถึง API ของ Nano Banana

Google ทำให้การเข้าถึง API สำหรับนักพัฒาง่ายขึ้น เริ่มต้นใน Google AI Studio ซึ่งคุณสามารถทดลองกับ Gemini-2-5-flash-image-preview ในอินเทอร์เฟซแบบไม่มีโค้ดก่อนที่จะเปลี่ยนไปใช้โค้ด

เมื่อพร้อมแล้ว ให้เปิดใช้งาน Vertex AI API ในคอนโซล Google Cloud ของคุณ กำหนดบทบาทเช่น "Vertex AI User" ให้กับบัญชีบริการของคุณเพื่อการเข้าถึงที่ปลอดภัย

ภาพหน้าจอของ Google Cloud Console ที่แสดงส่วน IAM & Admin พร้อมบทบาทและการอนุญาต

นอกจากนี้ จัดการการเรียกเก็บเงิน แม้ว่าการทดลองใช้เริ่มต้นจะฟรี แต่ให้เปิดใช้งานการเรียกเก็บเงินสำหรับการใช้งานอย่างต่อเนื่อง Google เสนอเครดิตสำหรับผู้ใช้ใหม่ ซึ่งช่วยลดอุปสรรคในการเข้าถึง

สำหรับการตั้งค่าระดับองค์กร ให้พิจารณาเอนด์พอยต์ที่จัดการโดย Vertex AI ซึ่งปรับขนาด Nano Banana สำหรับแอปพลิเคชันที่มีปริมาณงานสูง

การเรียกใช้ API พื้นฐานสำหรับการสร้างภาพด้วย Gemini-2-5-Flash-Image-Preview

นักพัฒนาเริ่มต้นการสร้างภาพด้วยข้อความแจ้งง่ายๆ สร้างคำขอ: response = model.generate_content(["Generate an image of a nano banana in a futuristic setting."]) โมเดลจะประมวลผลข้อความและส่งคืนภาพที่เข้ารหัส base64

ถัดไป ถอดรหัสและบันทึกเอาต์พุต: import base64; with open('output.png', 'wb') as f: f.write(base64.b64decode(response.parts[0].inline_data.data))

นอกจากนี้ ให้รวมการตั้งค่าความปลอดภัยเพื่อกรองเนื้อหาที่ไม่เหมาะสม: safety_settings = [{'category': 'HARM_CATEGORY_HATE_SPEECH', 'threshold': 'BLOCK_MEDIUM_AND_ABOVE'}]

ทดสอบการเรียกเหล่านี้ใน Apidog โดยตั้งค่าเอนด์พอยต์เป็น https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent และเพิ่มคีย์ API ของคุณในส่วนหัว

เทคนิคการแก้ไขภาพขั้นสูงโดยใช้ Nano Banana

Nano Banana โดดเด่นในสถานการณ์การแก้ไข อัปโหลดภาพและแจ้ง: response = model.generate_content([{'inline_data': {'mime_type': 'image/png', 'data': base64.b64encode(open('input.png', 'rb').read()).decode()}}, "Change the background to a beach."}])

นอกจากนี้ เปิดใช้งานการแก้ไขแบบหลายรอบโดยการรักษาสประวัติการสนทนา: ใช้ chat = model.start_chat(history=[previous_response]) สำหรับการปรับปรุงซ้ำๆ

ผสมภาพ: ระบุอินพุตหลายรายการและสั่งการผสมผสาน เช่น การรวมภาพบุคคลกับภาพทิวทัศน์

ใช้สไตล์: แจ้ง "Apply the texture of banana peels to this object," โดยใช้ประโยชน์จากการควบคุมเชิงสร้างสรรค์ของ Nano Banana

รวมการสร้างวิดีโอโดยการแก้ไขเฟรมตามลำดับ แม้ว่าสิ่งนี้จะต้องใช้การเขียนสคริปต์แบบกำหนดเอง

การรวม Apidog สำหรับการทดสอบ API ที่มีประสิทธิภาพ

Apidog ช่วยเพิ่มประสิทธิภาพเวิร์กโฟลว์ Nano Banana ของคุณ สร้างคอลเลกชันสำหรับเอนด์พอยต์ Gemini กำหนดพารามิเตอร์ข้อความแจ้ง และเรียกใช้การทดสอบอัตโนมัติ

ตัวอย่างเช่น เขียนสคริปต์กรณีทดสอบใน Apidog เพื่อตรวจสอบการตอบสนองการแก้ไขภาพ โดยตรวจสอบลายน้ำ SynthID

การรวมนี้ช่วยลดเวลาในการพัฒนา เนื่องจาก Apidog แสดงภาพการตอบสนอง JSON และจัดการการตรวจสอบสิทธิ์ได้อย่างราบรื่น

ตัวอย่างโค้ดใน Python สำหรับ Gemini-2-5-Flash-Image-Preview

นี่คือสคริปต์ฉบับเต็มที่แสดงการแก้ไข:

import os
import base64
import google.generativeai as genai

genai.configure(api_key=os.getenv('GEMINI_API_KEY'))
model = genai.GenerativeModel('gemini-2.5-flash-image-preview')

with open('banana.jpg', 'rb') as img_file:
    img_data = base64.b64encode(img_file.read()).decode()

prompt = "Edit this banana image to make it nano-sized in a lab setting."
response = model.generate_content([{'inline_data': {'mime_type': 'image/jpeg', 'data': img_data}}, prompt])

generated_img = base64.b64decode(response.parts[0].inline_data.data)
with open('edited_nano_banana.png', 'wb') as out:
    out.write(generated_img)

โค้ดนี้อัปโหลดรูปภาพกล้วย ใช้การแก้ไข และบันทึกผลลัพธ์

ขยายสำหรับการประมวลผลแบบแบตช์: วนซ้ำรายการรูปภาพและข้อความแจ้ง

จัดการข้อผิดพลาดอย่างเหมาะสมด้วยบล็อก try-except สำหรับโควต้าเกินหรืออินพุตที่ไม่ถูกต้อง

แนวทางปฏิบัติที่ดีที่สุดและข้อจำกัดของ Nano Banana API

ใช้การจำกัดอัตราในโค้ดของคุณเพื่อให้เป็นไปตามโควต้า API แคชการตอบสนองสำหรับการสืบค้นซ้ำเพื่อเพิ่มประสิทธิภาพต้นทุน

นอกจากนี้ ตรวจสอบอินพุต: ตรวจสอบให้แน่ใจว่ารูปภาพมีขนาดไม่เกินขีดจำกัด (โดยทั่วไปคือ 4MB) และข้อความแจ้งกระชับเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น

ข้อจำกัดรวมถึงความไม่สอดคล้องกันเป็นครั้งคราวในฉากที่ซับซ้อนและข้อจำกัดด้านความพร้อมใช้งานในภูมิภาค Nano Banana ทำงานได้ดีที่สุดกับข้อความแจ้งที่ชัดเจนและอธิบายรายละเอียด

ตรวจสอบการอัปเดตผ่านช่องทางของ Google DeepMind เนื่องจากโมเดลอย่าง Gemini-2-5-flash-image-preview พัฒนาอย่างรวดเร็ว

บทสรุป

Nano Banana ผ่าน Gemini 2.5 Flash Image Preview API ปฏิวัติการแก้ไขภาพสำหรับนักพัฒนา ด้วยการปฏิบัติตามคำแนะนำนี้ คุณจะสามารถนำโซลูชันที่แข็งแกร่งมาใช้ซึ่งใช้ประโยชน์จากจุดแข็งในด้านความสอดคล้องและความคิดสร้างสรรค์ โปรดจำไว้ว่า เครื่องมืออย่าง Apidog ช่วยเพิ่มประสิทธิภาพของคุณ ดาวน์โหลดได้แล้ววันนี้เพื่อยกระดับการโต้ตอบกับ API ของคุณ

เมื่อคุณทดลอง การปรับเปลี่ยนเล็กน้อยในข้อความแจ้งจะให้ผลลัพธ์ที่ดีขึ้นอย่างเห็นได้ชัด สำรวจต่อไปเพื่อปลดล็อกศักยภาพสูงสุดของ Nano Banana ในโปรเจกต์ของคุณ

ปุ่ม