Google DeepMind ได้เปิดตัวโมเดล Gemini 2.5 Computer Use เมื่อเร็วๆ นี้ ซึ่งเป็นการพัฒนาเฉพาะทางที่สร้างขึ้นบนรากฐานความเข้าใจด้านภาพและการให้เหตุผลที่แข็งแกร่งของ Gemini 2.5 Pro โมเดลนี้ช่วยให้ AI agents สามารถโต้ตอบโดยตรงกับส่วนต่อประสานกราฟิกกับผู้ใช้ (UIs) ซึ่งเป็นการเชื่อมช่องว่างที่สำคัญในการทำงานอัตโนมัติของงานดิจิทัล นักพัฒนาสามารถเข้าถึงความสามารถที่ช่วยให้ agents สามารถนำทางหน้าเว็บและแอปพลิเคชันได้อย่างแม่นยำเหมือนมนุษย์ เช่น การคลิกปุ่ม การพิมพ์ข้อความ และการเลื่อนดูเนื้อหา นอกจากนี้ นวัตกรรมนี้ยังแก้ไขสถานการณ์ที่ API แบบมีโครงสร้างไม่เพียงพอ ทำให้ agents สามารถจัดการงานต่างๆ เช่น การส่งแบบฟอร์มที่โดยปกติแล้วต้องมีการดำเนินการด้วยตนเอง
บทความนี้จะตรวจสอบความซับซ้อนทางเทคนิคของโมเดล Gemini 2.5 Computer Use ตั้งแต่กลไกหลักไปจนถึงการใช้งานจริง เราเริ่มต้นด้วยการสรุปความสามารถพื้นฐานของมัน จากนั้นจึงสำรวจว่ามันทำงานอย่างไรภายในลูปแบบวนซ้ำ
ความสามารถหลักของโมเดล Gemini 2.5 Computer Use
โมเดล Gemini 2.5 Computer Use มีความโดดเด่นในการช่วยให้ AI agents สามารถดำเนินการจัดการ UI ที่เลียนแบบการกระทำของมนุษย์ได้ โดยเฉพาะอย่างยิ่ง รองรับการกรอกแบบฟอร์ม การเลือกตัวเลือกจากเมนูแบบเลื่อนลง การใช้ตัวกรอง และแม้กระทั่งการทำงานภายในเซสชันที่ได้รับการรับรองความถูกต้องหลังการเข้าสู่ระบบ วิศวกรได้ปรับแต่งโมเดลนี้เป็นหลักสำหรับเว็บเบราว์เซอร์ ซึ่งแสดงให้เห็นถึงความเชี่ยวชาญเป็นพิเศษในการจัดการองค์ประกอบเว็บแบบไดนามิก นอกจากนี้ยังแสดงผลลัพธ์ที่เป็นที่น่าพอใจในการควบคุม UI บนมือถือ แม้ว่าการปรับแต่งอย่างเต็มที่สำหรับระบบปฏิบัติการเดสก์ท็อปยังคงอยู่ระหว่างการพัฒนา
จุดแข็งที่สำคัญประการหนึ่งอยู่ที่ประสิทธิภาพการทำงานตามเกณฑ์มาตรฐาน โมเดลนี้ประสบความสำเร็จในผลลัพธ์ชั้นนำในการประเมินมาตรฐานหลายรายการ รวมถึง Online-Mind2Web, WebVoyager และ AndroidWorld ตัวอย่างเช่น บนแพลตฟอร์ม Browserbase สำหรับ Online-Mind2Web ให้ความแม่นยำมากกว่า 70% โดยมีเวลาแฝงประมาณ 225 วินาที ซึ่งเหนือกว่าคู่แข่งด้วยการให้คุณภาพที่สูงขึ้นโดยใช้เวลาประมวลผลที่ลดลง ซึ่งพิสูจน์แล้วว่ามีความสำคัญอย่างยิ่งสำหรับแอปพลิเคชันแบบเรียลไทม์
โมเดล Gemini 2.5 Computer Use ทำงานอย่างไร
โดยหลักแล้ว โมเดล Gemini 2.5 Computer Use ทำงานผ่านลูปแบบวนซ้ำที่เปิดเผยผ่านเครื่องมือ computer_use ใหม่ใน Gemini API นักพัฒนาเริ่มต้นกระบวนการนี้โดยการให้ข้อมูลอินพุต เช่น คำขอของผู้ใช้ ภาพหน้าจอของสภาพแวดล้อมปัจจุบัน และประวัติการดำเนินการก่อนหน้า โดยเลือกได้ว่าจะระบุการยกเว้นจากรายการการดำเนินการ UI ที่รองรับ หรือรวมฟังก์ชันที่กำหนดเองเพื่อปรับแต่งพฤติกรรมของ agent
โมเดลจะประมวลผลอินพุตเหล่านี้และสร้างการตอบสนอง ซึ่งโดยทั่วไปจะอยู่ในรูปแบบของการเรียกใช้ฟังก์ชันที่แสดงถึงการดำเนินการ UI เฉพาะ เช่น การคลิกองค์ประกอบหรือการพิมพ์ลงในช่อง ในกรณีที่เกี่ยวข้องกับการตัดสินใจที่มีความสำคัญสูง เช่น การยืนยันการซื้อ การตอบสนองจะรวมข้อความแจ้งให้ผู้ใช้ปลายทางยืนยัน จากนั้นโค้ดฝั่งไคลเอ็นต์จะดำเนินการนี้ โดยจับภาพหน้าจอใหม่และ URL ที่อัปเดตเป็นข้อมูลตอบกลับ

ข้อมูลตอบกลับนี้จะวนกลับไปยังโมเดล เริ่มต้นวงจรใหม่จนกว่างานจะเสร็จสิ้น เกิดข้อผิดพลาด หรือโปรโตคอลความปลอดภัยเข้าแทรกแซง กลไกดังกล่าวช่วยให้มั่นใจได้ถึงพฤติกรรมที่ปรับเปลี่ยนได้ เนื่องจาก agent จะประเมินสถานะ UI อย่างต่อเนื่อง อย่างไรก็ตาม นักพัฒนาต้องนำลูปนี้ไปใช้อย่างระมัดระวังเพื่อหลีกเลี่ยงการวนซ้ำไม่สิ้นสุด โดยรวมการหมดเวลาหรือเกณฑ์การบรรจบกัน
จากมุมมองทางเทคนิค การให้เหตุผลด้วยภาพของโมเดลนี้มาจากความสามารถแบบหลายโมดอลของ Gemini 2.5 Pro ซึ่งช่วยให้สามารถตีความภาพหน้าจอได้อย่างแม่นยำสูง มันระบุองค์ประกอบที่โต้ตอบได้ผ่านเทคนิคคอมพิวเตอร์วิทัศน์ขั้นสูง โดยจับคู่พวกมันกับคำสั่งที่ดำเนินการได้ แนวทางนี้แตกต่างจากวิธีการสคริปต์แบบดั้งเดิม ซึ่งมักจะล้มเหลวบน UI แบบไดนามิกเนื่องจากตัวเลือกที่ไม่เสถียร
นอกจากนี้ โมเดลยังรองรับชุดการดำเนินการ UI ที่ครอบคลุม รวมถึงการเลื่อน การวางเมาส์เหนือ และการลาก วิศวกรสามารถขยายสิ่งนี้ได้โดยการกำหนดฟังก์ชันที่กำหนดเอง ทำให้สามารถปรับเปลี่ยนเฉพาะโดเมนได้
ประสิทธิภาพตามเกณฑ์มาตรฐานและการประเมินทางเทคนิค
การวัดประสิทธิภาพเผยให้เห็นถึงความเหนือกว่าของโมเดล Gemini 2.5 Computer Use ในงานควบคุม UI บน Online-Mind2Web โมเดลนี้มีความแม่นยำสูงสุดโดยการตีความและดำเนินการตามคำสั่งบนเว็บได้อย่างถูกต้อง ในทำนองเดียวกัน ใน WebVoyager ซึ่งทดสอบการนำทางข้ามเว็บไซต์ที่หลากหลาย โมเดลนี้สามารถนำทางเส้นทางที่ซับซ้อนโดยมีข้อผิดพลาดน้อยที่สุด การประเมิน AndroidWorld เน้นย้ำถึงความสามารถบนมือถือ ซึ่งสามารถจัดการอินเทอร์เฟซแอป เช่น การปัดและการแตะได้อย่างมีประสิทธิภาพ

เมตริกเวลาแฝงยังตอกย้ำถึงความได้เปรียบของมัน ในขณะที่คู่แข่งอาจต้องใช้เวลาประมวลผลนานขึ้นเพื่อให้ได้ความแม่นยำที่ใกล้เคียงกัน โมเดลนี้สร้างสมดุลระหว่างความเร็วและความแม่นยำ โดยมักจะลดเวลาแฝงได้ถึง 50% ในการทดสอบเปรียบเทียบ ผู้ใช้กลุ่มแรก เช่น ทีมงานที่ Poke.com รายงานว่าโมเดล Gemini 2.5 Computer Use มีประสิทธิภาพเหนือกว่าทางเลือกอื่น ทำให้เวิร์กโฟลว์ในอินเทอร์เฟซที่เน้นมนุษย์เร็วขึ้น

ในทางเทคนิค เกณฑ์มาตรฐานเหล่านี้ใช้แพลตฟอร์มจำลองสถานการณ์จริง โดยวัดอัตราความสำเร็จ เวลาที่ใช้ในการดำเนินการ และการจัดการข้อผิดพลาด ประสิทธิภาพเวลาแฝงต่ำของโมเดลเกิดจากเส้นทางการอนุมานที่ได้รับการปรับแต่งใน Gemini 2.5 Pro ซึ่งใช้ประโยชน์จากการประมวลผลโทเค็นที่มีประสิทธิภาพและการคำนวณแบบขนาน นักพัฒนาที่วิเคราะห์ผลลัพธ์เหล่านี้พบการปรับปรุงในการแยกวิเคราะห์บริบทที่ซับซ้อน โดยมีประสิทธิภาพเพิ่มขึ้นถึง 18% ในการประเมินที่ท้าทาย ตามที่ Autotab อ้างถึง
อย่างไรก็ตาม เกณฑ์มาตรฐานยังเปิดเผยข้อจำกัด เช่น ประสิทธิภาพที่ลดลงในสภาพแวดล้อมเดสก์ท็อปที่ไม่ได้รับการปรับแต่ง วิศวกรแก้ไขปัญหานี้โดยการรวมโมเดลเข้ากับเครื่องมือเสริม เพื่อให้มั่นใจถึงแนวทางแบบไฮบริดสำหรับการครอบคลุมที่กว้างขึ้น เมื่อเปลี่ยนไปสู่ตัวอย่างการใช้งานจริง เมตริกเหล่านี้จะปรากฏในกรณีการใช้งานที่เป็นรูปธรรม
ตัวอย่างและการใช้งานจริง
การสาธิตแสดงให้เห็นถึงความหลากหลายของโมเดล Gemini 2.5 Computer Use ในสถานการณ์หนึ่ง agent เข้าถึงหน้าลงทะเบียนดูแลสัตว์เลี้ยงที่ https://tinyurl.com/pet-care-signup ดึงรายละเอียดสำหรับสัตว์เลี้ยงที่อาศัยอยู่ในแคลิฟอร์เนีย และรวมเข้ากับ CRM ของสปาที่ https://pet-luxe-spa.web.app จากนั้นจะกำหนดเวลาการนัดหมายติดตามผลกับผู้เชี่ยวชาญ Anima Lavar ในวันที่ 10 ตุลาคม หลังเวลา 8.00 น. โดยสะท้อนเหตุผลในการรักษาของสัตว์เลี้ยง กระบวนการนี้เกี่ยวข้องกับหลายขั้นตอน: การอ่านแบบฟอร์ม การดึงข้อมูล และการจัดการปฏิทิน—ทั้งหมดดำเนินการโดยอัตโนมัติ
อีกตัวอย่างหนึ่งเกี่ยวข้องกับการจัดระเบียบกระดานโน้ตแบบยุ่งเหยิงที่ http://sticky-note-jam.web.app agent จัดหมวดหมู่โน้ตโดยการลากพวกมันไปยังส่วนที่กำหนดไว้ล่วงหน้า ซึ่งแสดงให้เห็นถึงความสามารถในการลากและวาง การสาธิตเหล่านี้ ซึ่งเร่งความเร็วสำหรับการรับชม แสดงให้เห็นถึงการจัดการองค์ประกอบแบบโต้ตอบของโมเดลได้อย่างราบรื่น
ผู้ทดสอบกลุ่มแรกนำไปใช้ในการทดสอบ UI ซึ่งจะทำการตรวจสอบการถดถอยบนเว็บแอปพลิเคชันโดยอัตโนมัติ ผู้ช่วยส่วนตัวที่สร้างขึ้นด้วยโมเดลนี้จัดการอีเมล การจอง และการแจ้งเตือนโดยการเชื่อมต่อโดยตรงกับแอปพลิเคชัน การทำงานอัตโนมัติได้รับประโยชน์จากความสามารถในการกู้คืนจากความล้มเหลว ตัวอย่างเช่น ทีมแพลตฟอร์มการชำระเงินของ Google รายงานการกู้คืนการดำเนินการที่หยุดชะงักได้มากกว่า 60% ซึ่งลดเวลาแก้ไขจากหลายวันเหลือเพียงไม่กี่นาที
จากมุมมองทางเทคนิค แอปพลิเคชันเหล่านี้ต้องการการจัดการข้อผิดพลาดที่แข็งแกร่งในลูป นักพัฒนาใช้ตรรกะการลองใหม่และจุดตรวจสอบสถานะเพื่อรักษากระบวนการ นอกจากนี้ การผสานรวมกับ API ผ่านเครื่องมืออย่าง Apidog ช่วยให้การทดสอบ `computer_use` endpoint เป็นไปอย่างราบรื่น ทำให้มั่นใจว่าอินพุตเช่นภาพหน้าจอได้รับการจัดรูปแบบอย่างถูกต้อง เนื่องจากความปลอดภัยมีความสำคัญสูงสุด โมเดลจึงรวมกลไกป้องกันในตัว

คุณสมบัติด้านความปลอดภัยและการลดความเสี่ยง
Google ได้ฝังความปลอดภัยโดยตรงในโมเดล Gemini 2.5 Computer Use เพื่อรับมือกับความเสี่ยงต่างๆ เช่น การใช้งานในทางที่ผิด พฤติกรรมที่ไม่คาดคิด และภัยคุกคามภายนอก เช่น การฉีดพร้อมต์ กระบวนการฝึกอบรมจะปลูกฝังกลไกการปฏิเสธสำหรับการกระทำที่เป็นอันตราย เช่น การบุกรุกความสมบูรณ์ของระบบ หรือการหลีกเลี่ยงโปรโตคอลความปลอดภัย เช่น CAPTCHAs
นักพัฒนาสามารถเข้าถึงการควบคุมแบบละเอียด รวมถึงบริการความปลอดภัยแบบทีละขั้นตอนที่ประเมินการดำเนินการก่อนการดำเนินการ คำแนะนำของระบบจะนำโมเดลให้ขอการยืนยันจากผู้ใช้สำหรับการดำเนินการที่ละเอียดอ่อน เช่น การควบคุมอุปกรณ์ทางการแพทย์ หรือการทำธุรกรรมทางการเงิน แนวทางแบบหลายชั้นนี้ช่วยลดช่องโหว่ในสภาพแวดล้อมเว็บที่เสี่ยงต่อการหลอกลวง
ในทางเทคนิค การประเมินความปลอดภัยเกี่ยวข้องกับการทดสอบแบบ adversarial ซึ่งการโจมตีจำลองจะตรวจสอบหาจุดอ่อน โมเดลได้รับคะแนนความปลอดภัยสูงโดยการจัดประเภทการกระทำเทียบกับหมวดหมู่ความเสี่ยงที่กำหนดไว้ล่วงหน้า โดยจะหยุดการดำเนินการหากเกินเกณฑ์ อย่างไรก็ตาม นักพัฒนาต้องรับผิดชอบในการทดสอบก่อนเปิดตัวอย่างละเอียด โดยปฏิบัติตามเอกสารแนวทางปฏิบัติที่ดีที่สุด
นอกจากนี้ ความโปร่งใสในการรายงานความปลอดภัยช่วยให้วิศวกรสามารถปรับปรุงการผสานรวมได้ สำหรับการตั้งค่าที่ขับเคลื่อนด้วย API เครื่องมืออย่าง Apidog ช่วยอำนวยความสะดวกในการจำลองการตอบสนองด้านความปลอดภัยระหว่างการพัฒนา ทำให้มั่นใจได้ถึงการปฏิบัติตามข้อกำหนดโดยไม่มีความเสี่ยงจริง เมื่อเปลี่ยนไปสู่ความพร้อมใช้งาน คุณสมบัติเหล่านี้ทำให้โมเดลสามารถเข้าถึงได้สำหรับการใช้งานอย่างรับผิดชอบ
ความพร้อมใช้งานและการเข้าถึงสำหรับนักพัฒนา
Google ทำให้โมเดล Gemini 2.5 Computer Use พร้อมใช้งานในเวอร์ชันพรีวิวสาธารณะผ่าน Gemini API บนแพลตฟอร์มต่างๆ เช่น Google AI Studio และ Vertex AI นักพัฒนาสามารถผสานรวมได้ทันที โดยใช้ประโยชน์จากระบบการตรวจสอบสิทธิ์และโควต้าที่มีอยู่

การเข้าถึงไม่จำเป็นต้องมีการตั้งค่าเพิ่มเติมใดๆ นอกเหนือจากคีย์ API มาตรฐาน ทำให้สามารถสร้างต้นแบบได้อย่างรวดเร็ว ผู้ใช้ Vertex AI ได้รับประโยชน์จากการปรับขนาดระดับองค์กร ในขณะที่ Google AI Studio เหมาะสำหรับการทดลองส่วนบุคคล การเปิดตัวโมเดลเน้นย้ำถึงข้อเสนอแนะแบบวนซ้ำ โดย Google สนับสนุนให้รายงานกรณีพิเศษ
จากมุมมองของการผสานรวมทางเทคนิค นักพัฒนาจะห่อเครื่องมือ `computer_use` ไว้ในลูปที่กำหนดเองโดยใช้ภาษาต่างๆ เช่น Python หรือ JavaScript SDKs ช่วยให้การจัดการภาพหน้าจอและการดำเนินการเป็นไปอย่างราบรื่น ลดโค้ดซ้ำซ้อน นอกจากนี้ เอกสารประกอบยังมีตัวอย่างโค้ดสำหรับสถานการณ์ทั่วไป ซึ่งช่วยเร่งการนำไปใช้
เมื่อมีการใช้งานเพิ่มขึ้น เครื่องมือตรวจสอบจะติดตามเมตริกประสิทธิภาพ ทำให้มั่นใจได้ถึงการจัดสรรทรัพยากรที่เหมาะสมที่สุด สำหรับผู้ที่สำรวจการโต้ตอบกับ API Apidog มีการดาวน์โหลดฟรีเพื่อแสดงภาพปลายทาง ดีบักการเรียก และทำงานร่วมกันในการผสานรวม ซึ่งเหมาะอย่างยิ่งสำหรับการสร้าง agents ที่ยืดหยุ่นด้วยโมเดล Gemini 2.5 Computer Use
การผสานรวมโมเดล Gemini 2.5 Computer Use เข้ากับเครื่องมืออย่าง Apidog
การผสานรวมช่วยเพิ่มประโยชน์ของโมเดล Gemini 2.5 Computer Use Apidog ซึ่งเป็นแพลตฟอร์ม API ที่ครอบคลุม ช่วยเสริมด้วยการช่วยให้นักพัฒนาสามารถทดสอบและจัดทำเอกสารปลายทาง Gemini API ได้อย่างมีประสิทธิภาพ วิศวกรใช้ Apidog เพื่อจำลองการเรียก `computer_use` โดยตรวจสอบรูปแบบอินพุต เช่น ภาพหน้าจอที่เข้ารหัส JSON และประวัติการดำเนินการ

ในทางปฏิบัติ คุณสมบัติการจำลองของ Apidog จะจำลองการตอบสนองของโมเดล ทำให้สามารถพัฒนาลูป agent แบบออฟไลน์ได้ ซึ่งช่วยป้องกันการเรียก API ที่มีค่าใช้จ่ายสูงระหว่างการวนซ้ำ นอกจากนี้ เครื่องมือการทำงานร่วมกันของ Apidog ยังช่วยให้ทีมสามารถแบ่งปันข้อมูลจำเพาะของ API ทำให้มั่นใจได้ถึงการนำไปใช้ที่สอดคล้องกันในทุกโครงการ
ในทางเทคนิค Apidog รองรับมาตรฐาน OpenAPI ซึ่งสอดคล้องกับเอกสารของ Gemini นักพัฒนาสามารถนำเข้าสคีมาได้โดยตรง สร้างโค้ดไคลเอ็นต์สำหรับการเชื่อมต่อที่ราบรื่น สำหรับ agents ที่ซับซ้อน Apidog จะตรวจสอบเวลาแฝงและอัตราข้อผิดพลาด เพื่อเพิ่มประสิทธิภาพของลูปแบบวนซ้ำ
นอกจากนี้ เมื่อจัดการฟังก์ชันที่กำหนดเองในโมเดล Apidog จะแสดงภาพการจับคู่พารามิเตอร์ ลดข้อผิดพลาดในการผสานรวม กรณีศึกษาแสดงให้เห็นว่าทีมงานใช้ Apidog ควบคู่ไปกับ Gemini สำหรับการทำงานอัตโนมัติของเวิร์กโฟลว์ ทำให้การปรับใช้เร็วขึ้น เมื่อเราพิจารณาถึงผลกระทบในอนาคต การทำงานร่วมกันดังกล่าวชี้ให้เห็นถึงระบบนิเวศที่กำลังพัฒนา
ผลกระทบและการพัฒนาในอนาคต
โมเดล Gemini 2.5 Computer Use บ่งชี้ถึงการเปลี่ยนแปลงไปสู่ AI agents ที่มีความเป็นอิสระมากขึ้น การทำซ้ำในอนาคตอาจขยายไปสู่การควบคุมระบบปฏิบัติการเดสก์ท็อป ซึ่งจะขยายแอปพลิเคชันในซอฟต์แวร์องค์กร Google มุ่งมั่นที่จะปรับขนาดอย่างรับผิดชอบ โดยให้ความสำคัญกับความปลอดภัยเมื่อความสามารถก้าวหน้า
ในทางเทคนิค ความก้าวหน้าอาจเกี่ยวข้องกับอินพุตแบบหลายโมดอลที่ได้รับการปรับปรุง โดยรวมเสียงหรือการตอบสนองแบบสัมผัสเพื่อการโต้ตอบที่สมบูรณ์ยิ่งขึ้น นักวิจัยกำลังสำรวจการเรียนรู้แบบรวมศูนย์เพื่อปรับแต่ง agents โดยไม่กระทบต่อความเป็นส่วนตัว
โดยสรุป โมเดล Gemini 2.5 Computer Use กำหนดบทบาทของ AI ในอินเทอร์เฟซดิจิทัลใหม่ ด้วยการเปิดใช้งานการควบคุม UI ที่แม่นยำและมีเวลาแฝงต่ำ ทำให้ช่วยให้นักพัฒนาสามารถสร้างโซลูชันที่เป็นนวัตกรรมได้ เครื่องมืออย่าง Apidog ช่วยเสริมระบบนิเวศนี้ โดยนำเสนอทรัพยากรฟรีเพื่อปรับปรุงการพัฒนา เมื่อการนำไปใช้เร่งตัวขึ้น คาดว่าจะเกิดผลกระทบที่เปลี่ยนแปลงไปในทุกอุตสาหกรรม
