สรุปบรรยาย Andrej Karpathy: ซอฟต์แวร์กำลังเปลี่ยนแปลง (อีกครั้ง)

โลกของปัญญาประดิษฐ์กำลังเคลื่อนไปอย่างรวดเร็ว ทุกสัปดาห์ดูเหมือนจะมีโมเดลใหม่ ความสามารถใหม่ หรือการถกเถียงใหม่เกี่ยวกับอนาคตของมนุษยชาติ การฝ่าฟันความสับสนนี้จำเป็นต้องมีเสียงที่มีทั้งความเข้าใจทางเทคนิคอย่างลึกซึ้งและวิสัยทัศน์ที่ชัดเจนเกี่ยวกับภาพรวม Andrej Karpathy ผู้บุกเบิกที่มีประสบการณ์สำคัญทั้งที่ Tesla และ OpenAI เป็นหนึ่งในเสียงเหล่านั้น

ในการบรรยายล่าสุดของเขาที่ Y Combinator ในหัวข้อ "Software Is Changing (Again)" Karpathy ไม่เพียงแต่ให้ข้อมูลอัปเดตเท่านั้น แต่ยังนำเสนอเฟรมเวิร์กที่สมบูรณ์สำหรับการทำความเข้าใจการเปลี่ยนแปลงครั้งใหญ่ที่เรากำลังเผชิญอยู่ เขาให้เหตุผลว่าเราไม่ได้เพียงแค่เห็นการสร้างเครื่องมือใหม่ แต่เป็นการเริ่มต้นของกระบวนทัศน์การคำนวณใหม่ นี่คือ Software 3.0

โพสต์นี้เป็นการเจาะลึกบันทึกและข้อคิดจากการบรรยายของเขา เพื่อแกะแนวคิดหลักและสำรวจความหมายที่ลึกซึ้งของแนวคิดเหล่านั้น เราจะเดินทางผ่านการจัดหมวดหมู่ซอฟต์แวร์ของเขา ทำความเข้าใจว่าทำไมเขาถึงเรียก Large Language Model (LLM) ว่าเป็นระบบปฏิบัติการชนิดใหม่ สำรวจแนวทางที่ใช้งานได้จริงแบบ "ชุดเกราะ Iron Man" ในการสร้างผลิตภัณฑ์ AI ในปัจจุบัน และมองไปข้างหน้าสู่อนาคตที่สร้างขึ้นสำหรับ AI agents

💡

ต้องการเครื่องมือทดสอบ API ที่ยอดเยี่ยมซึ่งสร้างเอกสาร API ที่สวยงามหรือไม่?

ต้องการแพลตฟอร์มแบบครบวงจรสำหรับทีมพัฒนาของคุณเพื่อทำงานร่วมกันด้วยประสิทธิภาพสูงสุดหรือไม่?

Apidog ตอบสนองทุกความต้องการของคุณ และแทนที่ Postman ได้ในราคาที่เข้าถึงได้ง่ายกว่ามาก!

ปุ่ม

สามยุคของซอฟต์แวร์: การจัดหมวดหมู่ใหม่

เพื่อทำความเข้าใจว่าเรากำลังจะไปที่ไหน เราต้องเข้าใจก่อนว่าเราเคยอยู่ที่ไหน Karpathy จัดหมวดหมู่ประวัติศาสตร์ซอฟต์แวร์ออกเป็นสามยุคที่แตกต่างกันอย่างสง่างาม ซึ่งเป็นการจัดหมวดหมู่ที่ช่วยให้เห็นภาพชัดเจนถึงลักษณะของการปฏิวัติในปัจจุบัน

Software 1.0: ยุคแห่งตรรกะ

นี่คือซอฟต์แวร์ที่เรารู้จักกันดี ซึ่งเป็นรากฐานของโลกดิจิทัล Software 1.0 คือโค้ดแบบดั้งเดิมที่เขียนขึ้นโดยโปรแกรมเมอร์มนุษย์อย่างชัดเจนเพื่อดำเนินการตามคำสั่งที่กำหนดไว้ล่วงหน้า เป็นภาษา C++, Java และ Python ที่ขับเคลื่อนทุกอย่างตั้งแต่เว็บเบราว์เซอร์ไปจนถึงฐานข้อมูลธุรกรรมของธนาคาร ในการบรรยายของเขา Karpathy ชี้ไปที่โค้ด C++ พื้นฐานในระบบ Autopilot ของ Tesla เป็นตัวอย่างสำคัญ [00:04:49]

กระบวนทัศน์นี้ถูกกำหนดโดยความแม่นยำและการควบคุม มนุษย์เป็นผู้กำหนดตรรกะทีละขั้นตอน จุดแข็งของมันคือความสามารถในการคาดเดาได้ อย่างไรก็ตาม จุดอ่อนคือความแข็งทื่อ Software 1.0 มีปัญหาในการจัดการกับความกำกวมและข้อมูลที่ไม่มีโครงสร้าง คุณไม่สามารถเขียนคำสั่ง if/else เพื่อระบุแมวในรูปภาพได้อย่างน่าเชื่อถือ หรือจับความรู้สึกของประโยคได้ง่ายๆ สำหรับสิ่งนั้น จำเป็นต้องมีแนวทางใหม่

Software 2.0: ยุคแห่งการเรียนรู้

Software 2.0 ถือกำเนิดขึ้นพร้อมกับการเติบโตของดีปเลิร์นนิงและโครงข่ายประสาทเทียม ในที่นี้ กระบวนทัศน์เปลี่ยนไปอย่างมากจากการเขียนโค้ดเป็นการจัดการข้อมูล แทนที่จะให้คำสั่งที่ชัดเจน นักพัฒนาจะรวบรวมชุดข้อมูลขนาดใหญ่และใช้เพื่อ "ฝึกฝน" โครงข่ายประสาทเทียม "โค้ด" ในกระบวนทัศน์นี้ไม่ใช่ตรรกะที่มนุษย์อ่านได้ แต่เป็นน้ำหนักและไบแอสหลายล้านหรือหลายพันล้านรายการภายในโครงข่าย ซึ่งถูกปรับแต่งโดยตัวปรับค่า (optimizer) โปรแกรมเมอร์กลายเป็นเหมือนครูหรือคนสวน ที่คอยป้อนข้อมูลให้กับโมเดลและกำหนดกระบวนการเรียนรู้ของมัน

แนวทางนี้แท้จริงแล้ว "กลืนกิน" สแต็ก Software 1.0 ในหลายโดเมน โดยเฉพาะอย่างยิ่งที่เกี่ยวข้องกับการรับรู้ เช่น คอมพิวเตอร์วิทัศน์ [00:05:26] งานที่ซับซ้อนจนไม่สามารถเขียนโค้ดด้วยมือได้ก็กลายเป็นสิ่งที่ทำได้ นี่คือยุคของระบบรู้จำภาพ ระบบแปลงเสียงเป็นข้อความ และการแปลภาษาด้วยเครื่องที่ใช้งานได้จริง มันเป็นการก้าวกระโดดครั้งใหญ่ แต่ก้าวต่อไปจะเปลี่ยนธรรมชาติของการเขียนโปรแกรมไปเลย

Software 3.0: ยุคแห่งการสนทนา

สิ่งนี้พาเรามาถึงปัจจุบัน Software 3.0 คือโลกของ Large Language Models โมเดลเหล่านี้ เช่น GPT-4 หรือ Gemini เป็นโครงข่ายประสาทเทียมขนาดใหญ่ที่ได้รับการฝึกฝนจากข้อมูลส่วนใหญ่บนอินเทอร์เน็ต โดยทั่วไปแล้วจะเป็นอาร์ติแฟกต์ที่ถูกตรึงไว้และได้รับการฝึกฝนล่วงหน้า ส่วนที่ปฏิวัติวงการคือวิธีที่เราโต้ตอบกับพวกมัน ดังที่ Karpathy กล่าว เรามีภาษาโปรแกรมใหม่: ภาษาอังกฤษ [00:04:09]

การเขียนโปรแกรมใน Software 3.0 ทำได้ผ่านข้อความแจ้ง (prompts) ที่เป็นภาษาธรรมชาติ เราสั่งงาน สอบถาม และควบคุมพฤติกรรมของโมเดลได้ง่ายๆ เพียงแค่พูดคุยกับมัน นี่คือการก้าวกระโดดครั้งสำคัญที่สุดในด้านการเข้าถึงในประวัติศาสตร์คอมพิวเตอร์ มันเปลี่ยนทุกคนที่สามารถแสดงความคิดออกมาให้กลายเป็นโปรแกรมเมอร์ที่มีศักยภาพ ซึ่งเป็นแนวคิดที่ Karpathy เรียกในภายหลังว่า "vibe coding"

LLM ในฐานะแพลตฟอร์มการคำนวณใหม่

Karpathy ให้เหตุผลที่น่าเชื่อถือว่า LLM ไม่ใช่แค่โปรแกรมที่ฉลาดเท่านั้น แต่เป็นคอมพิวเตอร์ประเภทใหม่ เป็นแพลตฟอร์มใหม่ที่มีลักษณะเฉพาะตัว [00:06:10] เขาใช้การเปรียบเทียบที่ทรงพลังหลายอย่างเพื่อสนับสนุนข้อโต้แย้งของเขา

ประการแรก เขาเห็นว่า LLM มีคุณสมบัติทั้งในฐานะ สาธารณูปโภค และ โรงงานผลิตเซมิคอนดักเตอร์ การเปรียบเทียบกับสาธารณูปโภค [00:06:35] อ้างถึงค่าใช้จ่ายด้านทุน (capex) มหาศาลที่จำเป็นสำหรับห้องปฏิบัติการเช่น OpenAI และ Google ในการฝึกโมเดลเหล่านี้ และค่าใช้จ่ายในการดำเนินงาน (opex) ในการให้บริการผ่าน API แบบคิดค่าบริการ เหมือนกับโครงข่ายไฟฟ้า พวกมันต้องการการลงทุนมหาศาลและต้องให้บริการด้วยความหน่วงต่ำ (low latency) เวลาทำงานสูง (high uptime) และคุณภาพที่สม่ำเสมอ [00:07:02] การเปรียบเทียบกับโรงงานผลิต [00:08:04] ชี้ให้เห็นถึงการวิจัยและพัฒนาที่ลึกซึ้ง รวมศูนย์ และมักเป็นความลับ ซึ่งนำไปสู่การสร้างโมเดลพื้นฐานเหล่านี้ สร้างภูมิทัศน์ที่ถูกครอบงำโดยผู้เล่นรายใหญ่เพียงไม่กี่ราย

ประการที่สอง และอาจเป็นสิ่งที่สำคัญที่สุด เขาเสนอว่า LLM เป็นระบบปฏิบัติการใหม่ [00:09:07] นี่เป็นข้อมูลเชิงลึกที่ลึกซึ้ง LLM ทำหน้าที่เหมือนระบบปฏิบัติการแบบชีวภาพ ต่างดาว ที่ประสานงานทรัพยากรภายในของมัน—ความรู้มหาศาล ความสามารถในการให้เหตุผล หน้าต่างบริบท (context window) (ในรูปแบบของ RAM)—เพื่อดำเนินการตามงานที่ผู้ใช้ระบุในข้อความแจ้ง [00:10:09] สิ่งนี้ได้ก่อให้เกิดรูปแบบการคำนวณใหม่ที่ชวนให้นึกถึง การแบ่งเวลาใช้งาน (time-sharing) ในยุค 1960s [00:11:02] ส่วนใหญ่ของเราไม่ได้รันโมเดลขนาดใหญ่เหล่านี้บนเครื่องของเราเอง เราเป็นไคลเอนต์ที่เชื่อมต่อผ่านเครือข่ายไปยัง "เมนเฟรม" ที่ทรงพลังและรวมศูนย์ในระบบคลาวด์

สิ่งนี้ยังได้พลิกบทบาทของการกระจายเทคโนโลยีอีกด้วย ในอดีต เทคโนโลยีที่ทรงพลังจะค่อยๆ ไหลจากรัฐบาลและองค์กรขนาดใหญ่ลงสู่ผู้บริโภค LLM กลับทำตรงกันข้ามอย่างน่าทึ่ง โดยเข้าถึงผู้บริโภคนับพันล้านคนผ่านอินเทอร์เฟซแชทที่ใช้งานง่ายเกือบจะในชั่วข้ามคืน [00:12:42] ทำให้องค์กรต่างๆ ต้องเร่งรีบตามให้ทัน

"ชุดเกราะ Iron Man": การใช้งานได้จริงในยุคแห่งกระแส

แม้ว่า LLM จะมีความสามารถเหนือมนุษย์ แต่ก็มีข้อบกพร่องอย่างมาก Karpathy นำเสนอภาพ "จิตวิทยา" ของพวกมันอย่างสุขุม โดยอธิบายว่าพวกมันเป็น "การจำลองสุ่มของมนุษย์" [00:14:49] ความฉลาดของพวกมันนั้น "ขรุขระ" [00:16:20]

ด้านหนึ่ง พวกมันมีความรู้เหมือนสารานุกรมและมีความจำเกือบสมบูรณ์แบบ [00:15:30] อีกด้านหนึ่ง พวกมันมีแนวโน้มที่จะเกิดการหลอนอย่างมั่นใจ ขาดแบบจำลองที่แท้จริงของความรู้เกี่ยวกับตนเอง [00:16:07] ประสบปัญหา "ภาวะความจำเสื่อมไปข้างหน้า" (พวกมันไม่เรียนรู้จากปฏิสัมพันธ์โดยธรรมชาติ) [00:16:43] และอ่อนไหวต่อความเสี่ยงด้านความปลอดภัยอย่างอันตราย เช่น prompt injection [00:17:38]

ดังนั้น ความท้าทายหลักทางวิศวกรรมคือการออกแบบระบบที่สามารถทำงานได้โดยหลีกเลี่ยงข้อจำกัดเหล่านี้ ขณะเดียวกันก็ใช้ประโยชน์จากจุดแข็งของพวกมัน [00:18:03] สิ่งนี้นำไปสู่ข้อมูลเชิงลึกที่อาจเป็นประโยชน์และมีค่าที่สุดจากการบรรยาย นั่นคือการเปรียบเทียบแบบ "ชุดเกราะ Iron Man" [00:28:22]

แทนที่จะมุ่งมั่นสร้าง "หุ่นยนต์ Iron Man" ที่เป็นอิสระเต็มรูปแบบซึ่งทำงานได้โดยไม่ต้องมีการควบคุมดูแล—ซึ่งเป็นเป้าหมายที่ยังห่างไกลและเต็มไปด้วยความเสี่ยง—เราควรเน้นการสร้าง "ชุดเกราะ Iron Man" ซึ่งเป็นแอปพลิเคชันที่เสริมความสามารถของมนุษย์ โดยมีมนุษย์เป็นส่วนหนึ่งของวงจรอย่างแน่นหนา ขั้นตอนการทำงานในอุดมคติคือวงจร สร้างและตรวจสอบ (generate-and-verify) ที่กระชับและรวดเร็ว [00:22:13] AI สร้างร่างแรก—ไม่ว่าจะเป็นโค้ด อีเมล หรือการออกแบบ—และมนุษย์ซึ่งมีการตัดสินใจและบริบทที่เหนือกว่า จะทำการตรวจสอบ แก้ไข และอนุมัติอย่างรวดเร็ว ยิ่งวงจรนี้เร็วเท่าใด การเสริมความสามารถก็จะยิ่งทรงพลังมากขึ้นเท่านั้น [00:22:19]

แอปพลิเคชัน LLM ที่ประสบความสำเร็จในปัจจุบัน เช่น Cursor สำหรับการเขียนโค้ด หรือ Perplexity สำหรับการค้นหา เป็นตัวอย่างที่ยอดเยี่ยมของสิ่งนี้ พวกมันมีการจัดการบริบทที่ซับซ้อน [00:19:24] การประสานงานการเรียกใช้ LLM หลายครั้งอย่างชาญฉลาด [00:19:32] และที่สำคัญคือ อินเทอร์เฟซผู้ใช้ที่ออกแบบมาเพื่อให้ตรวจสอบได้ง่าย [00:19:44] พวกมันมักมี "ตัวเลื่อนความเป็นอิสระ" (autonomy slider) [00:20:21] ซึ่งช่วยให้ผู้ใช้ปรับระดับการมีส่วนร่วมของ AI ได้ตามความซับซ้อนของงานและความมั่นใจในระบบ หัวใจสำคัญคือการควบคุม AI ไว้ไม่ให้สร้างเอาต์พุตที่มากเกินไปจนจัดการไม่ได้ [00:22:53] หรือหลงทาง (getting "lost in the woods") [00:24:41]

ทุกคนคือโปรแกรมเมอร์: การมาถึงของ "Vibe Coding"

ผลลัพธ์ที่เปลี่ยนแปลงมากที่สุดของ Software 3.0 คือการทำให้การสร้างสรรค์เป็นประชาธิปไตยอย่างถอนรากถอนโคน Karpathy ได้บัญญัติศัพท์ที่น่าสนใจว่า "vibe coding" [00:31:07] เพื่ออธิบายการเขียนโปรแกรมผ่านภาษาธรรมชาติ คุณไม่จำเป็นต้องรู้ภาษา Swift เพื่ออธิบาย "vibe" ของแอป iOS ที่คุณต้องการสร้าง คุณเพียงแค่อธิบายมัน แล้ว LLM จะจัดการเรื่องไวยากรณ์ให้

สิ่งนี้เปิดประตูสู่โลกที่ผู้เชี่ยวชาญเฉพาะด้าน—แพทย์ ทนายความ นักวิทยาศาสตร์ ศิลปิน—สามารถสร้างเครื่องมือที่พวกเขาต้องการได้โดยไม่ต้องมีพื้นฐานด้านวิศวกรรมซอฟต์แวร์แบบดั้งเดิม อย่างไรก็ตาม Karpathy ชี้ให้เห็นปัญหา "ไมล์สุดท้าย" อย่างชาญฉลาด แม้ว่าตรรกะหลักจะสามารถสร้างขึ้นได้ผ่าน "vibe coding" แต่การทำให้แอปพลิเคชันจริงใช้งานได้เกี่ยวข้องกับงาน "devops" ที่ยุ่งเหยิง: การตั้งค่าการยืนยันตัวตน การรวมระบบชำระเงิน การติดตั้งบนเซิร์ฟเวอร์ และการคลิกผ่าน UI บนเว็บจำนวนนับไม่ถ้วน [00:32:30] งานที่ทำด้วยมือและอาศัยเบราว์เซอร์นี้คือคอขวดในปัจจุบัน และมันชี้ตรงไปยังพรมแดนถัดไป: agents

ปูทางสำหรับ Agents: การสร้างเว็บที่รองรับ LLM โดยธรรมชาติ

หาก LLM จะพัฒนาจากผู้ช่วยที่เป็นประโยชน์ไปสู่ agent ที่มีความสามารถซึ่งสามารถทำงาน "ไมล์สุดท้าย" เหล่านี้ได้ โครงสร้างพื้นฐานดิจิทัลของเราจำเป็นต้องปรับตัว เราต้องเริ่มสร้างเพื่อผู้ใช้ประเภทใหม่: AI agent [00:33:55] นี่หมายถึงการทำให้เว็บไซต์และบริการของเราสามารถอ่านได้โดยเครื่องมากขึ้น

Karpathy เสนอแนวคิดที่เป็นรูปธรรมและสามารถนำไปปฏิบัติได้หลายประการ:

llm.txt: เช่นเดียวกับที่ robots.txt ให้คำแนะนำแก่เว็บครอว์เลอร์ ไฟล์ llm.txt ที่เสนอจะให้สรุปเว็บไซต์หรือโดเมนในรูปแบบภาษาธรรมชาติที่มีโครงสร้างโดยตรงสำหรับ LLM ที่เข้ามาเยี่ยมชม [00:34:12] มันคือคู่มือการใช้งานสำหรับ AI
เอกสารประกอบที่เป็นมิตรต่อ LLM: เอกสารประกอบจำเป็นต้องเปลี่ยนจากการใช้ภาพหน้าจอและการจัดวางที่เน้นมนุษย์ ไปสู่ Markdown ที่สะอาด เรียบง่าย ซึ่ง LLM สามารถแยกวิเคราะห์และทำความเข้าใจได้ง่าย [00:34:51]
เอกสารประกอบที่ดำเนินการได้: คำแนะนำควรมีการพัฒนา แทนที่จะบอกมนุษย์ให้ "คลิกปุ่ม 'สร้าง'" เอกสารประกอบควรให้คำสั่ง curl หรือการเรียกใช้ API ที่ agent สามารถดำเนินการได้โดยตรงเพื่อให้ได้ผลลัพธ์เดียวกัน [00:35:59]

เรายังต้องการเครื่องมือใหม่ๆ ที่ออกแบบมาสำหรับยุคนี้ เช่น เครื่องมือ get.ingest ที่เขาพูดถึง ซึ่งสามารถแปลง GitHub repository ที่ซับซ้อนให้เป็นไฟล์ข้อความเดียวที่สะอาด ซึ่ง LLM สามารถนำไปใช้และวิเคราะห์ได้อย่างง่ายดาย [00:36:33]

บทสรุป: เปิดรับการเปลี่ยนแปลง

การบรรยายของ Andrej Karpathy นำเสนอวิสัยทัศน์ที่ชัดเจน มีโครงสร้าง และสร้างแรงบันดาลใจเกี่ยวกับปัจจุบันและอนาคตของซอฟต์แวร์ เราอยู่ในช่วงเวลาที่สำคัญ เป็น "เวลาที่ไม่เหมือนใคร" [00:38:16] ที่ธรรมชาติของซอฟต์แวร์กำลังถูกนิยามใหม่ การเปลี่ยนผ่านสู่ Software 3.0 ไม่ใช่แค่การเปลี่ยนแปลงทางเทคโนโลยี แต่เป็นการเปลี่ยนแปลงกระบวนทัศน์ที่จะเสริมพลังให้กับนักสร้างสรรค์รุ่นใหม่ และเปลี่ยนวิธีที่เราโต้ตอบกับโลกดิจิทัลโดยพื้นฐาน การเดินทางข้างหน้าจะเรียกร้องให้เรามีความเชี่ยวชาญในทุกกระบวนทัศน์ เปิดรับโมเดลความร่วมมือระหว่างมนุษย์กับ AI แบบ "ชุดเกราะ Iron Man" และเริ่มสร้างโครงสร้างพื้นฐานที่จะช่วยให้ AI agents ของวันพรุ่งนี้ทำงานได้

นี่เป็นช่วงเวลาที่ไม่เหมือนใคร น่าตื่นเต้น และท้าทายสำหรับการเป็นผู้สร้าง คำจำกัดความของซอฟต์แวร์กำลังขยายตัว และพร้อมกับนั้น คำจำกัดความของผู้ที่สามารถเป็นโปรแกรมเมอร์ได้ก็เช่นกัน การเปลี่ยนแปลงมาถึงแล้ว และกำลังเกิดขึ้นในตอนนี้

💡

ปุ่ม