Lướt ván buồm SWE-1: Lập trình phong cách, đầy cảm hứng

Bức tranh phát triển phần mềm đang trải qua một sự chuyển đổi nhanh chóng và sâu sắc. Chúng ta đang vượt ra ngoài các công cụ AI chỉ đơn thuần hỗ trợ các tác vụ viết code riêng lẻ, tiến tới một thế hệ AI mới có khả năng hiểu và nâng cao toàn bộ quy trình kỹ thuật phần mềm. Dẫn đầu sự thay đổi này là Windsurf với lần ra mắt mang tính bước ngoặt: SWE-1, một bộ các mô hình AI được tối ưu hóa tỉ mỉ không chỉ cho việc viết code, mà còn cho toàn bộ quy trình kỹ thuật phần mềm đa diện. Với mục tiêu đầy tham vọng là "tăng tốc phát triển phần mềm lên 99%", SWE-1, ra đời từ những hiểu biết độc đáo trong hệ sinh thái Windsurf, đánh dấu một thời điểm quan trọng trong hành trình tìm kiếm sự hỗ trợ phát triển thực sự thông minh.

💡

Bạn muốn một công cụ Kiểm thử API tuyệt vời tạo ra Tài liệu API đẹp mắt?

Bạn muốn một nền tảng Tích hợp, Tất cả trong Một cho Đội ngũ Phát triển của bạn làm việc cùng nhau với năng suất tối đa?

Apidog đáp ứng mọi yêu cầu của bạn, và thay thế Postman với mức giá phải chăng hơn nhiều!

nút

Bộ mô hình Windsurf SWE-1: Các mô hình tùy chỉnh cho nhu cầu kỹ thuật đa dạng

SWE-1 của Windsurf không phải là một thực thể nguyên khối mà là một bộ ba mô hình riêng biệt được tuyển chọn cẩn thận, mỗi mô hình được thiết kế để giải quyết các khía cạnh cụ thể của quy trình kỹ thuật phần mềm và phục vụ các nhu cầu người dùng khác nhau:

SWE-1

Mô hình chủ lực, SWE-1, mang lại khả năng suy luận tương đương với Claude 3.5 Sonnet của Anthropic, đặc biệt trong các kịch bản gọi công cụ, đồng thời tiết kiệm chi phí hơn khi phục vụ. Thể hiện cam kết của Windsurf đối với người dùng của mình, SWE-1 sẽ được cung cấp cho tất cả người dùng trả phí trong một thời gian khuyến mãi mà không tốn phí tín dụng cho mỗi yêu cầu của người dùng, cho phép tiếp cận rộng rãi các khả năng nâng cao của nó.

SWE-1-lite

Được thiết kế như một sự thay thế vượt trội cho mô hình Cascade Base hiện có của Windsurf, SWE-1-lite mang lại chất lượng và hiệu suất nâng cao. Mô hình nhỏ hơn nhưng mạnh mẽ này có sẵn để sử dụng không giới hạn cho tất cả người dùng Windsurf, dù ở gói miễn phí hay trả phí, đảm bảo rằng những lợi ích cốt lõi của kiến trúc SWE mới đều có thể tiếp cận được với mọi người.

SWE-1-mini

Hoàn thiện bộ ba là SWE-1-mini, một mô hình nhỏ gọn và cực kỳ nhanh. Vai trò chính của nó là cung cấp năng lượng cho trải nghiệm dự đoán thụ động trong Windsurf Tab. Giống như SWE-1-lite, nó có sẵn để sử dụng không giới hạn cho tất cả người dùng, miễn phí hoặc trả phí, cung cấp sự hỗ trợ liền mạch, độ trễ thấp trực tiếp trong môi trường viết code.

Chiến lược đa mô hình này cho phép Windsurf mang lại hiệu suất tối ưu trên nhiều trường hợp sử dụng khác nhau – từ giải quyết vấn đề phức tạp, tương tác với SWE-1 đến các gợi ý nhanh chóng, thụ động với SWE-1-mini.

Tại sao "Có khả năng viết code" vẫn chưa đủ cho các IDE viết code bằng AI

Việc phát triển SWE-1 được thúc đẩy bởi một hiểu biết cơ bản: để thực sự cách mạng hóa phát triển phần mềm, AI phải vượt qua việc chỉ đơn thuần tạo ra code. Windsurf làm rõ sự cần thiết này bằng cách xem xét hiện trạng và những hạn chế của AI trong lĩnh vực này.

Trong khi các mô hình thành thạo về viết code đã cải thiện đáng kể, có khả năng thực hiện các tác vụ như xây dựng ứng dụng đơn giản trong một lần, chúng đang tiến gần đến điểm bão hòa. Windsurf xác định hai lĩnh vực quan trọng mà các mô hình "có khả năng viết code" này còn thiếu sót:

Phạm vi của Kỹ thuật phần mềm: Như bất kỳ nhà phát triển nào cũng biết, viết code chỉ là một mảnh ghép của bức tranh tổng thể. Thực tế hàng ngày bao gồm vô số tác vụ trên nhiều giao diện khác nhau: làm việc trong terminal, truy cập cơ sở kiến thức bên ngoài và internet, kiểm thử sản phẩm một cách nghiêm ngặt và hiểu phản hồi của người dùng. Một mô hình chỉ tập trung vào việc viết code không thể hỗ trợ đầy đủ khối lượng công việc đa dạng này.
Bản chất của công việc phát triển: Kỹ thuật phần mềm là một nỗ lực dài hơi, tiến triển qua một loạt các trạng thái chưa hoàn chỉnh. Các mô hình nền tảng tốt nhất hiện nay chủ yếu được huấn luyện dựa trên "công việc chiến thuật"—liệu code được tạo ra có biên dịch và vượt qua bài kiểm thử đơn vị không? Tuy nhiên, việc vượt qua một bài kiểm thử đơn vị chỉ là một điểm kiểm tra trong một vấn đề kỹ thuật lớn hơn nhiều. Thách thức thực sự nằm ở việc triển khai các tính năng một cách mạnh mẽ, dễ bảo trì, có thể được xây dựng dựa trên đó trong nhiều năm. Đây là lý do tại sao ngay cả các mô hình tiên tiến cũng có thể xuất sắc khi có sự hướng dẫn tích cực từ người dùng (như thấy trong Cascade của Windsurf) nhưng lại gặp khó khăn khi hoạt động độc lập trong thời gian dài hơn. Tự động hóa nhiều hơn quy trình làm việc đòi hỏi các mô hình có thể suy luận trên các trạng thái chưa hoàn chỉnh và xử lý các kết quả có thể không rõ ràng.

Kết luận của Windsurf rất rõ ràng: "Đến một lúc nào đó, chỉ việc giỏi hơn trong viết code sẽ không làm bạn hoặc một mô hình giỏi hơn trong kỹ thuật phần mềm." Nhận thức này đã dẫn đến niềm tin rằng các mô hình "Kỹ thuật phần mềm" (SWE) chuyên biệt là cần thiết để đạt được các mục tiêu tăng tốc đầy tham vọng của họ.

Tạo dựng SWE-1: Dữ liệu, Huấn luyện và Tham vọng

Việc tạo ra SWE-1 không phải là một nỗ lực chỉ trong một đêm. Nó được xây dựng tỉ mỉ dựa trên những hiểu biết thu được từ Windsurf Editor được sử dụng rộng rãi của Windsurf, cung cấp sự hiểu biết sâu sắc về quy trình làm việc thực tế của nhà phát triển. Kinh nghiệm thực tế này là nền tảng trong việc phát triển:

Một mô hình dữ liệu hoàn toàn mới, được gọi là "dòng thời gian chia sẻ".
Một công thức huấn luyện chuyên biệt được thiết kế để bao gồm các phức tạp của kỹ thuật phần mềm, bao gồm các trạng thái chưa hoàn chỉnh, các tác vụ chạy dài và việc sử dụng nhiều giao diện.

Với những khối xây dựng này, Windsurf bắt tay vào dự án SWE-1 với một mục tiêu ban đầu, tập trung: chứng minh rằng có thể đạt được hiệu suất ở cấp độ tiên phong với phương pháp mới lạ này, ngay cả với một đội ngũ kỹ sư nhỏ hơn và ít tài nguyên tính toán hơn so với các phòng thí nghiệm nghiên cứu lớn. SWE-1, ở dạng hiện tại, là bằng chứng khái niệm ban đầu, thuyết phục cho tầm nhìn này.

Hiệu suất của SWE-1: Các điểm chuẩn và Tác động trong Thế giới thực

Windsurf đã đánh giá nghiêm ngặt khả năng của SWE-1 thông qua cả đánh giá ngoại tuyến và thử nghiệm sản xuất mù, chứng minh tính cạnh tranh và điểm mạnh độc đáo của nó.

Đánh giá Ngoại tuyến

Trong các bài kiểm tra ngoại tuyến, SWE-1 đã được so sánh điểm chuẩn với bộ mô hình Anthropic Claude (phổ biến trong Cascade), cũng như các mô hình viết code mã nguồn mở hàng đầu như Deepseek và Qwen. Hai điểm chuẩn chính đã được sử dụng:

Điểm chuẩn Tác vụ SWE Hội thoại: Điểm chuẩn này đánh giá hiệu suất trong một kịch bản có sự tham gia của con người. Bắt đầu giữa chừng một phiên Cascade hiện có với một tác vụ chưa hoàn thành, nó đo lường mức độ Cascade, được cung cấp bởi mô hình, giải quyết yêu cầu tiếp theo của người dùng tốt như thế nào. Điểm số 0-10 là điểm trung bình kết hợp của điểm số từ người đánh giá (về tính hữu ích, hiệu quả, độ chính xác) và các chỉ số độ chính xác cho việc chỉnh sửa tệp đích. Windsurf nhấn mạnh rằng điều này nắm bắt được "bản chất độc đáo của việc viết code theo kiểu tác nhân có sự tham gia của con người", điều này rất quan trọng khi các mô hình vẫn còn chưa hoàn hảo.
Điểm chuẩn Tác vụ SWE Từ đầu đến cuối: Điểm chuẩn này đánh giá khả năng hoạt động độc lập của mô hình. Bắt đầu từ đầu một cuộc hội thoại, nó đo lường mức độ Cascade giải quyết ý định đầu vào tốt như thế nào bằng cách vượt qua một tập hợp các bài kiểm thử đơn vị đã chọn. Điểm số 0-10 kết hợp tỷ lệ vượt qua bài kiểm tra và điểm số của người đánh giá.

Kết quả của các đánh giá ngoại tuyến này chỉ ra rằng SWE-1 hoạt động trong phạm vi của các mô hình nền tảng tiên phong từ các phòng thí nghiệm lớn đối với các tác vụ kỹ thuật phần mềm cụ thể này. Quan trọng là, nó thể hiện sự vượt trội so với các mô hình cỡ trung và các lựa chọn mã nguồn mở hàng đầu. Mặc dù không tuyên bố là mô hình tiên phong tuyệt đối, SWE-1 cho thấy tiềm năng và tính cạnh tranh đáng kể.

Thử nghiệm Sản xuất

Bổ sung cho các đánh giá ngoại tuyến, Windsurf đã tiến hành các thử nghiệm sản xuất mù, tận dụng cộng đồng người dùng lớn của mình. Một tỷ lệ người dùng đã truy cập các mô hình khác nhau (bao gồm cả các mô hình Claude làm điểm chuẩn) mà không biết mình đang sử dụng mô hình nào, với mô hình được giữ cố định cho mỗi người dùng để đo lường việc sử dụng lặp lại. Các chỉ số chính bao gồm:

Số dòng đóng góp hàng ngày trên mỗi người dùng: Chỉ số này đo lường số dòng trung bình được viết bởi Cascade và được người dùng chủ động chấp nhận và giữ lại trong một khoảng thời gian cố định. Nó phản ánh mức độ hữu ích tổng thể, bao gồm chất lượng đóng góp và sự sẵn lòng của người dùng trong việc tương tác lặp lại với mô hình. Các yếu tố như tính chủ động, chất lượng gợi ý, tốc độ và khả năng phản hồi phản hồi đóng góp vào chỉ số này.
Tỷ lệ đóng góp của Cascade: Đối với các tệp được Cascade chỉnh sửa ít nhất một lần, chỉ số này tính toán tỷ lệ phần trăm thay đổi được thực hiện đối với các tệp đó có nguồn gốc từ Cascade. Nó đo lường tính hữu ích trong khi chuẩn hóa theo tần suất tương tác của người dùng và xu hướng đóng góp code của mô hình.

Windsurf lưu ý rằng SWE-1 được "xây dựng và tối ưu hóa quá mức cho các loại tương tác mà người dùng của chúng tôi có với Cascade". Không ngạc nhiên, nó dường như gần đạt mức dẫn đầu ngành trong các thử nghiệm sản xuất này, nhấn mạnh hiệu quả của nó trong môi trường Windsurf thực tế.

Cách tiếp cận nghiêm ngặt tương tự xác nhận rằng SWE-1-lite, được xây dựng với cùng phương pháp huấn luyện, dẫn đầu các mô hình cỡ trung không phải là tiên phong khác và sẽ thay thế Cascade Base. SWE-1-mini, cũng chia sẻ các nguyên tắc huấn luyện cốt lõi, được tối ưu hóa cho yêu cầu về độ trễ của dự đoán thụ động.

Động cơ: Hệ thống Nhận biết Luồng của Windsurf

Một nền tảng của việc phát triển và tiềm năng tương lai của SWE-1 là "Hệ thống Nhận biết Luồng" của Windsurf. Hệ thống này, được tích hợp sâu vào Windsurf Editor, đã cung cấp những hiểu biết quan trọng giúp SWE-1 ra đời và củng cố niềm tin của Windsurf vào sự vượt trội lâu dài của mô hình của mình.

Định nghĩa Nhận biết Luồng

Nhận biết luồng đề cập đến sự đan xen liền mạch giữa trạng thái của người dùng và AI. Nó được xây dựng dựa trên nguyên tắc "dòng thời gian chia sẻ": bất kỳ điều gì AI làm đều có thể quan sát và hành động được bởi con người, và ngược lại, bất kỳ điều gì con người làm đều có thể quan sát và hành động được bởi AI. Windsurf luôn gọi trải nghiệm tác nhân cộng tác của mình là "luồng AI" chính xác là vì sự nhận biết sâu sắc, tương hỗ này.

Vai trò Quan trọng của Nhận biết Luồng

Windsurf cho rằng sẽ mất một thời gian nữa trước khi bất kỳ mô hình SWE nào có thể thực sự hoạt động hoàn toàn độc lập. Trong giai đoạn trung gian này, nhận biết luồng là rất quan trọng. Nó cho phép một mô hình tương tác tự nhiên và hiệu quả: AI thử thực hiện các tác vụ, và ở những chỗ nó mắc lỗi hoặc cần hướng dẫn, con người có thể liền mạch can thiệp để điều chỉnh. Mô hình sau đó tiếp tục, xây dựng dựa trên đầu vào của con người.

Mối quan hệ cộng sinh này có nghĩa là Windsurf có thể liên tục đo lường giới hạn thực sự của các mô hình của mình bằng cách quan sát những bước nào được hoàn thành có và không có sự can thiệp của người dùng trong dòng thời gian chia sẻ này. Điều này cung cấp, ở quy mô lớn, kiến thức chính xác về những gì người dùng cần cải thiện tiếp theo, tạo ra một vòng phản hồi mạnh mẽ cho việc phát triển mô hình nhanh chóng.

Nhận biết Luồng trong Thực tế

Khái niệm dòng thời gian chia sẻ đã là tầm nhìn hướng dẫn cho nhiều tính năng chính trong toàn bộ hệ sinh thái Windsurf:

Cascade:

Ngay từ khi ra mắt, Cascade đã cho phép người dùng thực hiện chỉnh sửa trong trình soạn thảo văn bản của họ và sau đó gõ "continue" (tiếp tục), với Cascade tự động kết hợp những thay đổi đó (nhận biết về trình soạn thảo văn bản).
Các đầu ra terminal đã được tích hợp, giúp Cascade nhận biết các lỗi gặp phải trong quá trình thực thi code (nhận biết về terminal).
Wave 4 giới thiệu "Previews" (Xem trước), giúp Cascade có hiểu biết cơ bản về các thành phần frontend hoặc lỗi mà người dùng đang tương tác (nhận biết về trình duyệt).

Tab:

Windsurf Tab cũng được xây dựng trên dòng thời gian chia sẻ này. Ngữ cảnh của nó không chỉ được mở rộng một cách tùy tiện; đó là một cấu trúc được xây dựng cẩn thận phản ánh hành động và mục tiêu của người dùng.
Wave 5 mang đến khả năng nhận biết các lệnh terminal, nội dung clipboard và cuộc hội thoại Cascade hiện tại cho Tab.
Wave 6 bổ sung khả năng nhận biết các tìm kiếm của người dùng trong IDE.

Windsurf nhấn mạnh rằng đây không phải là về "các tính năng ngẫu nhiên" mà là một nỗ lực có chủ đích, liên tục để xây dựng biểu diễn phong phú nhất có thể về dòng thời gian chia sẻ cho công việc kỹ thuật phần mềm. Trong khi dòng thời gian được làm giàu này đã cải thiện đáng kể các công cụ của Windsurf ngay cả với các mô hình sẵn có, sự ra đời của các mô hình SWE của riêng họ cho phép họ "thực sự khởi động vòng quay này của việc có các mô hình có thể tiếp nhận dòng thời gian và bắt đầu hành động trên ngày càng nhiều phần của dòng thời gian".

Con đường phía trước: Vượt ra ngoài SWE-1

SWE-1, đạt được bởi một "đội ngũ nhỏ nhưng cực kỳ tập trung", chỉ là sự khởi đầu. Windsurf xem đây là nỗ lực nghiêm túc đầu tiên của họ để xây dựng các mô hình chất lượng thực sự tiên phong, tận dụng "vòng quay ứng dụng, hệ thống và mô hình" độc đáo của họ—một hệ sinh thái mà ngay cả các phòng thí nghiệm mô hình nền tảng cũng có thể thiếu nếu không có bề mặt ứng dụng và quy mô hiểu biết từ hoạt động của Windsurf.

Người dùng có thể mong đợi những cải tiến liên tục cho bộ mô hình SWE. Windsurf cam kết đầu tư mạnh mẽ hơn nữa vào chiến lược này, nhằm mục đích cung cấp hiệu suất tốt nhất với chi phí thấp nhất. Tham vọng cuối cùng của họ trong lĩnh vực kỹ thuật phần mềm không chỉ đơn thuần là ngang bằng hiệu suất mô hình tiên phong của bất kỳ phòng thí nghiệm nghiên cứu nào, mà là "vượt qua tất cả".

Trong khi thông báo chi tiết từ Windsurf tập trung vào chiến lược và thành tựu nội bộ của họ, ngành công nghiệp công nghệ rộng lớn hơn cũng đã ghi nhận sự tiến bộ của họ, với các báo cáo (như báo cáo từ VentureBeat liên quan đến khả năng OpenAI mua lại) làm nổi bật tác động và tiềm năng đáng kể của Windsurf.

Việc tìm hiểu sâu về SWE-1 này cho thấy một công ty không chỉ xây dựng các công cụ AI, mà còn cơ bản suy nghĩ lại mối quan hệ giữa nhà phát triển và AI, mở đường cho một tương lai nơi kỹ thuật phần mềm được tăng tốc và nâng cao đáng kể.