Mô hình AI viết code giá rẻ đánh bại Composer 2 Opus 4.6 và GPT-5.4

Cursor đã gây chấn động vào ngày 19 tháng 3 năm 2026. Mô hình Composer 2 mới của họ không chỉ sánh ngang Claude Opus 4.6 và GPT-5.4 trên các điểm chuẩn về mã hóa—mà còn vượt qua cả hai.

Những con số này kể một câu chuyện đáng kinh ngạc: 61.7 trên Terminal-Bench 2.0. 73.7 trên SWE-bench Multilingual. Một bước nhảy vọt 17 điểm so với phiên bản trước. Và họ đang định giá nó chỉ bằng khoảng một phần ba so với mức các đối thủ cạnh tranh đang tính phí.

Nếu những tuyên bố này được xác thực qua kiểm tra độc lập, thì bối cảnh mã hóa AI vừa thay đổi dưới chân chúng ta.

Đây là tất cả những gì bạn cần biết về Composer 2, tại sao các điểm chuẩn lại quan trọng và điều này có ý nghĩa gì đối với bộ công cụ phát triển của bạn.

Các Điểm Chuẩn Khiến Mọi Người Bàn Tán

Thông báo của Cursor tập trung vào ba điểm chuẩn độc quyền và tiêu chuẩn ngành. Kết quả cho thấy Composer 2 vượt trội so với cả phiên bản trước và các mô hình tiên tiến của đối thủ cạnh tranh:

*Điểm so sánh gần đúng dựa trên thử nghiệm cơ sở hạ tầng của Cursor

Bước nhảy vọt từ Composer 1.5 lên Composer 2 thể hiện sự cải thiện lớn nhất trong một thế hệ mà Cursor từng đạt được. Mười bảy điểm trên CursorBench. Gần 8 điểm trên SWE-bench. Đây không phải là những cải tiến nhỏ giọt—mà là những bước nhảy vọt mà bạn thường chỉ thấy vài năm một lần, chứ không phải giữa các bản cập nhật phiên bản nhỏ.

Cursor cho rằng sự cải thiện này là nhờ vào lần tiền huấn luyện tiếp tục đầu tiên của họ. Điều này tạo ra một nền tảng vững chắc hơn cho quá trình học tăng cường tiếp theo, cho phép mô hình xử lý các tác vụ mã hóa đòi hỏi hàng trăm hành động tuần tự mà không bị mất ngữ cảnh.

Chiến Lược Giá Thay Đổi Mọi Thứ

Hiệu suất điểm chuẩn thu hút sự chú ý. Giá cả giành chiến thắng trên thị trường.

Cấu trúc giá của Composer 2:

Biến thể Tiêu chuẩn: $0.50 cho mỗi triệu token đầu vào, $2.50 cho mỗi triệu token đầu ra
Biến thể Nhanh: $1.50 cho mỗi triệu token đầu vào, $7.50 cho mỗi triệu token đầu ra

Biến thể nhanh mang lại cùng mức độ thông minh với độ trễ thấp hơn. Cursor rõ ràng định vị nó rẻ hơn so với các mô hình “nhanh” của đối thủ cạnh tranh trong khi vẫn duy trì cùng cấp độ hiệu suất.

Để dễ hình dung, đây là cách tính toán cho một nhóm tạo ra 10 triệu token đầu ra mỗi tháng:

Mô hình	Chi phí hàng tháng
Composer 2	~$25
Claude Opus 4.6	~$75-150
GPT-5.4	~$60-120

Đây là các so sánh gần đúng dựa trên giá công bố từ Anthropic và OpenAI. Chi phí thực tế thay đổi tùy theo mô hình sử dụng và thỏa thuận doanh nghiệp. Nhưng xu hướng đã rõ ràng: Cursor đang cạnh tranh với mức giá thấp hơn đáng kể so với đối thủ.

Phân Tích Terminal-Bench 2.0

Terminal-Bench 2.0 không chỉ là một điểm chuẩn mã hóa thông thường. Nó kiểm tra xem một AI có thể hoàn thành các tác vụ đầu cuối và mã hóa trong thế giới thực một cách tự chủ hay không—không cần hướng dẫn, không cần từng bước một.

Điểm chuẩn này được duy trì bởi Viện Laude và sử dụng các công cụ đánh giá khác nhau cho các dòng mô hình khác nhau:

Các mô hình Anthropic: Được đánh giá bằng công cụ Claude Code
Các mô hình OpenAI: Được đánh giá bằng công cụ Simple Codex
Các mô hình Cursor: Được đánh giá bằng khung đánh giá Harbor (công cụ được chỉ định chính thức cho Terminal-Bench 2.0)

Cursor đã chạy 5 lần lặp cho mỗi cặp mô hình-tác nhân và báo cáo điểm trung bình. Điểm chuẩn tập trung vào hành vi của tác nhân: liệu AI có thể điều hướng một codebase xa lạ, thực hiện các lệnh đầu cuối, gỡ lỗi các thất bại và hoàn thành các tác vụ nhiều bước mà không cần sự can thiệp của con người không?

Điểm số 61.7 có nghĩa là Composer 2 đã hoàn thành thành công khoảng 62% các tác vụ mà nó đã thử. Con số đó có thể không quá ấn tượng cho đến khi bạn so sánh nó với đối thủ cạnh tranh—và với chính phiên bản Composer trước đó.

SWE-bench Multilingual: Thử Nghiệm Trong Thế Giới Thực

SWE-bench đánh giá khả năng của một AI trong việc giải quyết các vấn đề GitHub thực tế trên nhiều ngôn ngữ lập trình. Đây không phải là dữ liệu thử nghiệm tổng hợp. Đây là các lỗi thực, yêu cầu tính năng thực và các codebase thực.

Điểm số 73.7 có nghĩa là Composer 2 đã giải quyết thành công khoảng 74% các vấn đề mà nó đã thử. Để so sánh, Composer 1 đạt 56.9% trên cùng một điểm chuẩn. Đó là sự cải thiện 17 điểm trong khả năng của mô hình để hiểu, sửa chữa và xác minh các thay đổi mã trong thế giới thực.

Điểm chuẩn này quan trọng vì nó kiểm tra khả năng giải quyết vấn đề, chứ không chỉ hoàn thành mã. AI cần phải:

Phân tích mô tả vấn đề (thường mơ hồ hoặc không đầy đủ)
Xác định vị trí các tệp liên quan trong một codebase
Hiểu cấu trúc mã hiện có
Thực hiện các sửa chữa có mục tiêu mà không làm hỏng các chức năng khác
Xác minh các thay đổi hoạt động như dự định

Hầu hết các trợ lý mã hóa xuất sắc ở bước 4—tạo ra các đoạn mã. Điểm số của Composer 2 cho thấy nó đã cải thiện đáng kể ở các bước 1, 2, 3 và 5.

Cách Cursor Xây Dựng Một Mô Hình Vượt Trội Về Điểm Chuẩn

Câu chuyện kỹ thuật đằng sau Composer 2 bao gồm hai giai đoạn chính:

Giai Đoạn 1: Tiền Huấn Luyện Liên Tục

Cursor đã lấy mô hình cơ bản của họ và tiếp tục huấn luyện nó trên dữ liệu mã bổ sung. Đây không giống với quá trình tiền huấn luyện ban đầu đã tạo ra mô hình cơ bản. Thay vào đó, đó là một quy trình tinh chỉnh có mục tiêu nhằm củng cố sự hiểu biết của mô hình về các mẫu mã, API và quy trình làm việc phát triển.

Hãy hình dung nó giống như một kỳ thực tập nội trú y tế. Mô hình đã có bằng bác sĩ (quá trình tiền huấn luyện cơ bản). Tiền huấn luyện liên tục là chuyên khoa sâu giúp nó trở thành chuyên gia trong một lĩnh vực.

Giai Đoạn 2: Học Tăng Cường Trên Các Tác Vụ Dài Hạn

Từ nền tảng được củng cố, Cursor áp dụng học tăng cường đặc biệt cho các tác vụ mã hóa dài hạn. Đây là những tác vụ đòi hỏi hàng trăm hành động tuần tự—tái cấu trúc một module lớn, di chuyển toàn bộ codebase sang một API mới, hoặc gỡ lỗi một vấn đề tích hợp phức tạp.

Quá trình học tăng cường hoạt động như sau:

Mô hình thử một tác vụ dài hạn
Nó nhận phản hồi về việc tác vụ có thành công hay không
Qua hàng nghìn lần lặp, nó học được những chuỗi hành động nào dẫn đến thành công

Cách tiếp cận này phản ánh cách Anthropic và OpenAI đã thảo luận về việc phát triển mô hình của riêng họ. Điểm khác biệt: Cursor đang huấn luyện đặc biệt trên các tác vụ mã hóa với các chuỗi hành động mở rộng, không phải suy luận tổng quát hay tương tác trò chuyện.

button

Điều Này Có Ý Nghĩa Gì Đối Với Các Nhóm Phát Triển

Nếu Composer 2 thực hiện được những tuyên bố về điểm chuẩn này trong quá trình sử dụng hàng ngày, một số thay đổi có thể xảy ra trong toàn ngành.

1. Hợp Nhất Các Công Cụ Mã Hóa AI

Nhiều nhóm hiện đang sử dụng nhiều công cụ AI—một cho hoàn thành mã, một cho tái cấu trúc, một cho gỡ lỗi, một cho đánh giá mã. Hiệu suất điểm chuẩn của Composer 2 cho thấy nó có thể xử lý tất cả các tác vụ này ở cấp độ tiên tiến.

Hãy kỳ vọng các nhóm sẽ hợp nhất quanh ít công cụ hơn. Chi phí nhận thức khi chuyển đổi ngữ cảnh giữa các trợ lý AI khác nhau sẽ tăng lên. Một mô hình duy nhất hoạt động tốt trên tất cả các tác vụ sẽ giảm bớt sự khó khăn đó.

2. Chi Phí Trở Thành Yếu Tố Quyết Định Chính

Với mức 0.50 đô la cho mỗi triệu token đầu vào, Composer 2 có giá thấp hơn hầu hết các giải pháp mã hóa AI cấp doanh nghiệp. Đối với các nhóm có khối lượng sử dụng lớn—những nhóm tạo ra hàng triệu token mỗi ngày—mức giá này có thể khiến họ chuyển đổi từ các nhà cung cấp hiện tại.

Biến thể nhanh bổ sung một khía cạnh khác. Các nhóm cần phản hồi độ trễ thấp (lập trình cặp đôi, đánh giá mã thời gian thực) có thể trả nhiều hơn để có tốc độ. Các nhóm ưu tiên chi phí hơn độ trễ có thể sử dụng biến thể tiêu chuẩn. Cả hai đều có cùng trí thông minh cơ bản.

3. Sự Hoài Nghi Về Điểm Chuẩn Vẫn Là Lành Mạnh

Phương pháp điểm chuẩn của Cursor bao gồm một chi tiết quan trọng: họ đã lấy “điểm số cao nhất giữa điểm số bảng xếp hạng chính thức và điểm số ghi nhận khi chạy trong cơ sở hạ tầng của chúng tôi” đối với các mô hình không phải Composer.

Cách tiếp cận này có lý do hợp lý—sự khác biệt về cơ sở hạ tầng có thể ảnh hưởng đến điểm số. Nhưng điều đó cũng có nghĩa là các so sánh của Cursor chưa được xác thực độc lập. Các nhóm nên thử nghiệm Composer 2 trên các codebase thực tế của họ trước khi đưa ra các quyết định quy mô doanh nghiệp.

Các điểm chuẩn hướng dẫn quyết định. Thử nghiệm trong thế giới thực xác nhận chúng.

Phản Ứng Cạnh Tranh Mà Không Ai Nói Đến

Khi một người chơi thay đổi thị trường, những người khác sẽ phản ứng. Thông báo của Cursor tạo áp lực lên ba nhóm:

Anthropic đã xây dựng danh tiếng nhà phát triển của họ dựa trên khả năng mã hóa của Claude. Việc Composer 2 đánh bại Opus 4.6 trên các điểm chuẩn mã hóa thách thức vị thế đó. Hãy kỳ vọng Anthropic sẽ phát hành các điểm chuẩn cập nhật hoặc công bố các cải tiến tập trung vào mã hóa của riêng họ.

OpenAI đã đối mặt với những lời chỉ trích về hiệu suất mã hóa của GPT-5.4 so với các phiên bản tiền nhiệm. Những cải tiến của Composer 2 làm gia tăng áp lực. OpenAI có thể đẩy nhanh quá trình phát triển mô hình mã hóa của riêng họ hoặc điều chỉnh giá để duy trì tính cạnh tranh.

GitHub Copilot và các công cụ tích hợp IDE khác đối mặt với một thách thức khác. Cursor không chỉ là một mô hình—mà còn là một IDE với trợ lý AI được tích hợp chặt chẽ. Sự kết hợp giữa hiệu suất mô hình và tích hợp IDE tạo ra một rào cản mà các nhà cung cấp API thuần túy không thể dễ dàng vượt qua.

Apidog Đóng Vai Trò Gì Trong Cuộc Cách Mạng Mã Hóa AI

Các công cụ mã hóa AI như Cursor xuất sắc trong việc tạo và sửa đổi mã. Viết một hàm, tái cấu trúc một module, gỡ lỗi một bài kiểm tra thất bại—Composer 2 xử lý tốt các tác vụ này.

Nhưng phát triển API đòi hỏi nhiều hơn là chỉ tạo mã. Nó yêu cầu các quy trình kiểm thử, gỡ lỗi, mô phỏng và tài liệu mở rộng vượt ra ngoài những gì một trợ lý AI cung cấp.

Apidog xử lý toàn bộ vòng đời API:

Thiết kế API: Trình thiết kế trực quan hỗ trợ OpenAPI và quản lý phiên bản dựa trên nhánh. Thiết kế API của bạn trước khi viết mã triển khai.
Kiểm thử: Các kịch bản kiểm thử tự động với xác nhận trực quan và tích hợp CI/CD. Phát hiện lỗi hồi quy trước khi chúng đến môi trường sản xuất.
Gỡ lỗi: Các công cụ gỡ lỗi trực quan hiển thị luồng yêu cầu và phản hồi trong thời gian thực. Xem chính xác điều gì đang xảy ra trong các lệnh gọi API của bạn.
Mô phỏng (Mocking): Máy chủ mô phỏng thông minh với phản hồi động, không yêu cầu mã. Giải phóng phát triển frontend trước khi backend sẵn sàng.
Tài liệu: Tài liệu được tạo tự động, có thể tùy chỉnh với hỗ trợ tên miền tùy chỉnh. Giữ tài liệu đồng bộ với hành vi API thực tế của bạn.

Các nhóm sử dụng Cursor để tạo mã có thể kết hợp nó với Apidog để quản lý quy trình làm việc API. AI viết mã. Apidog đảm bảo API hoạt động như dự định, luôn được kiểm thử và duy trì tài liệu.

Kết Luận

Cursor Composer 2 đại diện cho một bước nhảy vọt đáng kể trong khả năng mã hóa AI. Các cải tiến điểm chuẩn là đáng kể. Chính sách giá rất cạnh tranh. Và những ý nghĩa đối với các nhóm phát triển là rất thực tế.

Nhưng điểm chuẩn không phải là mã có thể vận hành. Các nhóm nên thử nghiệm Composer 2 trên các codebase thực tế của họ, với quy trình làm việc thực tế của họ, trước khi đưa ra quyết định. Mô hình chiến thắng trên lý thuyết không phải lúc nào cũng chiến thắng trong thực tế.

Tóm Tắt

Composer 2 đạt 61.7 điểm trên Terminal-Bench 2.0 và 73.7 trên SWE-bench Multilingual—vượt trội so với cả Claude Opus 4.6 và GPT-5.4 trong các đánh giá của Cursor
Giá bắt đầu từ 0.50 đô la cho mỗi triệu token đầu vào—khoảng một phần ba so với các mô hình tiên tiến của đối thủ
Các cải tiến đến từ quá trình tiền huấn luyện liên tục cộng với học tăng cường trên các tác vụ mã hóa dài hạn
Biến thể nhanh có sẵn với giá 1.50 đô la cho mỗi triệu token đầu vào, với cùng trí thông minh, độ trễ thấp hơn
Xác thực độc lập là quan trọng—hãy kiểm thử trên codebase của bạn trước khi áp dụng trong doanh nghiệp
Apidog bổ trợ các công cụ mã hóa AI bằng cách xử lý việc kiểm thử API, gỡ lỗi, mô phỏng và tài liệu

Câu Hỏi Thường Gặp

Composer 2 có thực sự tốt hơn Claude Opus 4.6 cho việc mã hóa không?

Các điểm chuẩn của Cursor cho thấy Composer 2 vượt trội hơn Opus 4.6 trên Terminal-Bench 2.0 và SWE-bench Multilingual. Biên độ: khoảng 2-3 điểm trên mỗi điểm chuẩn. Đây là những khác biệt có ý nghĩa, nhưng không quá lớn.

Hiệu suất trong thế giới thực phụ thuộc vào trường hợp sử dụng cụ thể của bạn. Hoàn thành mã, tái cấu trúc, gỡ lỗi và các quyết định kiến trúc đều kiểm tra các khả năng khác nhau. Một mô hình chiến thắng trên điểm chuẩn có thể không chiến thắng trên codebase của bạn.

Hãy thử nghiệm cả hai công cụ trên công việc thực tế của bạn trước khi đưa ra quyết định.

Sự khác biệt giữa biến thể tiêu chuẩn và biến thể nhanh của Composer 2 là gì?

Cả hai biến thể đều có trí thông minh và điểm chuẩn giống hệt nhau. Biến thể nhanh đánh đổi chi phí cao hơn để có độ trễ thấp hơn—nhiều token hơn mỗi giây, phản hồi nhanh hơn.

Cursor báo cáo các chỉ số tốc độ từ ảnh chụp lưu lượng truy cập ngày 18 tháng 3 năm 2026, được chuẩn hóa để tính đến sự khác biệt về kích thước token giữa các nhà cung cấp. Token của Anthropic nhỏ hơn khoảng 15 phần trăm, vì vậy Cursor đã điều chỉnh so sánh cho phù hợp.

Các nhóm ưu tiên tương tác thời gian thực (lập trình cặp đôi, đánh giá mã trực tiếp) nên xem xét biến thể nhanh. Các nhóm ưu tiên chi phí nên sử dụng Composer 2 tiêu chuẩn.

Giá của Composer 2 so với các đối thủ cạnh tranh như thế nào?

Với mức 0.50 đô la cho mỗi triệu token đầu vào và 2.50 đô la cho mỗi triệu token đầu ra, Composer 2 có giá thấp hơn hầu hết các giải pháp mã hóa AI cấp doanh nghiệp.

Để so sánh sơ bộ:

Anthropic Claude Opus 4.6: Khoảng 1.50-3.00 đô la cho mỗi triệu token đầu vào, 7.50-15.00 đô la cho mỗi triệu token đầu ra (thay đổi tùy theo cấp độ)
OpenAI GPT-5.4: Khoảng 1.00-2.00 đô la cho mỗi triệu token đầu vào, 5.00-10.00 đô la cho mỗi triệu token đầu ra (thay đổi tùy theo cấp độ)

Các nhóm có mức sử dụng cao nên tính toán tổng chi phí dựa trên các mẫu tiêu thụ token cụ thể của họ. Các tác vụ nặng về đầu vào (phân tích codebase lớn) hưởng lợi nhiều hơn từ giá đầu vào của Composer 2. Các tác vụ nặng về đầu ra (tạo mã) hưởng lợi từ cả giá đầu vào và đầu ra.

Tôi có nên chuyển từ công cụ mã hóa AI hiện tại của mình không?

Nếu bạn đã làm việc hiệu quả với một công cụ khác, thì việc cải thiện điểm chuẩn đơn thuần có thể không đủ để bạn chuyển đổi. Hãy cân nhắc:

Tích hợp quy trình làm việc hiện tại: Công cụ hiện có của bạn được tích hợp sâu đến mức nào vào quy trình làm việc của bạn?
Sự quen thuộc của nhóm: Nhóm của bạn đã tích lũy được bao nhiêu kiến thức chuyên môn xung quanh công cụ hiện tại của bạn?
Các khoảng trống hiệu suất cụ thể: Có những tác vụ nào mà công cụ hiện tại của bạn liên tục không đạt yêu cầu không?
Tổng chi phí ở khối lượng sử dụng của bạn: Sự khác biệt về chi phí hàng tháng thực tế là bao nhiêu?

Hãy thử nghiệm Composer 2 trên codebase thực tế của bạn trong một tuần. So sánh trực tiếp nó với công cụ hiện tại của bạn trên các tác vụ bạn làm hàng ngày. Hãy để hiệu suất thực tế định hướng quyết định.

Tôi có thể sử dụng Cursor và Apidog cùng nhau không?

Có. Cursor xử lý việc tạo và sửa đổi mã được AI hỗ trợ. Apidog quản lý vòng đời phát triển API—thiết kế, kiểm thử, gỡ lỗi, mô phỏng và tài liệu.

Quy trình làm việc phổ biến:

Sử dụng Cursor để tạo mã điểm cuối API
Nhập định nghĩa API vào Apidog
Sử dụng Apidog để thiết kế các kịch bản kiểm thử và chạy các bài kiểm thử tự động
Gỡ lỗi mọi vấn đề bằng các công cụ gỡ lỗi trực quan của Apidog
Tạo và xuất bản tài liệu từ Apidog

Các nhóm thường sử dụng các công cụ AI để tạo mã, sau đó dựa vào Apidog để xác thực, kiểm thử và lập tài liệu cho các API được tạo ra.

Có gì đáng ngờ? Tại sao Composer 2 lại rẻ hơn nhiều như vậy?

Không có điều gì đáng ngờ rõ ràng. Cursor dường như đang theo đuổi chiến lược chiếm thị phần: giành thị phần thông qua việc định giá cạnh tranh trong khi lợi thế kỹ thuật của họ vẫn còn.

Chiến lược này có ý nghĩa vì một vài lý do:

Tích hợp theo chiều dọc: Cursor kiểm soát cả IDE và mô hình, giảm sự phụ thuộc vào các API của bên thứ ba
Dữ liệu sử dụng: Nhiều người dùng hơn có nghĩa là có nhiều dữ liệu hơn để cải thiện các mô hình trong tương lai
Tiềm năng ràng buộc: Các nhóm xây dựng quy trình làm việc xung quanh Cursor ít có khả năng chuyển đổi khi các đối thủ cạnh tranh phản ứng

Mức giá này sẽ không tồn tại mãi mãi. Các đối thủ cạnh tranh sẽ phản ứng. Nhưng hiện tại, những người dùng sớm có thể tận dụng khoản tiết kiệm chi phí đáng kể.

Làm cách nào để tôi xác minh độc lập các tuyên bố điểm chuẩn của Cursor?

Terminal-Bench 2.0 duy trì một bảng xếp hạng công khai trên trang web chính thức của họ. Bạn có thể so sánh các điểm số mà Cursor báo cáo với các mô hình khác.

Để xác thực độc lập:

Kiểm tra bảng xếp hạng Terminal-Bench 2.0 để biết điểm số chính thức
Xem lại tài liệu phương pháp luận của Viện Laude
Thử nghiệm Composer 2 trên codebase của riêng bạn với tiêu chí đánh giá của riêng bạn

Các điểm chuẩn hướng dẫn quyết định. Thử nghiệm trong thế giới thực xác nhận chúng.