Ba bản phát hành thuộc phân khúc tiên tiến đã được ra mắt trong 33 ngày qua. Claude Opus 4.7 của Anthropic ra mắt vào ngày 16 tháng 4. GPT-5.5 của OpenAI tiếp nối vào ngày 23 tháng 4. Gemini 3.5 Flash của Google đã được xuất xưởng vào ngày 19 tháng 5, với phiên bản Pro sẽ ra mắt vào tháng 6.
Điều đáng nói ngay từ đầu: đây là một so sánh không đồng hạng. Opus 4.7 và GPT-5.5 là các mô hình hàng đầu với mức giá hàng đầu. Flash là biến thể nhanh, chi phí thấp của Google, có giá chỉ bằng một phần nhỏ của hai mô hình kia. Câu hỏi thú vị là liệu Flash có thể cạnh tranh được khi đặt cạnh các mô hình có giá cao hơn 5–10 lần trên mỗi token hay không.
Câu trả lời ngắn gọn: Flash vượt xa phân khúc của nó. Nó chiến thắng về chi phí, tốc độ và một số điểm chuẩn tác nhân. Nó thua trong các nhiệm vụ mã hóa khó nhất và chất lượng viết. Mấu chốt là phải khớp mô hình với khối lượng công việc.
Câu trả lời trong 30 giây
| Câu hỏi | Lựa chọn tốt nhất |
|---|---|
| Vòng lặp tác nhân sản xuất rẻ nhất | Gemini 3.5 Flash |
| Điểm cao nhất về sửa lỗi đã xác minh trên SWE-Bench | Opus 4.7 |
| Hiệu quả token nhất ở quy mô lớn | GPT-5.5 |
| Truy xuất ngữ cảnh dài tốt nhất (1M token) | Gemini 3.5 Flash |
| Hiểu biểu đồ và tài liệu tốt nhất | Gemini 3.5 Flash |
| Tác nhân CLI theo dõi dài tốt nhất | GPT-5.5 (Terminal-Bench 2.0) |
| Thực hiện hướng dẫn đa bước tốt nhất | Opus 4.7 |
| Tốc độ xuất token nhanh nhất | Gemini 3.5 Flash (~4 lần so với các mô hình khác) |
| Tái cấu trúc mã toàn bộ kho lưu trữ tốt nhất | Opus 4.7 |
Không có người chiến thắng duy nhất. Hãy đọc tiếp để biết phân tích chi tiết theo từng khối lượng công việc.
Lịch sử phát hành
Các mô hình được phát hành gần nhau nhưng với định vị khác nhau:
- Opus 4.7, ngày 16 tháng 4 năm 2026. Mô hình suy luận hàng đầu của Anthropic, được tối ưu hóa cho mã và công việc đa bước mở rộng. Phân khúc hàng đầu.
- GPT-5.5, ngày 23 tháng 4 năm 2026. Mô hình cơ sở được đào tạo lại hoàn toàn đầu tiên của OpenAI kể từ GPT-4.5. Trọng tâm: hiệu quả tác nhân và giảm chi phí token. Phân khúc hàng đầu.
- Gemini 3.5 Flash, ngày 19 tháng 5 năm 2026. Biến thể nhanh của Google thuộc dòng 3.5. Trọng tâm: thực thi tác nhân với chi phí thấp và tốc độ cao. Phân khúc tầm trung. Gemini 3.5 Pro (phân khúc hàng đầu) sẽ ra mắt vào tháng 6 năm 2026.
Mỗi bản phát hành là một bước tiến từ người tiền nhiệm đã không thể thu hẹp khoảng cách trong công việc tác nhân quy mô sản xuất. Xem bài viết trước đây của chúng tôi về Cursor Composer 2.5 so với Opus 4.7 so với GPT-5.5 để biết góc độ công cụ mã hóa, và bài đăng Gemini 3.1 Pro so với Opus 4.6 so với GPT-5.3 của chúng tôi để xem thế hệ trước đó đã cạnh tranh như thế nào.
So sánh giá cả
Đây là nơi sự không đồng hạng rõ ràng nhất:
| Mô hình | Đầu vào ($/1M) | Đầu ra ($/1M) | Ghi chú |
|---|---|---|---|
| Gemini 3.5 Flash | ~1,50 USD | ~9,00 USD | Có gói miễn phí |
| GPT-5.5 | ~10 USD | ~30 USD | Đầu vào được lưu trữ rẻ hơn |
| Claude Opus 4.7 | ~15 USD | ~75 USD | Giá niêm yết cao nhất |
Tính trên mỗi token, Flash rẻ hơn 6–10 lần cho đầu vào và 3–8 lần cho đầu ra. Để biết tính toán giá đầy đủ bao gồm chế độ hàng loạt và Vertex AI, hãy xem phân tích giá Gemini 3.5 Flash. Để biết chi tiết về GPT-5.5, xem giá GPT-5.5.
Đối với các khối lượng công việc tác nhân mà mô hình chạy hàng trăm lượt trên mỗi tác vụ, khoảng cách chi phí càng lớn. Tuyên bố của Google về "ít hơn một nửa chi phí so với các mô hình tiên tiến khác" là một so sánh giữa các mô hình hàng đầu; Flash cụ thể nằm dưới mức một nửa.
Hiệu quả token làm thay đổi phép toán theo hướng ngược lại. GPT-5.5 tạo ra ít token đầu ra hơn đáng kể cho cùng một tác vụ, đôi khi ít hơn 72% so với Opus 4.7. Điều đó phần nào thu hẹp khoảng cách trên mỗi tác vụ mặc dù tỷ lệ trên mỗi token cao hơn.
Điểm chuẩn mã hóa
Mã hóa là nơi ba mô hình này thể hiện rõ nhất sự cạnh tranh.

SWE-Bench Verified (sửa lỗi đơn lẻ đã xác minh)
| Mô hình | Điểm số |
|---|---|
| Opus 4.7 | 87,6% |
| GPT-5.5 | ~85% |
| Gemini 3.5 Flash | Chưa được báo cáo riêng |
Opus 4.7 vẫn dẫn đầu trong các điểm chuẩn sửa lỗi biệt lập. Khoảng cách với GPT-5.5 là vài phần trăm, có nghĩa là đối với hầu hết các tác vụ mã hóa một lần, cả hai đều cạnh tranh. Flash không công bố một con số tương đương, nhưng thử nghiệm không chính thức cho thấy nó xếp dưới cả hai mô hình hàng đầu trên SWE-Bench Verified thuần túy, điều này được mong đợi đối với một mô hình phân khúc nhanh.
SWE-Bench Pro (sửa lỗi phức tạp đa tệp)
| Mô hình | Điểm số |
|---|---|
| Opus 4.7 | 64,3% |
| GPT-5.5 | 58,6% |
| Gemini 3.5 Flash | Chưa được báo cáo riêng |
Tái cấu trúc đa tệp là điểm mạnh nhất của Opus 4.7. Nếu công cụ chính hàng ngày của bạn là Cursor Composer hoặc quy trình làm việc Claude Code thực hiện tái cấu trúc thực tế trên một kho lưu trữ, Opus là lựa chọn mặc định an toàn hơn. Flash sẽ giúp bạn hoàn thành hầu hết các thay đổi thông thường với chi phí thấp hơn nhiều.
Terminal-Bench 2.0/2.1 (vòng lặp tác nhân CLI)
| Mô hình | Điểm số | Điểm chuẩn |
|---|---|---|
| GPT-5.5 | 82,7% | Terminal-Bench 2.0 |
| Gemini 3.5 Flash | 76,2% | Terminal-Bench 2.1 |
| Opus 4.7 | 69,4% | Terminal-Bench 2.0 |
Hai bảng điểm khác nhau, 2.0 và 2.1 sử dụng các hỗn hợp tác vụ khác nhau. Kết luận: cả Flash và GPT-5.5 đều vượt trội hơn Opus trong các tác vụ tác nhân CLI chạy dài. GPT-5.5 vẫn dẫn đầu ở đây, nhưng Flash đã thu hẹp phần lớn khoảng cách, đồng thời có chi phí thấp hơn nhiều.
MCP Atlas (phối hợp đa công cụ)
Gemini 3.5 Flash: 83,6%. Đây là chỉ số chính của Google cho việc sử dụng công cụ tác nhân. OpenAI và Anthropic chưa công bố các con số tương đương trên cùng một điểm chuẩn, điều này khiến việc so sánh trực tiếp trở nên khó khăn. Theo giai thoại, cả ba đều đáng tin cậy trong các khối lượng công việc gọi công cụ vào năm 2026.
Công việc tác nhân và tầm nhìn dài hạn
Đối với các tác vụ chạy từ vài chục phút đến vài giờ mà không cần giám sát:
- Gemini 3.5 Flash: chiến thắng về giá trên mỗi tác vụ và tốc độ đầu ra. Điểm MCP Atlas (83,6%) và Terminal-Bench 2.1 (76,2%) cho thấy hành vi sử dụng công cụ nhất quán. Việc điều phối tác nhân phụ là hàng đầu.
- GPT-5.5: chiến thắng trên Terminal-Bench 2.0 (82,7%) và về hiệu quả token. Ít token đầu ra hơn trên mỗi tác vụ có nghĩa là độ biến thiên thấp hơn và chi phí vượt mức thấp hơn.
- Opus 4.7: chiến thắng về khả năng thực hiện hướng dẫn đa bước và chất lượng mã. Thua về tốc độ và giá cho các lần chạy rất dài do đầu ra dài dòng, theo kiểu tự sự.
Nếu bạn đang triển khai các tác nhân chạy liên tục như trong mẫu lệnh /goal với Codex và Claude Code, thì yếu tố kinh tế rất quan trọng. Flash thắng về chi phí; Opus thắng về chất lượng đầu ra trên mỗi lượt; GPT-5.5 thắng về tính kỷ luật token.
Cửa sổ ngữ cảnh và truy xuất ngữ cảnh dài
| Mô hình | Đầu vào tối đa | Đầu ra tối đa |
|---|---|---|
| Gemini 3.5 Flash | 1M token | 64K token |
| GPT-5.5 | 400K token | 128K token |
| Opus 4.7 | 1M token (beta) | 64K token |
Flash dẫn đầu bảng công bố của Google trên điểm chuẩn truy xuất MRCR v2 1M token. Điều đó khiến Flash trở thành lựa chọn rõ ràng nhất khi tác vụ là "tìm câu trả lời đúng trong PDF 200 trang" mà không cần chiến lược phân đoạn, đặc biệt là với phân khúc giá của nó.
Opus 4.7 phù hợp về kích thước cửa sổ thô nhưng kém hơn về tính nhất quán truy xuất ở mức cao. 400K của GPT-5.5 là rộng rãi nhưng thua Flash về quy mô thô.
Đối với các quy trình làm việc nặng về tài liệu, báo cáo dài, toàn bộ cơ sở mã, phân tích đa tài liệu, Flash là lựa chọn mặc định thực tế.
Đa phương thức
Flash dẫn đầu về khả năng suy luận biểu đồ và tài liệu:
- Suy luận CharXiv: 84,2% (Gemini 3.5 Flash)
- MMMU-Pro: 83,6% (Gemini 3.5 Flash)
OpenAI và Anthropic đều hỗ trợ đầu vào hình ảnh trên các mô hình hàng đầu của họ, nhưng không mô hình nào đạt được điểm suy luận biểu đồ của Flash vào ngày ra mắt. Đối với phân tích trực quan, trích xuất PDF hoặc các quy trình làm việc kết hợp văn bản và ảnh chụp màn hình, Flash là lựa chọn rõ ràng.
Nếu bạn đang định tuyến tạo hình ảnh như một phần của quy trình, hãy xem bài viết của chúng tôi về so sánh Gemini 3 Pro Image vs Seedream để lựa chọn mô hình bên đó.
Tốc độ đầu ra
Token mỗi giây quan trọng khi người dùng chờ đợi đầu ra streaming.
| Mô hình | Tốc độ đầu ra tương đối |
|---|---|
| Gemini 3.5 Flash | ~4 lần so với đường cơ sở |
| GPT-5.5 | đường cơ sở |
| Opus 4.7 | ~0,7 lần so với đường cơ sở |
Các con số khác nhau tùy theo khu vực và tải. Hướng nhất quán: Flash streaming nhanh hơn rõ rệt so với cả hai mô hình hàng đầu. Đối với giao diện người dùng trò chuyện và trợ lý mã hóa trực tiếp, sự cải thiện chất lượng cảm nhận từ streaming tức thì là có thật.
Suy luận, toán học và khoa học
| Điểm chuẩn | Flash | GPT-5.5 | Opus 4.7 |
|---|---|---|---|
| GPQA Diamond | Mạnh (theo bảng của Google) | Cao | Cao |
| Suy luận toán học | Mạnh | Mạnh | Mạnh |
| Viết dài | Tốt | Tốt | Tốt nhất |
Hàng này rất sát sao ở đầu bảng xếp hạng, nhưng có một lưu ý: Flash vẫn giữ vững phong độ ở đây mặc dù là mô hình phân khúc nhanh. Opus vẫn có giọng văn tường thuật mạnh nhất. Hai mô hình còn lại đã bắt kịp về khả năng suy luận thô.
Hệ sinh thái công cụ và tích hợp
- Opus 4.7: Claude Code, MCP, Anthropic API, hệ sinh thái công cụ trưởng thành, Bitwarden Agent và hỗ trợ IDE rộng rãi
- GPT-5.5: OpenAI Codex, Responses API, tích hợp ứng dụng ChatGPT. Gọi hàm có lịch sử lâu đời nhất
- Gemini 3.5 Flash: Antigravity, Nền tảng tác nhân doanh nghiệp Gemini, Gemini CLI, tích hợp Android Studio, đang phát triển nhanh chóng
Anthropic có hệ sinh thái bộ điều hợp bên thứ ba sâu rộng nhất. OpenAI có mức độ chấp nhận của nhà phát triển rộng nhất. Google đang bắt kịp nhanh chóng với Antigravity và Nền tảng tác nhân nhưng bắt đầu từ một cơ sở bên thứ ba nhỏ hơn.
Khi nào nên chọn mô hình nào
Tạm bỏ qua các điểm chuẩn và xem xét các khối lượng công việc.
Chọn Gemini 3.5 Flash khi:
- Bạn có ngân sách chặt chẽ trên mỗi tác vụ
- Tốc độ đầu ra trong giao diện người dùng streaming là quan trọng
- Bạn đang xử lý các tài liệu dài (1M token)
- Tác vụ liên quan đến biểu đồ, PDF, ảnh chụp màn hình
- Bạn muốn một vòng lặp tác nhân đáng tin cậy ở phân khúc giá thấp nhất
- Bạn đã ở trong hệ sinh thái Google Cloud hoặc Workspace
- Khối lượng công việc lớn và "đủ tốt" quan trọng hơn "hoàn hảo"
Chọn GPT-5.5 khi:
- Hiệu quả token là ưu tiên (bạn trả tiền trên mỗi triệu)
- Tác vụ là công việc tác nhân dựa trên CLI (dẫn đầu Terminal-Bench)
- Bạn muốn thư viện bộ điều hợp công cụ bên thứ ba rộng nhất
- ChatGPT đã có trong quy trình làm việc của nhóm của bạn
- Xem thiết lập đầy đủ trong Cách sử dụng API GPT-5.5
Chọn Opus 4.7 khi:
- Tác vụ là tái cấu trúc mã đa tệp hoặc thay đổi toàn bộ kho lưu trữ (dẫn đầu SWE-Bench Pro)
- Chất lượng thực hiện hướng dẫn đa bước quan trọng hơn tốc độ
- Viết dài hoặc đầu ra tường thuật cẩn thận là sản phẩm bàn giao
- Bạn đã sử dụng Claude Code với gói Claude
- Chi phí trên mỗi tác vụ không phải là hạn chế ràng buộc
Chọn kết hợp khi:
Hầu hết các stack sản xuất cuối cùng sẽ chạy hai trong số này. Các mẫu phổ biến:
- Flash để truy xuất và chuẩn bị, Opus cho cam kết cuối cùng: công việc nặng ngữ cảnh rẻ tiền cung cấp các đầu vào phù hợp cho mô hình đắt tiền
- GPT-5.5 cho vòng lặp tác nhân CLI, Flash để phân tích biểu đồ/tài liệu: mỗi cái làm tốt nhất nhiệm vụ của nó
- Flash cho 80% lưu lượng truy cập, Opus hoặc GPT-5.5 cho 20% khó khăn: định tuyến theo độ phức tạp của tác vụ
- Cả ba đều nằm sau một bộ định tuyến rẻ tiền chọn dựa trên loại tác vụ
So sánh gói miễn phí
Cả ba đều có một con đường miễn phí:
- Gemini 3.5 Flash: Khóa API AI Studio, ~1.500 yêu cầu/ngày. Xem hướng dẫn miễn phí Flash của chúng tôi
- GPT-5.5: các truy vấn miễn phí có giới hạn trong ChatGPT, cộng với các cổng được đề cập trong hướng dẫn miễn phí GPT-5.5
- Opus 4.7: giới hạn hàng ngày của Claude.ai, cộng với các con đường miễn phí trong hướng dẫn miễn phí Opus 4.7 của chúng tôi
Trong ba mô hình, đường dẫn API miễn phí của Flash thân thiện với nhà phát triển nhất. AI Studio cung cấp cho bạn một khóa hoạt động mà không cần thẻ tín dụng và hạn ngạch hàng ngày hữu ích.
Cách thực sự kiểm tra các mô hình này với khối lượng công việc của riêng bạn
Các điểm chuẩn cho bạn biết mô hình có thể làm gì trung bình. Khối lượng công việc của bạn mới là điều quan trọng. Xây dựng một công cụ đánh giá nhỏ:
- Chọn 20 tác vụ đại diện từ trường hợp sử dụng thực tế của bạn
- Chạy cả ba mô hình trên mỗi tác vụ
- Chấm điểm theo ba khía cạnh: thành công của tác vụ, tổng chi phí, độ trễ
- Theo dõi các chế độ lỗi cụ thể cho khối lượng công việc của bạn, từ chối, trôi schema, thay đổi hình dạng gọi công cụ
Đây là nơi Apidog giúp ích. Bạn lưu ba điểm cuối API (Gemini, OpenAI, Anthropic) dưới dạng yêu cầu có tham số, lưu khóa dưới dạng biến môi trường và chạy cùng một lời nhắc trên cả ba chỉ với một cú nhấp chuột. Các phản hồi sẽ trở lại khung kiểm thử của Apidog nơi bạn có thể so sánh chúng cạnh nhau.
Thiết lập thực tế:
- Tải xuống Apidog
- Tạo một không gian làm việc có tên “Frontier Model Eval”

- Lưu ba yêu cầu, mỗi yêu cầu cho một nhà cung cấp (Flash, GPT-5.5, Opus 4.7)
- Xây dựng một kịch bản kiểm thử chạy cùng một lời nhắc trên cả ba
- Thêm các xác nhận phản hồi (hình dạng JSON, chuỗi phải có, ngưỡng độ trễ)
- Chạy kịch bản hàng tuần để bắt kịp sự thay đổi của mô hình
Hai ngày thiết lập tốt hơn ba tháng tranh luận xem mô hình nào "cảm thấy" tốt hơn.
Điều gì sẽ thay đổi tiếp theo
Ba điều cần theo dõi trong 90 ngày tới:
- Gemini 3.5 Pro GA. Khi Pro ra mắt vào tháng 6, sự so sánh sẽ thay đổi. Flash vẫn sẽ giữ vững vị trí về chi phí/tốc độ, nhưng Pro sẽ là đối thủ hàng đầu ngang tầm với Opus và GPT-5.5.
- Phản hồi của OpenAI. GPT-5.5 là một bản phát hành vào tháng 4. Một bản cập nhật giữa chu kỳ hoặc biến thể mới có khả năng xảy ra nếu Gemini 3.5 Pro ra mắt mạnh mẽ.
- Bước đi tiếp theo của Anthropic. Opus 4.7 là mô hình hàng đầu hiện tại của Anthropic. Một bản làm mới Sonnet hoặc Opus 4.8 trong quý tới sẽ đúng chu kỳ.
Lĩnh vực này hiện thay đổi hàng tháng. Cách thông minh là duy trì công cụ đánh giá của bạn hoạt động, chuyển đổi khi các con số thay đổi và không bao giờ bị khóa vào công cụ của một nhà cung cấp duy nhất.
Câu hỏi thường gặp
Gemini 3.5 Flash có thực sự cạnh tranh với Opus 4.7 và GPT-5.5 không? Có, trong phân khúc của nó. Flash vượt trội hơn so với hạng của nó trong các điểm chuẩn tác nhân và chiếm ưu thế về chi phí. Đối với các tác vụ khó nhất tuyệt đối (tái cấu trúc đa tệp phức tạp, viết dài cẩn thận), các mô hình hàng đầu vẫn dẫn đầu.
Tại sao so sánh một mô hình phân khúc nhanh với các mô hình hàng đầu? Bởi vì khoảng cách chi phí quá lớn nên nhiều khối lượng công việc sản xuất nên chạy trên Flash ngay cả khi một mô hình hàng đầu có thể thực hiện tác vụ tốt hơn một chút. Câu hỏi trung thực là "Flash có đủ tốt cho khối lượng công việc này không?" chứ không phải "Flash có tốt nhất mọi thứ không?".
Opus 4.7 có đáng với mức giá cao hơn không? Đối với các khối lượng công việc mà chất lượng mã hoặc viết trên mỗi lượt quan trọng nhất, có. Đối với các vòng lặp tác nhân khối lượng lớn mà bạn đang chạy hàng nghìn lượt, phép toán trên mỗi tác vụ ủng hộ Flash.
Tôi có thể sử dụng cả ba qua một API không? Không trực tiếp. Mỗi nhà cung cấp có điểm cuối riêng. Chế độ tương thích OpenAI của OpenAI được Google hỗ trợ (một shim), nhưng bạn vẫn sẽ duy trì ba bộ thông tin đăng nhập. Mẫu rõ ràng nhất là trừu tượng hóa cuộc gọi mô hình đằng sau một wrapper mỏng của riêng bạn.
Khi nào Gemini 3.5 Pro ra mắt? Tháng 6 năm 2026. Đó sẽ là đối thủ hàng đầu của Opus và GPT-5.5. Cho đến lúc đó, Flash là lựa chọn duy nhất của gia đình 3.5.
Làm cách nào để theo dõi chi phí khi chạy ba nhà cung cấp? Theo dõi chi tiêu trên mỗi mô hình trong lịch sử yêu cầu của Apidog hoặc tổng hợp các bảng điều khiển nhà cung cấp của bạn. Đặt cảnh báo ngân sách trên mỗi mô hình để tránh bất ngờ trong quá trình kiểm thử.
Tổng kết
Ba mô hình đáng tin cậy, ba điểm mạnh khác nhau.
- Gemini 3.5 Flash cho công việc rẻ, nhanh, đa phương thức, ngữ cảnh dài và một lượng đáng kể khối lượng công việc tác nhân mà trước đây yêu cầu một mô hình hàng đầu
- GPT-5.5 cho tự động hóa tác nhân nặng CLI, hiệu quả token
- Opus 4.7 cho tái cấu trúc mã chất lượng cao và viết dài
Xây dựng công cụ đánh giá của riêng bạn. Kiểm tra với khối lượng công việc thực tế của bạn. Chuyển đổi khi các con số thay đổi. Đó là câu trả lời trung thực duy nhất trong một thị trường mà người dẫn đầu thay đổi hàng tháng. Và hãy theo dõi tháng 6: Gemini 3.5 Pro sẽ định hình lại cuộc đối đầu này.
