1.2K 27 49

Published Jul 2nd, 7:57 a.m.

13 min read

429

Claude Sonnet 5: Tính năng, điểm chuẩn, giá cả và nhiều thông tin khác

Claude Sonnet 5 đạt 63,2% trên benchmark agentic coding SWE-bench Pro, chỉ kém Opus 4.8 khoảng 6 điểm phần trăm nhưng có giá thấp hơn đáng kể.

Infinity phân tích báo cáo ra mắt ngày 30/6/2026 từ Anthropic và nhận thấy đây là mô hình Sonnet mang tính agentic rõ rệt nhất mà công ty từng phát hành, có khả năng lập kế hoạch, điều khiển trình duyệt, terminal và hoàn thành tác vụ nhiều bước ở mức trước đây chỉ dòng Opus mới làm được.

Tóm tắt các điểm chính

Claude Sonnet 5 ra mắt ngày 30/6/2026, thay thế Sonnet 4.6 (phát hành tháng 2/2026)
Trên SWE-bench Pro, Sonnet 5 đạt 63,2%, so với 58,1% của Sonnet 4.6 và 69,2% của Opus 4.8
Giá giới thiệu áp dụng đến 31/8/2026: 2 USD/triệu token đầu vào, 10 USD/triệu token đầu ra
Sonnet 5 tích hợp sẵn cyber safeguards thời gian thực, cùng cơ chế với Opus 4.7 và 4.8
Ở một benchmark về công việc tri thức (GDPval-AA v2), Sonnet 5 đạt 1618 điểm, nhỉnh hơn cả Opus 4.8 (1615 điểm)

Claude Sonnet 5 là mô hình gì trong dòng sản phẩm của Anthropic?

Claude Sonnet 5 là mô hình tầng trung của Anthropic, nằm dưới dòng Opus nhưng được thiết kế để xử lý các tác vụ agentic từng đòi hỏi Opus mới đảm nhận nổi. Mô hình thay thế Sonnet 4.6 và dùng bộ tokenizer mới, làm thay đổi cách văn bản được xử lý thành token.

Infinity nhận thấy bước ngoặt agentic của Claude từng bắt đầu ở các phiên bản Sonnet 3.5, 3.6 và 3.7, khi dòng này lần đầu thể hiện năng lực coding và tool use thực chất. Sau đó, khoảng cách năng lực agentic nghiêng dần về phía Opus. Sonnet 5 là nỗ lực kéo tầng trung tiệm cận trở lại đường biên năng lực (frontier) mà không đội chi phí lên mức Opus.

Điều gì khiến Sonnet 5 hoàn thành tác vụ nhiều bước tốt hơn?

Thay đổi thực tiễn lớn nhất ở Sonnet 5 là khả năng theo tác vụ đến cùng (task follow-through), thay vì dừng lại giữa chừng. Người dùng early-access của Anthropic ghi nhận mô hình hoàn tất các tác vụ phức tạp mà các phiên bản Sonnet trước từng bị đứt quãng, đồng thời tự kiểm tra lại kết quả mà không cần được yêu cầu.

Ví dụ minh họa: Giao cho mô hình một tác vụ trải trên hai hệ thống, kéo kết quả test lỗi từ một lần chạy CI rồi mở pull request sửa lỗi. Các phiên bản Sonnet trước thường chỉ hoàn thành nửa đầu quy trình. Anthropic cũng dẫn ví dụ cập nhật tier tài khoản trên Salesforce và gửi thông báo ra mắt sản phẩm tới danh sách khách hàng doanh nghiệp trong cùng một lượt xử lý, một quy trình mà một kỹ sư của Zapier từng mô tả là hay bị đứt gánh giữa đường ở các mô hình trước.

Effort levels trên Sonnet 5 giúp cân bằng chi phí và độ chính xác như thế nào?

Sonnet 5 hỗ trợ điều chỉnh mức độ effort (reasoning depth), cho phép người dùng chọn mức suy luận phù hợp với ngân sách và độ khó của tác vụ. Anthropic định vị đây là cách để tìm điểm cân bằng giữa Sonnet 5 và Opus 4.8, thay vì buộc phải chọn hẳn một mô hình rồi chấp nhận toàn bộ đánh đổi.

Sonnet 5 cân bằng chi phí

Ở mức Extra High, Sonnet 5 đạt hiệu năng tương đương mức medium-to-high của Opus 4.8 trên OSWorld-Verified và BrowseComp.

Lưu ý quan trọng: Chạy Sonnet 5 ở mức Extra High có thể tốn chi phí cao hơn cả Opus 4.8 ở mức reasoning tương đương. Vì vậy với các tác vụ đòi hỏi độ chính xác cao nhất, Opus 4.8 vẫn là lựa chọn hợp lý hơn.

Sonnet 5 an toàn hơn Sonnet 4.6 ở những điểm nào?

Sonnet 5 có cải thiện an toàn đo lường được so với Sonnet 4.6, điều quan trọng khi một agent thao tác trực tiếp trên hệ thống thật. Đánh giá tiền triển khai của Anthropic cho thấy:

Mô hình từ chối tốt hơn các yêu cầu độc hại
Chống chịu tốt hơn trước các cuộc tấn công prompt injection nhằm chiếm quyền điều khiển
Tỷ lệ ảo giác (hallucination) và xu hướng nịnh hót (sycophancy) thấp hơn
Điểm thấp hơn (an toàn hơn) trên audit hành vi tự động của Anthropic

Đồng sáng lập Lovable đã diễn giải giá trị này khá thẳng thắn: một mô hình biết khi nào nên từ chối cũng quan trọng không kém một mô hình biết cách xây dựng.

Lưu ý: Sonnet 5 vẫn có tỷ lệ hành vi lệch chuẩn cao hơn các mô hình năng lực cao hơn như Opus 4.8 và Claude Mythos Preview. Nói cách khác, Sonnet 5 an toàn hơn phiên bản tiền nhiệm nhưng chưa phải mô hình an toàn nhất trong dải sản phẩm.

Cyber safeguards trên Sonnet 5 hoạt động ra sao?

Sonnet 5 ra mắt với cơ chế cyber safeguards thời gian thực được bật mặc định, giống hệ thống đang chạy trên Claude Opus 4.7 và 4.8. Các cơ chế này phát hiện và chặn hành vi sử dụng liên quan đến an ninh mạng mang tính nguy hiểm ngay khi phát sinh.

Trong một bài test hợp tác với Mozilla nhằm phát triển exploit cho lỗ hổng trên Firefox 147, cả Sonnet 5 lẫn Sonnet 4.6 đều không tạo ra được exploit hoạt động (0,0% ở cả hai), dù Sonnet 5 có tỷ lệ thành công một phần cao hơn đôi chút, điều Anthropic quy cho mức tăng năng lực tổng quát chứ không phải do được huấn luyện chuyên biệt về cyber.

Với các nhà nghiên cứu bảo mật cần guardrail nới lỏng hơn, Anthropic khuyến nghị dùng Opus 4.8 thay vì Sonnet 5.

Trên benchmark agentic coding, Sonnet 5 đứng ở đâu so với Sonnet 4.6 và Opus 4.8?

Benchmark agentic coding

Sonnet 5 đạt 63,2% trên benchmark agentic coding, so với 69,2% của Opus 4.8 và 58,1% của Sonnet 4.6. Benchmark này đo khả năng viết, chạy và sửa code qua nhiều bước, không phải chỉ tạo ra một đoạn code đơn lẻ.

Benchmark	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro (agentic coding)	63,2%	58,1%	69,2%
Terminal-Bench 2.1 (agentic coding)	80,4%	67,0%	82,7%
Humanity's Last Exam, không dùng tool	43,2%	34,6%	49,8%
Humanity's Last Exam, có dùng tool	57,4%	46,8%	57,9%
OSWorld-Verified (computer use)	81,2%	78,5%	83,4%
GDPval-AA v2 (công việc tri thức)	1618	1395	1615

Khoảng cách với Opus 4.8 rơi vào khoảng 6 điểm trên SWE-bench Pro, trong khi mức tăng so với Sonnet 4.6 là khoảng 5 điểm.

Infinity nhận định với đội ngũ phát triển, đây là bước nâng cấp rõ rệt so với mô hình tầng trung trước đó, dù chưa chạm ngưỡng flagship.

OSWorld-Verified và BrowseComp cho thấy điều gì về khả năng dùng máy tính của Sonnet 5?

OSWorld-Verified đo khả năng điều khiển desktop để hoàn thành tác vụ thật, còn BrowseComp đo khả năng tìm kiếm web dạng agentic. Anthropic đã cập nhật phương pháp đánh giá OSWorld-Verified và hiện báo cáo Sonnet 4.6 đạt 78,5% trên cấu hình đã điều chỉnh.

Ở cả hai benchmark, Sonnet 5 cải thiện rõ so với Sonnet 4.6 ở mọi mức effort, trong khi Opus 4.8 vẫn giữ vị trí lựa chọn có độ chính xác cao hơn. Ở mức Extra High, Sonnet 5 tiệm cận hiệu năng medium-to-high của Opus 4.8, nhưng lúc đó lợi thế chi phí lại thu hẹp lại. Đây là lý do Anthropic mô tả hai mô hình như một dải cost-accuracy chung, thay vì một đường nâng cấp thẳng.

Sonnet 5 vượt qua cả Opus 4.8 ở điểm nào?

Trên một benchmark công việc tri thức, Sonnet 5 nhỉnh hơn Opus 4.8, theo báo cáo của TechCrunch. Kết quả này đáng chú ý vì Opus 4.8 thường được gắn với các tác vụ đòi hỏi phán đoán khó và nghiên cứu chuyên sâu.

Anthropic cũng cập nhật bộ chấm điểm cho Humanity's Last Exam, khiến điểm số Sonnet 4.6 hiện được báo cáo là 34,6% (không dùng tool) và 46,8% (có dùng tool), khác với số liệu công bố lúc ra mắt ban đầu.

Infinity tổng hợp dữ liệu và cho rằng kết quả ở mảng công việc tri thức gợi ý Sonnet 5 khả dụng cho các tác vụ phân tích, nghiên cứu vốn trước đây thuộc về lãnh địa của Opus.

Để có góc nhìn rộng hơn về vị trí của tầng Sonnet trong toàn bộ dải sản phẩm, mô hình Claude Fable 5 ở tầng cao hơn đạt 80,3% trên SWE-Bench Pro và 59,0% trên Humanity's Last Exam (không dùng tool), vượt xa các con số tầng trung nêu trên. Khoảng cách đó phản ánh cấu trúc dải sản phẩm của Anthropic: từ Sonnet 5 mang tính agentic, chi phí thấp, đến Opus 4.8 và các tầng Mythos, Fable, mỗi tầng đánh đổi chi phí để lấy độ chính xác ở những bài toán khó nhất.

Claude Sonnet 5 có giá bao nhiêu và truy cập ở đâu?

Claude Sonnet 5 khả dụng trên mọi gói dịch vụ ngay từ ngày ra mắt, là mô hình mặc định cho gói Free và Pro. Người dùng Max, Team, Enterprise cũng có thể sử dụng, cùng với Claude Code và Claude Platform. Lập trình viên gọi mô hình qua Claude API với model ID claude-sonnet-5.

Giai đoạn	Giá đầu vào	Giá đầu ra
Giới thiệu (đến 31/8/2026)	2 USD / triệu token	10 USD / triệu token
Tiêu chuẩn (sau 31/8/2026)	3 USD / triệu token	15 USD / triệu token

Lưu ý về tokenizer: Sonnet 5 dùng tokenizer mới, nên cùng một lượng input có thể ánh xạ sang nhiều token hơn trước, dao động khoảng 1,0 đến 1,35 lần tùy loại nội dung. Anthropic đặt mức giá giới thiệu để quá trình chuyển đổi từ Sonnet 4.6 gần như trung tính về chi phí.

Công ty cũng nâng rate limit trên Chat, Cowork, Claude Code và Claude Platform để đáp ứng lượng token tiêu thụ lớn hơn khi chạy ở mức effort cao.

Nên chọn Sonnet 5 hay Opus 4.8 cho tác vụ agentic?

Sonnet 5 tốt cho các tác vụ coding, debugging, tool use nhiều bước và tự động hóa liên hệ thống, đúng loại tác vụ mà các phiên bản Sonnet trước hay bị đứt quãng giữa chừng.
Với các bài toán khoa học cấp tiến sĩ hoặc tác vụ nặng về browsing, Opus 4.8 vẫn là lựa chọn được khuyến nghị nhiều hơn.

Infinity khuyến nghị dùng Sonnet 5 làm mặc định cho các agent chạy tác vụ dài, nhiều bước, và chỉ chuyển lên Opus 4.8 khi tác vụ thật sự cần thêm độ chính xác.

Một số đơn vị đánh giá độc lập ghi nhận Sonnet 5 đánh đổi phần nào chiều sâu suy luận để lấy tốc độ coding, đây là điểm cần cân nhắc với các tác vụ đòi hỏi phán đoán phức tạp thay vì tốc độ thực thi.

Kết luận

Sonnet 5 củng cố quan điểm rằng năng lực agentic giờ đã trở thành kỳ vọng cơ bản ở mọi mức giá, không còn là tính năng riêng của tầng flagship. Điểm khác biệt không còn nằm ở việc mô hình nào làm tốt nhất công việc agentic, mà ở việc mô hình nào làm được điều đó với chi phí thấp và độ tin cậy cao mà không cần con người can thiệp liên tục.

Mức giá giới thiệu cho thấy Anthropic muốn khách hàng thử Sonnet 5 trên workload thật với chi phí thấp nhất trong giai đoạn chuyển đổi, đồng thời giải phóng năng lực xử lý của Opus 4.8 cho các tác vụ thực sự cần độ chính xác cao hơn.

Nguồn: Infinity - đơn vị cung cấp giải pháp Digital Marketing tích hợp cho doanh nghiệp — từ thiết kế website chuẩn SEO & UX/UI, dịch vụ AI SEO (GEO/AEO), PR Digital, sáng tạo nội dung số, quảng cáo trực tuyến (SEM/Ads) đến phân tích dữ liệu Marketing. Với nền tảng nghiên cứu và dữ liệu thực chiến, chúng tôi giúp doanh nghiệp xây dựng chiến lược thương hiệu bền vững và tăng trưởng có hệ thống trong kỷ nguyên AI.

Claude Sonnet 5 Claude Sonnet