7 mô hình AI chơi hơn 200 ván "Ma Sói"! GPT-5 thắng áp đảo!

rainofpros

Mới đây, Chủ tịch OpenAI Greg Brockman đã chia sẻ một bài benchmark thú vị: cho 7 mô hình ngôn ngữ lớn (bao gồm cả mã nguồn mở và đóng) chơi tổng cộng 210 ván Ma Sói hoàn chỉnh.

Trong số này, GPT-5 dẫn đầu với tỷ lệ thắng áp đảo 96,7%, trở thành MVP tuyệt đối. Đứng thứ 2 và 3 là 2 mô hình AI của Google, Gemini 2.5. Trong khi đó, các mô hình Trung Quốc như Qwen3 và Kimi-K2 lần lượt đứng ở vị trí thứ 4 và thứ 6.

Blog chính thức còn hé lộ một số phân tích thú vị về tính cách mà các mô hình thể hiện trong trò chơi.

Ví dụ, Kimi-K2 thậm chí học được chiêu “fake claim”: khi làm sói và mắc lỗi rõ ràng, nó đã công khai nhận mình là “phù thủy” và bất ngờ xoay chuyển cục diện thành công – một chiến lược liều lĩnh và táo bạo.

Trong bài kiểm tra này, mỗi cặp mô hình đấu 10 ván: 5 ván một bên điều khiển sói, bên kia làm dân làng; 5 ván đổi vai ngược lại.

Cách thiết lập này cho thấy rõ hai khía cạnh: khi làm sói, mô hình phải thao túng người chơi khác; khi làm dân, nó cần chống lại sự thao túng. Và trong tất cả các cặp đấu, GPT-5 bất bại hoàn toàn.

7 mô hình AI chơi hơn 200 ván "Ma Sói"! GPT-5 thắng áp đảo!

GPT-5 dẫn đầu với tỷ lệ thắng áp đảo 96,7%, trở thành MVP tuyệt đối.

More Threads

Share This Page

Tin mới nhất