Ai xếp hạng sức mạnh của ChatGPT, Gemini ?
![]() |
Chatbot Arena là bảng xếp hạng AI do chính người dùng bình chọn. Ảnh: Midjourney/THE DECODER. |
Cũng như bảng xếp hạng Billboard Hot 100 là thước đo tiêu chuẩn cho độ phổ biến của các sản phẩm âm nhạc,ếphạngsứcmạnhcủkết quả v-league hôm nay các chatbot Trí tuệ Nhân tạo (AI) cũng có một “đấu trường” riêng được xây dựng và điều hành bởi hai nghiên cứu sinh mang tên “Chatbot Arena”.
Hai người bạn cùng phòng Anastasios Angelopoulos và Wei-Lin Chiang không ngờ rằng dự án nghiên cứu của họ đã nhanh chóng trở thành bảng xếp hạng được theo dõi nhiều nhất về các hệ thống AI.
Cách mới để đánh giá AI
Ra mắt vào tháng 4/2023, Chatbot Arena nhanh chóng trở thành một hiện tượng khi thu hút hơn 4.700 lượt bình chọn chỉ trong tuần đầu tiên.
Theo truyền thống, hiệu năng của các công nghệ AI được đánh giá qua các bài kiểm tra chuyên sâu về toán học, khoa học và luật pháp. Tuy nhiên, Chatbot Arena cung cấp một phương pháp đánh giá mới, cho phép người dùng trực tiếp so sánh khả năng của các mô hình AI thông qua việc đặt câu hỏi và nhận câu trả lời.
Những đánh giá này được tổng hợp thành một bảng xếp hạng, nơi các tên tuổi lớn của Thung lũng Silicon như OpenAI, Google và Meta Platforms tranh giành ngôi vị cao nhất.
![]() |
Anastasios Angelopoulos (phải) và Wei-Lin Chiang (trái), hai nhà đồng sáng lập Chatbot Arena. Ảnh: Laura Morton/WSJ. |
“Mọi người đều đang cố gắng để đứng đầu bảng xếp hạng này, thật tuyệt vời khi một vài sinh viên tập hợp lại và có thể tạo ra tác động to lớn như vậy”, Joseph Spisak, giám đốc quản lý sản phẩm tại Meta Platforms, cho biết.
Khi cuộc đua AI ngày càng “nóng lên”, bất kỳ lợi thế nào so với đối thủ cạnh tranh cũng có thể tạo ra sự khác biệt lớn trong việc thu hút khách hàng và nhân tài. Điều này càng khiến Chatbot Arena thu hút sự chú ý.
Từ khi ra mắt với chỉ 9 mô hình AI, Chatbot Arena đã không ngừng mở rộng, hiện nay đã đánh giá và xếp hạng hơn 170 mô hình khác nhau với hơn hai triệu lượt bình chọn. Nền tảng này cũng cung cấp các bảng xếp hạng chi tiết cho nhiều lĩnh vực như sáng tạo nội dung và lập trình.
Chatbot Claude của Anthropic hiện đứng đầu bảng xếp hạng, sau khi soán ngôi OpenAI vào tháng 3 năm nay.
Đánh giá theo cảm tính
Các nhà nghiên cứu đã nhận thấy rằng các bài kiểm tra học thuật truyền thống đang dần mất đi hiệu lực. Nguyên nhân là do các câu hỏi trong những bài kiểm tra này đã được tích hợp vào các mô hình ngôn ngữ lớn (LLM), giúp các hệ thống AI học thuộc và trả lời một cách máy móc, qua đó làm giảm tính khách quan của kết quả đánh giá.
Google và OpenAI đã đạt được điểm số trên 90% trong bài kiểm tra Đo lường Hiểu biết Ngôn ngữ Đa nhiệm Khổng lồ (MMLU), một tiêu chuẩn đánh giá khả năng hiểu ngôn ngữ của các mô hình AI đã được sử dụng rộng rãi trong bốn năm qua.
Dan Hendrycks, một trong những người tạo ra bài kiểm tra này, đã phát động chiến dịch kêu gọi cộng đồng cùng nhau xây dựng một bộ câu hỏi cực khó, được ông đặt tên là "Bài kiểm trí tuệ nhân tạo cuối cùng". Mục tiêu của dự án này là đặt ra những câu hỏi hóc búa nhất để đánh giá toàn diện khả năng của các hệ thống AI.
![]() |
Người dùng sẽ tương tác trực tiếp với 2 mô hình ngôn ngữ và chọn ra câu trả lời hay hơn. |
"Mặc dù một chuẩn đánh giá ban đầu có thể rất khó đối với các LLM, những thế hệ LLM tiếp theo sẽ xuất hiện và đạt được hiệu suất gần như hoàn hảo", Tiến sĩ Colin White, Giám đốc Nghiên cứu tại Abacus.AI, đơn vị phát triển chuẩn đánh giá AI LiveBench, cho biết.
Cách tiếp cận "đối đầu" của Chatbot Arena, mặc dù thú vị, không phải lúc nào cũng đảm bảo tính chính xác và khách quan. Việc đánh giá dựa trên cảm nhận cá nhân khó có thể đo lường được các tiêu chí cụ thể của một chatbot. Do đó, một số nhà nghiên cứu gọi cách tiếp cận này là "đánh giá dựa trên cảm nhận".
Đội ngũ phát triển Chatbot Arena đã rất thẳng thắn trong việc công khai các hạn chế của nền tảng. Để giúp người dùng có cái nhìn khách quan hơn, họ cho phép người dùng tự do loại bỏ những yếu tố chủ quan như độ dài câu trả lời hay định dạng khi đánh giá các mô hình.
Đóng góp cho cộng đồng
Angelopoulos và Chiang đã kêu gọi nhiều nhà nghiên cứu khác để cùng xây dựng một nền tảng tương tự như Wikipedia, nơi cộng đồng có thể cùng nhau đóng góp và phát triển kiến thức về Trí tuệ Nhân tạo. Quan trọng hơn, họ khẳng định rằng dự án này hoàn toàn phi lợi nhuận.
Chatbot Arena cũng đóng vai trò quan trọng trong việc thúc đẩy sự phát triển của cộng đồng AI. Nhờ nền tảng này, người dùng có thể khám phá ra các mô hình ngôn ngữ mới. Điển hình là sự xuất hiện bất ngờ của "im-also-a-good-gpt2-chatbot", sau đó được xác nhận là GPT-4o.
![]() |
Các thành viên của nhóm dự án Chatbot Arena hầu hết là sinh viên đại học. Ảnh: Laura Morton/WSJ. |
Theo Chatbot Arena, xAI của Elon Musk, Meta và Google cũng đã thử nghiệm các công nghệ trên trang web trước khi được phát hành rộng rãi.
"Chúng tôi nhận được yêu cầu từ các công ty mỗi ngày”, nhà đồng sáng lập Chiang cho biết.
Vào tháng 10, một mô hình AI từ công ty Trung Quốc có tên “01.AI” đã bất ngờ xuất hiện ở vị trí thứ 6 trên bảng xếp hạng, thu hút sự chú ý đến những tiến bộ của Trung Quốc trong lĩnh vực này.
Kai-Fu Lee, cựu giám đốc điều hành Google và hiện là CEO của 01.AI, đã quảng bá thành tích này trên nền tảng X. Ông cho biết mô hình này đã vượt qua phiên bản đầu tiên của GPT-4o của OpenAI.
Những phản hồi của người dùng trên Chatbot Arena đã trở thành một kho dữ liệu quý giá đối với các nhà phát triển. Angelopoulos và Chiang cho biết họ đã chia sẻ khoảng 20% dữ liệu này, để cộng đồng nghiên cứu có thể tận dụng mà không làm ảnh hưởng đến tính bảo mật và công bằng của nền tảng.
Dùng ChatGPT thế nào để không tạo ra nội dung vô tri
Sự phát triển của AI mở ra nhiều tiềm năng nhưng cũng có không ít mối lo đối với ngành xuất bản, đặc biệt là nhóm tác giả viết sách.
Các tác giả sách cần phải chấp nhận sự vươn lên của AI, sử dụng chúng như một "siêu trợ lý" thay vì chối bỏ trào lưu. Chia sẻ với Tri thức - Znews, nhiều cây viết cho rằng người làm sách vẫn có thể đứng vững trong thời đại AI nếu biết cách tận dụng sức mạnh của trí tuệ nhân tạo.
-
Soi kèo góc Cagliari vs Fiorentina, 20h00 ngày 21/4MC Thanh Vân Hugo chia sẻ 'Khi đã yêu, tôi nồng nàn và mãnh liệt'Người dân không lơ là phòng, chống dịch bệnh khi tham gia lễ hộiCó nên sạc pin xe điện ở hầm chung cư?Nhận định, soi kèo Pafos FC vs Apollon Limassol, 23h00 ngày 22/4: Bảo vệ ngôi đầuChú rể vượt 80km rước dâu bằng 12 xe đầu kéo container ở Bến Tre15 tuổi có món tiền khủng, gã trai nghèo thành dân chơi, bao nuôi đàn emVì sao người Việt e ngại ô tô Trung Quốc?Nhận định, soi kèo Slaven Belupo vs Varazdin, 22h00 ngày 22/4: Nối dài ngày vuiĂn bằng 'tiền Nhà nước'
下一篇:Nhận định, soi kèo Brisbane Roar vs Adelaide United, 16h00 ngày 22/4: Tưng bừng bàn thắng
- ·Nhận định, soi kèo Yanbian Longding vs Dalian Kuncheng, 14h00 ngày 22/4: Chưa thấy niềm vui
- ·Tái hiện cuộc đời và đóng góp của các danh nhân tại Văn Miếu
- ·Bất ngờ nhận được khoản tiền thừa kế 'khủng' từ người chưa từng gặp mặt
- ·'21 bài học cho thế kỷ 21': Ai sở hữu dữ liệu?
- ·Nhận định, soi kèo Colo
- ·Vì sao giới cầu thủ thường hẹn hò người mẫu
- ·Thiên tài vật lý Trung Quốc bất ngờ ra đi ở tuổi 35, đến nay vẫn chưa rõ lý do
- ·Triệu hồi gấp 3 dòng SUV của Mercedes tại Việt Nam vì nguy cơ cháy xe
- ·Soi kèo góc Girona vs Betis, 2h00 ngày 22/4
- ·Ô tô điện dễ 'ăn vạ' khi trời nóng, cục pin dở chứng
- ·11 năm gian khổ và nồng nhiệt của SpaceSpeakers trong MV 'A Veil of Mist'
- ·Bắt gã đàn ông có 3 tiền án gây rối ở bệnh viện
- ·Siêu máy tính dự đoán Man City vs Aston Villa, 2h00 ngày 23/4
- ·Trang Lê và câu chuyện truyền cảm hứng về thời trang bền vững
- ·Hội nghị Khoa học Kỹ thuật Hoàn Mỹ 2024 hướng đến xuất sắc lâm sàng
- ·Bố chồng ở Hải Phòng giúp con dâu dựng vườn cúc họa mi tại nhà
- ·Nhận định, soi kèo Brisbane Roar vs Adelaide United, 16h00 ngày 22/4: Tưng bừng bàn thắng
- ·Hơn 2.000 xác thai nhi được phát hiện trong nhà riêng bác sĩ Mỹ
- ·Xe đạp công cộng hút khách ở TP.HCM, sắp ra Hà Nội
- ·Trấn Thành cảm phục tinh thần lạc quan hai cậu bé khiếm thị mê ca hát
- ·Siêu máy tính dự đoán Barcelona vs Mallorca, 2h30 ngày 23/4
- ·Hoa hậu Khánh Vân khóc trong lễ ăn hỏi với chồng hơn 17 tuổi
- ·Thí sinh bắt đầu 'cuộc chơi' nộp
- ·Cha của Nhâm Mạnh Dũng: 'Gia đình tôi quá tự hào'
- ·Kèo vàng bóng đá Barcelona vs Mallorca, 02h30 ngày 23/4: Khó tin Barca
- ·Quản trị doanh nghiệp trong thời đại mới
- ·Siêu máy tính dự đoán Genoa vs Lazio, 23h00 ngày 21/4
- ·Triển lãm tri ân thầy cô giáo
- ·MC Thanh Vân Hugo chia sẻ 'Khi đã yêu, tôi nồng nàn và mãnh liệt'
- ·Cầm hoặc chạm vào điện thoại di động khi lái xe bị phạt nặng cỡ nào ở Úc?
- ·Nhận định, soi kèo Man City vs Aston Villa, 2h00 ngày 23/4: Quyết liệt cuộc đua Top 4
- ·Nuôi gà tắm hằng ngày, lớn đo đuôi tính tiền, có con lên đến hơn 100 triệu đồng
- ·Bí ẩn bộ sưu tập trang sức vàng ngàn năm trong mộ táng
- ·NSND Lê Khanh chia sẻ về cái Tết âm đầu tiên khi không còn NSND Trần Tiến
- ·Nhận định, soi kèo Alianza Lima vs Talleres Cordoba, 5h00 ngày 23/4: Điểm số đầu tiên
- ·Bố ki bo, ngoại tình khiến chị em tôi không dám lấy chồng