-
Hôm nay, áp thấp nhiệt đới khả năng thành bão, từ Đà Nẵng trở ra miền Bắc mưa lớn
-
Cận cảnh dàn xe tăng, xe thiết giáp, ngư lôi lần đầu xuất hiện tại triển lãm lớn nhất lịch sử
-
Công bố kết quả nghiên cứu ảnh hưởng của xăng E10 với ô tô, xe máy
-
Cùng đi xem xe, người đàn ông bỏ lại bạn gái rồi lấy xe máy phóng mất hút
-
Cô bé từng xuất hiện trong trận Chung kết Olympia 19 năm trước giờ đã thành Chị Đẹp, cuộc sống thay đổi 180 độ
-
Danh tính nam thanh niên xăm trổ thách thức công an tại chốt bảo vệ sơ duyệt A80
-
Bức ảnh nghiệt ngã: Người trao giải và người nhận giải Miss Audition 2006 đều vướng lao lý
-
TP HCM: Cán bộ, công chức thôi việc sau sắp xếp có thể vay đến 300 triệu đồng
-
Ô tô bất ngờ "sụt hố" trên phố Đội Cấn, Hà Nội
-
Lần đầu tiên người dân có thể bán vàng miếng với giá 127 triệu/lượng
-
Bão số 6 khả năng sắp hình thành, trọng tâm mưa lớn ở miền Trung
-
Vụ 8 cán bộ Quảng Ninh làm lộ bí mật nhà nước: Sơ suất nhỏ có thể phạm điều nghiêm cấm
-
"Ông Ba Minh cưu mang vợ nhặt 11 năm" nhận 1,6 tỷ đồng: Tiền sẽ được sử dụng thế nào?
-
Nhà triệu USD cứ mưa là ngập, vì sao giá không ngừng tăng?
-
iPhone 17 hoàn toàn "mất tích" khỏi đại lý chính hãng Việt Nam
-
"Bảo bối" UAV đa năng ra mắt tại công trình kỷ lục Việt Nam: Vận tốc tối đa 200km/h, có thể mang cả tên lửa
-
Danh tính chàng chiến sĩ 'triệu view' đang gây sốt mạng xã hội dịp lễ 2/9
-
Clip thanh niên đâm bạn tử vong: Hé lộ nguyên nhân phát sinh trên bàn nhậu
-
Cục Cảnh sát kinh tế ra yêu cầu khẩn đối với bà Đào Thị Hương Lan
-
Loạt ngân hàng hướng dẫn cách liên kết tài khoản hưởng an sinh xã hội trên VNeID
Công nghệ
22/08/2023 09:00Bốn mô hình AI hàng đầu tranh tài ‘bịa chuyện’
Các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học, đã tiến hành thử nghiệm những mô hình hàng đầu ngành công nghệ và ghi nhận GPT-4 giỏi toán nhất, Llama 2 đạt mức trung bình mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân nhất và Cohere AI giành danh hiệu mô hình “ảo giác” nhất với những câu trả lời sai tự tin nhất.
Báo cáo của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở thành vấn đề nóng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đang tới gần.

Theo Adam Wenchel, đồng sáng lập và CEO Arthur, đây là báo cáo đầu tiên “xem xét toàn diện về tỷ lệ ảo giác của các mô hình ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.
Ảo giác AI chỉ hiện tượng các LLM bịa đặt hoàn toàn thông tin và hành xử như thể chúng đang nói sự thật. Ví dụ, tháng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà án liên bang New York và những luật sư liên quan có thể đối mặt với những án phạt nghiêm khắc.
Trong cuộc thử nghiệm, các nhà nghiên cứu Arthur AI cho các mô hình AI tranh tài ở các danh mục như toán học tổ hợp, kiến thức về tổng thống Mỹ, các nhà lãnh đạo chính trị Maroc,… với những câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu các mô hình giải trình các bước lập luận về thông tin đưa ra”.
Kết quả cho thấy GPT-4 của OpenAI nhìn chung hoạt động tốt nhất trong số các mô hình được thử nghiệm. Nó cũng có độ ảo giác thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những câu hỏi toán học, GPT-4 ít ảo giác hơn từ 33% đến 50%.
Mặt khác, Llama 2 của Meta nhìn chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic.
Trong hạng mục toán học, GPT-4 đứng ở vị trí số một, theo sát là Claude 2, nhưng trong các bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.
Ở bài thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ “đề phòng rủi ro” của các mô hình AI (đưa ra thông báo “Là một mô hình AI, tôi không thể đưa ra ý kiến”).
Với bài test này, GPT-4 có mức đề phòng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng các tuyên bố của người dùng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt khác, mô hình AI của Cohere hoàn toàn không có động thái phòng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó biết và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.
Đại diện của Cohere đã bác bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô hình được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để xác minh nguồn tin” cho doanh nghiệp.
Theo Thế Vinh (VietNamNet)








- U23 Việt Nam: Người giải bài toán hàng công cho HLV Kim Sang Sik (06:48)
- Khám xét khẩn cấp nơi làm việc của 'bầu' Đoan ở Thanh Hóa (06:40)
- Ngân hàng bị mạo danh để lừa tiền, cảnh báo người dân TUYỆT ĐỐI KHÔNG chuyển khoản dù chỉ 1 đồng (06:33)
- Bắt đầu phong sát và điều tra "thánh lố" Ngu Thư Hân (06:23)
- Hôm nay, áp thấp nhiệt đới khả năng thành bão, từ Đà Nẵng trở ra miền Bắc mưa lớn (06:17)
- Xác minh người đàn ông lái thử xe máy rồi phóng mất, bỏ lại người yêu ở cửa hàng: Cô gái kể điều bất ngờ (06:15)
- Bảo vệ kể lý do cô gái Hà Nội phản đòn, khống chế nam thanh niên xăm trổ (06:12)
- Sau một lần “vui tới bến”, chàng trai trẻ bàng hoàng khi bác sĩ đọc hàng loạt kết quả dương tính (06:02)
- Tử vi thứ 6 ngày 29/8/2025 của 12 con giáp: Tuất may mắn, Dần thịnh vượng (06:01)
- Nhiều cảnh sát xuất hiện tại nhà "bầu" Đoan (28/08/25 23:57)




