-
Quỳnh Anh Shyn tiết lộ bí mật trong màn làm hoà gây chấn động với Chi Pu
-
Thiếu niên 15 tuổi ở Ninh Bình mất tích bí ẩn, để lại thư tay với lời nhắn "Tết này con không về"
-
Cảnh giác chiêu lừa đảo nộp phạt giao thông qua Cổng Dịch vụ công Quốc gia giả
-
Giá vàng miếng SJC đắt nhất lịch sử
-
Bộ Công an bảo vệ Lễ 80 năm Cách mạng Tháng Tám và Quốc khánh ở cấp độ cao nhất
-
Vướng vào "địa ngục tâm linh", 3 đại gia bị vợ chồng thầy cúng lừa 20 tỷ đồng
-
Thủ tướng: Bắn pháo hoa tại 34 tỉnh, thành phố chào mừng Quốc khánh
-
Sức khỏe của nghệ sĩ Phước Sang sau 1 năm bị đột quỵ
-
Sốc với visual của ca sĩ Việt đi hát hội chợ Trung Quốc, hình tượng nàng thơ vỡ tan tành
-
Phát hiện chấn động: Thi thể người đàn ông mất tích 28 năm vẫn còn nguyên vẹn
-
Vụ hiệu trưởng nâng khống điểm cho 1 thí sinh thành thủ khoa: Hội đồng chấm thi giải trình gì?
-
Nam thanh niên mất tích khi leo núi ở Nha Trang: Trước khi đi nhắn chủ nhà một điều đáng lo
-
Sau dịu mát ngày lập thu, miền Bắc sẽ nắng nóng gay gắt như giữa mùa hè từ ngày 8-8
-
Đang làm nhiệm vụ, trung tá cảnh sát giao thông bị người đàn ông nước ngoài đấm vào miệng
-
Bộ Tài chính thông tin mới về mức giảm trừ gia cảnh thuế thu nhập cá nhân
-
Campuchia và Thái Lan đạt được thỏa thuận đột phá về biên giới
-
Bộ Quốc phòng thông tin chương trình diễu binh, diễu hành mừng Cách mạng tháng Tám và Quốc khánh 2/9
-
Một gia đình nông thôn ở Thanh Hóa tiền điện tăng gần 10 triệu đồng một tháng
-
Quảng Ninh sẽ lắp thiết bị này trên tất cả tàu du lịch ở Hạ Long
-
Giá xăng tăng vượt mốc 20.000 đồng/lít
Công nghệ
22/08/2023 09:00Bốn mô hình AI hàng đầu tranh tài ‘bịa chuyện’
Các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học, đã tiến hành thử nghiệm những mô hình hàng đầu ngành công nghệ và ghi nhận GPT-4 giỏi toán nhất, Llama 2 đạt mức trung bình mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân nhất và Cohere AI giành danh hiệu mô hình “ảo giác” nhất với những câu trả lời sai tự tin nhất.
Báo cáo của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở thành vấn đề nóng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đang tới gần.

Theo Adam Wenchel, đồng sáng lập và CEO Arthur, đây là báo cáo đầu tiên “xem xét toàn diện về tỷ lệ ảo giác của các mô hình ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.
Ảo giác AI chỉ hiện tượng các LLM bịa đặt hoàn toàn thông tin và hành xử như thể chúng đang nói sự thật. Ví dụ, tháng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà án liên bang New York và những luật sư liên quan có thể đối mặt với những án phạt nghiêm khắc.
Trong cuộc thử nghiệm, các nhà nghiên cứu Arthur AI cho các mô hình AI tranh tài ở các danh mục như toán học tổ hợp, kiến thức về tổng thống Mỹ, các nhà lãnh đạo chính trị Maroc,… với những câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu các mô hình giải trình các bước lập luận về thông tin đưa ra”.
Kết quả cho thấy GPT-4 của OpenAI nhìn chung hoạt động tốt nhất trong số các mô hình được thử nghiệm. Nó cũng có độ ảo giác thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những câu hỏi toán học, GPT-4 ít ảo giác hơn từ 33% đến 50%.
Mặt khác, Llama 2 của Meta nhìn chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic.
Trong hạng mục toán học, GPT-4 đứng ở vị trí số một, theo sát là Claude 2, nhưng trong các bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.
Ở bài thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ “đề phòng rủi ro” của các mô hình AI (đưa ra thông báo “Là một mô hình AI, tôi không thể đưa ra ý kiến”).
Với bài test này, GPT-4 có mức đề phòng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng các tuyên bố của người dùng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt khác, mô hình AI của Cohere hoàn toàn không có động thái phòng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó biết và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.
Đại diện của Cohere đã bác bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô hình được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để xác minh nguồn tin” cho doanh nghiệp.
Theo Thế Vinh (VietNamNet)








- Cô gái 24 tuổi đăng quang Hoa hậu Hàn Quốc 2025 (07/08/25 23:39)
- Phát hiện thi thể mất bàn tay chân, không quần áo ở Cà Mau (07/08/25 22:36)
- Hội bạn thân đẹp, giàu nổi tiếng TikTok Việt bị nghi nói xấu, nghỉ chơi (07/08/25 22:30)
- Mỹ nhân MasterChef qua đời vì tai nạn kinh hoàng ở tuổi 38 (07/08/25 21:56)
- Khởi tố vụ cô gái mất 96% sức khỏe vì bị khung đỡ đèn tiệc cưới đổ sập, đè lên người (07/08/25 21:07)
- Bé gái 7 tuổi đuối nước tử vong tại hồ bơi ở Đồng Nai (07/08/25 21:03)
- Sesko đối mặt cú sốc văn hóa tại MU (07/08/25 20:58)
- Xác định được nhóm đánh hội đồng cháu gái 14 tuổi (07/08/25 20:50)
- Bãi nại cho người xách ngược cháu bé 16 tháng tuổi ném xuống nền bê-tông (07/08/25 20:45)
- Một cảnh sát giao thông bị thanh niên người Nga tấn công ở Nha Trang (07/08/25 20:37)




