-
TPHCM bố trí phòng thi riêng cho 8 thí sinh đặc biệt, có cán bộ hỗ trợ ghi bài trong kỳ thi tốt nghiệp THPT -
Aeon Mall Long Biên đình chỉ nhân viên an ninh sau vụ khách hàng bị quy chụp ăn trộm đồ -
Danh tính cán bộ ở Phú Thọ bị kỷ luật và điều chuyển công tác vì đi chơi golf trong giờ hành chính -
Lễ ăn hỏi của hot TikToker Hà Tĩnh gây chú ý: Nhan sắc cô dâu nổi bật, vàng hồi môn khiến dân mạng trầm trồ -
Nữ sinh tử vong tại chỗ sau tai nạn ở Gia Lai, công an khẩn cấp truy tìm thiếu niên cầm lái bỏ trốn -
Xuất hiện chi tiết gây chú ý vụ xịt nước vào thợ xây nhà hàng xóm: Sự lì lợm của chủ ngôi nhà cao tầng -
Xả thải vượt chuẩn hơn 10 lần, một bệnh viện quốc tế tại Cần Thơ bị phạt nặng và tước giấy phép -
Chủ nhiệm Ủy ban của Quốc hội: Vụ "hợp đồng kỳ nghỉ" chiêu thức rất tinh vi, trắng trợn -
Quân khu 7 huy động lực lượng quy tập từ Campuchia tham gia tìm kiếm hài cốt liệt sĩ tại công viên Lê Thị Riêng -
Clip xe chở hàng cồng kềnh gây tai nạn liên hoàn trên đường Nguyễn Trãi, Hà Nội: 1 người bất tỉnh
Công nghệ
22/08/2023 16:00Bốn mô hình AI hàng đầu tranh tài ‘bịa chuyện’
Các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học, đã tiến hành thử nghiệm những mô hình hàng đầu ngành công nghệ và ghi nhận GPT-4 giỏi toán nhất, Llama 2 đạt mức trung bình mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân nhất và Cohere AI giành danh hiệu mô hình “ảo giác” nhất với những câu trả lời sai tự tin nhất.
Báo cáo của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở thành vấn đề nóng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đang tới gần.
Theo Adam Wenchel, đồng sáng lập và CEO Arthur, đây là báo cáo đầu tiên “xem xét toàn diện về tỷ lệ ảo giác của các mô hình ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.
Ảo giác AI chỉ hiện tượng các LLM bịa đặt hoàn toàn thông tin và hành xử như thể chúng đang nói sự thật. Ví dụ, tháng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà án liên bang New York và những luật sư liên quan có thể đối mặt với những án phạt nghiêm khắc.
Trong cuộc thử nghiệm, các nhà nghiên cứu Arthur AI cho các mô hình AI tranh tài ở các danh mục như toán học tổ hợp, kiến thức về tổng thống Mỹ, các nhà lãnh đạo chính trị Maroc,… với những câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu các mô hình giải trình các bước lập luận về thông tin đưa ra”.
Kết quả cho thấy GPT-4 của OpenAI nhìn chung hoạt động tốt nhất trong số các mô hình được thử nghiệm. Nó cũng có độ ảo giác thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những câu hỏi toán học, GPT-4 ít ảo giác hơn từ 33% đến 50%.
Mặt khác, Llama 2 của Meta nhìn chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic.
Trong hạng mục toán học, GPT-4 đứng ở vị trí số một, theo sát là Claude 2, nhưng trong các bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.
Ở bài thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ “đề phòng rủi ro” của các mô hình AI (đưa ra thông báo “Là một mô hình AI, tôi không thể đưa ra ý kiến”).
Với bài test này, GPT-4 có mức đề phòng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng các tuyên bố của người dùng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt khác, mô hình AI của Cohere hoàn toàn không có động thái phòng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó biết và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.
Đại diện của Cohere đã bác bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô hình được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để xác minh nguồn tin” cho doanh nghiệp.
Theo Thế Vinh (VietNamNet)
- FIFA vướng vòng lao lý tại Mỹ: Chính thức bị bốn bang lớn đồng loạt điều tra vì thao túng giá vé World Cup 2026 (18:29)
- Thân thế sao nữ duy nhất ở Việt Nam được tổng thống Pháp nhận làm con nuôi, có cha là anh hùng dân tộc (18:07)
- Đề xuất mới từ Bộ Công an: Truyền trực tiếp hình ảnh cabin và tài xế xe vận tải về Cục CSGT theo thời gian thực (1 giờ trước)
- Hà Nội: Vào cuộc xác minh vụ du khách nước ngoài tố bị "hét giá" 420.000 đồng cho 10 chiếc bánh rán ở Hồ Gươm (1 giờ trước)
- TPHCM bố trí phòng thi riêng cho 8 thí sinh đặc biệt, có cán bộ hỗ trợ ghi bài trong kỳ thi tốt nghiệp THPT (1 giờ trước)
- Vụ phóng hỏa cửa hàng của em trai khiến cha ruột tử vong: Tìm thấy thêm 1 thi thể (1 giờ trước)
- Đừng chỉ dùng để sạc: 5 tính năng "quyền lực" của cổng USB-C trên Android bị bỏ phí (2 giờ trước)
- Vũ Mạnh Quyết khai gì khi bị bắt vì cầm đầu đường dây chế tạo vũ khí quy mô lớn? (2 giờ trước)
- Cho phép tăng khai thác than vượt công suất để bảo đảm nguồn điện quốc gia (2 giờ trước)
- Bồn rửa mặt có 5 dấu hiệu này: Nhiều gia đình bỏ qua, đến khi tắc cứng mới tốn tiền sửa (2 giờ trước)