Cảnh báo từ Stanford: AI Trung Quốc và Mỹ đang mắc "bệnh nịnh hót" ở mức đáng báo động

Một nghiên cứu đột phá từ Đại học Stanford và Đại học Carnegie Mellon vừa tiết lộ một vấn đề đạo đức nghiêm trọng: các mô hình trí tuệ nhân tạo (AI) ngôn ngữ lớn (LLM) đến từ Trung Quốc và Mỹ đang thể hiện mức độ "nịnh hót" (sycophancy) đáng kinh ngạc, sẵn sàng đồng tình với người dùng thay vì đưa ra lời khuyên trung thực.

AI "nịnh" người dùng nhiều hơn con người gần 50%

Nghiên cứu, được công bố đầu tháng 10, đã phân tích 11 mô hình AI bằng cách đặt chúng vào các tình huống thực tế liên quan đến mâu thuẫn cá nhân, thao túng và lừa dối. Kết quả cho thấy xu hướng chung là các chatbot AI thường quá dễ dãi trong việc ủng hộ quan điểm của người dùng, thay vì phản biện hoặc duy trì tính khách quan.

Cụ thể, mức độ đồng tình và ủng hộ quan điểm người dùng của các mô hình AI trung bình cao hơn con người tới 47%.

Tuy nhiên, hai mô hình nổi bật nhất về độ "nịnh hót" lại đến từ Trung Quốc:

Qwen 2.5-7B-Instruct (Alibaba Cloud, ra mắt 1/2025) đứng đầu danh sách, khi đi ngược lại phán đoán đúng của cộng đồng con người tới 79% số lần.

DeepSeek V3 (ra mắt 12/2024) cũng không kém cạnh, xếp thứ hai với 76% số lần bênh vực người đăng bài ngay cả khi họ rõ ràng là sai. Mức độ "nịnh" của mô hình này còn cao hơn con người tới 55%.

chatbot china linkedin — Chatbot AI của Trung Quốc và Mỹ có xu hướng "nịnh hót" người dùng quá mức. Ảnh: LinkedIn

Nguy cơ tiềm ẩn: Từ sức khỏe tâm lý đến quyết định doanh nghiệp

Để đánh giá mức độ "nịnh hót" này, nhóm nghiên cứu đã xây dựng "chuẩn mực con người" dựa trên dữ liệu từ cộng đồng Reddit "Am I The Ahole", nơi người dùng đăng tải các tình huống đời thực để hỏi xem ai là người có lỗi. Khi so sánh phản ứng của AI với kết luận của cộng đồng (phần lớn là người nói tiếng Anh), AI luôn có xu hướng đứng về phía người đăng bài, ngay cả trong những trường hợp sai rõ ràng.

Các tác giả nghiên cứu cảnh báo rằng xu hướng này đang tạo ra một "hiệu ứng ngược": Con người có xu hướng ưa chuộng các mô hình AI nịnh nọt, và điều này thúc đẩy các nhà phát triển lại càng huấn luyện AI để "nịnh" nhiều hơn nhằm làm hài lòng người dùng.

Giáo sư Jack Jiang, Giám đốc Phòng thí nghiệm Đánh giá AI (AI Evaluation Lab) thuộc Trường Kinh doanh Đại học Hong Kong, nhấn mạnh rằng hiện tượng "AI nịnh hót" không chỉ là vấn đề xã hội. Ông cho rằng "sẽ rất nguy hiểm nếu một mô hình liên tục đồng ý với các phân tích hoặc kết luận của chuyên gia trong doanh nghiệp", vì điều này có thể dẫn đến những quyết định sai lầm hoặc thiếu kiểm chứng nghiêm trọng.

Nghiên cứu này là hồi chuông cảnh tỉnh về một vấn đề đạo đức đang nổi lên trong kỷ nguyên AI tạo sinh: khi các mô hình được thiết kế để làm hài lòng người dùng có thể đang hy sinh tính khách quan và sự trung thực. Hậu quả ngoài ý muốn của việc này được dự báo là ảnh hưởng tiêu cực đến các mối quan hệ xã hội và thậm chí là sức khỏe tâm lý của người dùng.

Theo PV (SHTT)