Sở hữu nguồn dữ liệu khổng lồ, Trung Quốc có thể vượt lên trong cuộc đua AI?

aA

Các mô hình AI đòi hỏi lượng dữ liệu khổng lồ, trong khi đó Trung Quốc không hề thiếu nguồn cung với một thị trường hơn 1,4 tỷ dân (số liệu đến đầu tháng 7 của Liên Hợp Quốc).

Kho dữ liệu tập trung, khổng lồ

Những mô hình AI được ví như những “hố đen” nuốt chửng đủ mọi loại dữ liệu không có giới hạn. Chúng cần rất nhiều dữ liệu để vận hành. Bằng khối lượng thông tin khổng lồ, hệ thống học sâu (deep-learning) huấn luyện mô hình AI cách tìm ra mối tương quan giữa các điểm nối dữ liệu và đưa ra kết quả mong muốn. Quá trình này lặp đi lặp lại, càng phát triển AI càng cần nhiều dữ liệu hơn để học nhiều hơn nữa.

Trung Quốc đang sở hữu một kho dữ liệu dường như vô tận, cung cấp bởi chính dân số khổng lồ của họ. Mọi thứ bắt đầu từ “chính sách một con”, khi nhà nước kiểm soát tổng thể dân số từ mức độ nhân khẩu học, phát triển thành giám sát cá nhân.

Trung Quốc đang sở hữu kho dữ liệu khổng lồ từ thị trường trong nước.

Từ năm 1997, Bắc Kinh bắt đầu đưa ra những quy định đầu tiên về “tội phạm mạng” và được nâng cấp lên trong những đầu năm 2000 khi chính phủ xây dựng “Bức tường lửa lớn” (The Great Firewall) nhằm kiểm soát hoạt động truy cập Internet ở trong nước.

Đến năm 2017, Trung Quốc triển khai thu thập cơ sở dữ liệu sinh trắc học (mống mắt) của hơn 30 triệu người. Chưa dừng lại, đại dịch Covid-19 kéo theo chính sách “zero-Covid” được cho là nghiêm ngặt nhất thế giới, mang lại cho nước này bộ dữ liệu di truyền, cũng như dữ liệu hoạt động của toàn bộ dân số thông qua mã QR. Điều này đồng nghĩa trong vòng vài năm trở lại đây, Bắc Kinh đang sở hữu một "đại dương" dữ liệu với quy mô chưa từng thấy trong lịch sử loài người.

Lý Khai Phục (Kai-Fu Lee), cựu CEO Google chi nhánh Trung Quốc mô tả trong cuốn sách “AI Superpower” của mình rằng khó có thể giải thích đầy đủ những lợi thế mà “sự dư thừa về dữ liệu này” mang lại trong phát triển các mô hình AI.

Dữ liệu là “bệ phóng”

Tuy Mỹ cũng đang có một khối dữ liệu lớn tương đương, song vẫn có những điểm khác biệt rất lớn giữa hai nền kinh tế lớn nhất thế giới. Thứ nhất, dữ liệu của Mỹ đang nằm trong tay những công ty cá nhân nắm độc quyền, khiến kho dữ liệu bị phân tách và tản mát.

Khác với dữ liệu tản mát trong tay các công ty công nghệ lớn tại Mỹ, dữ liệu ở Trung Quốc có sự tập trung hoá cao hơn.

Washington sở hữu bộ máy giám sát nhà nước rộng và sâu, song nhu cầu duy trì bảo mật dữ liệu từ cả góc độ cá nhân lẫn an ninh quốc gia đang là chốt chặn việc sử dụng phần lớn số dữ liệu này để huấn luyện mô hình AI.

Ngược lại, ở Trung Quốc, ranh giới giữa nhà nước và các tập đoàn công nghệ lớn hay cả những công ty tư nhân là không rõ ràng, có thể là điều kiện để Bắc Kinh truy cập lượng dữ liệu vô hạn theo một cách tập trung nhất.

Điểm khác biệt thứ hai cũng quan trọng không kém, theo Lý Khai Phục, đó là dữ liệu của Mỹ được khai thác từ các nguồn trên Internet, bao gồm ứng dụng và website. Trong khi đó, dữ liệu Trung Quốc lấy từ hoạt động thực tế của người dân, từ địa chỉ đi lại, công việc, các cuộc tranh luận, mối quan hệ xã hội. Trong bối cảnh AI thu hẹp khoảng cách giữa thế giới thực và kỹ thuật số, điều này có thể mang lại cho Bắc Kinh lợi thế đáng kể.

Cây bút Ashley Rindsberg của trang tin Unherd (Vương quốc Anh) nhận định rằng công nghệ AI đã thực sự hiện diện và điều các quốc gia đang thiếu là dữ liệu. Nó cũng tương tự như việc cả thế giới đang có một bản thiết kế không bản quyền về một loại tên lửa mạnh mẽ nhưng thiếu nhiên liệu trầm trọng để hiện thực hoá. Ai cũng có thể chế tạo tên lửa, song cuộc chơi chỉ dành cho những người có đủ tài nguyên đưa nó lên quỹ đạo.

Theo Thế Vinh (VietNamNet)