Công nghệ
15/05/2025 09:35Chàng sinh viên phát triển bộ gõ tiếng Việt tích hợp AI
v7 là tên gọi của bộ gõ do Trí Đức (sinh năm 2003), sinh viên Đại học Bách khoa TP HCM, phát triển với mục tiêu giúp người dùng gõ tiếng Việt nhanh hơn. Dự án đã được chấp nhận trình bày tại IJCAI 2025 – một trong những hội nghị quốc tế danh giá về trí tuệ nhân tạo, quy tụ nhiều công trình nghiên cứu từ các phòng thí nghiệm và trường đại học hàng đầu thế giới.
Khác với các bộ gõ tiếng Việt phổ biến hiện nay như Telex hay VNI, vốn hoạt động theo nguyên lý bổ sung, tức là gõ đầy đủ ký tự rồi thêm dấu, v7 sử dụng mô hình AI để dự đoán từ cần nhập chỉ dựa trên một phần cấu trúc âm tiết. Ví dụ, người dùng chỉ cần nhập “v7”, hệ thống sẽ gợi ý “Việt”.

Ý tưởng này xuất phát từ thói quen viết tắt của một bộ phận người Việt trong giao tiếp hàng ngày, khi dùng những chứ cái đầu để đại diện cho cả một từ, ví dụ như “hs” là “học sinh”. Theo Đức, nếu con người có thể hiểu cách viết này thì mô hình AI cũng hoàn toàn có khả năng xử lý tương tự nếu được huấn luyện với dữ liệu phù hợp.
Bộ gõ tận dụng đặc điểm âm tiết tiếng Việt – vốn được cấu tạo từ ba thành phần: phụ âm đầu, phần vần và thanh điệu – để giảm số lần gõ phím, đồng thời vẫn đảm bảo tính chính xác trong việc gợi ý từ.

Đức cho biết dự án sử dụng kiến trúc GPT-2, một mô hình thuộc dòng transformers, nổi bật với khả năng hiểu ngữ cảnh và dự đoán ngôn ngữ. Chàng sinh viên đã xây dựng lại toàn bộ tokenizer (bộ mã hóa từ vựng) để phù hợp với tiếng Việt, đảm bảo chỉ sử dụng các từ đúng chính tả, tối ưu hóa khả năng xử lý và dự đoán.
Ngoài ra, mô hình được huấn luyện trên Vietnamese Curated Dataset, bộ dữ liệu gồm hơn 10 tỷ từ do Viettel Solutions phát hành. Nguồn dữ liệu phong phú này giúp hệ thống học được ngữ cảnh sử dụng tiếng Việt trong đa dạng tình huống, từ văn bản hành chính đến hội thoại đời thường.
Về mặt hiệu năng, phiên bản hiện tại có thể đưa ra đúng gần 70% từ người dùng định nhập lên vị trí đầu tiên, với độ trễ trung bình chỉ khoảng 0,03 giây – đủ điều kiện chạy thời gian thực trên cả máy tính và điện thoại.
Khác với quan niệm phổ biến rằng tiếng Việt có 6 thanh điệu, Đức tham khảo nghiên cứu của các nhà ngữ học như Cao Xuân Hạo, Henri Maspero và đề xuất hệ thống 8 thanh điệu để mô hình AI xử lý ngôn ngữ chính xác hơn. Đây cũng là cơ sở hình thành tên gọi "v7", vừa tượng trưng cho “Việt”, vừa thể hiện nguyên lý xây dựng trên nền tảng các yếu tố âm vị học.
Hiện v7 đang được công bố dưới dạng mã nguồn mở trên GitHub để cộng đồng lập trình viên có thể thử nghiệm và đóng góp. Song song đó, Đức đang phát triển phiên bản phần mềm cài đặt cho Windows và macOS, nhắm đến nhóm người dùng phổ thông.
Trong kế hoạch phát triển tiếp theo, Đức ưu tiên xây dựng bàn phím ảo dành cho iPhone, nền tảng phổ biến trong việc nhập liệu cá nhân. Bên cạnh đó, mô hình sẽ được cải thiện độ chính xác bằng cách tiếp tục huấn luyện trên dữ liệu hội thoại tự nhiên.
“Mục tiêu của mình là tạo ra một công cụ nhập liệu tiếng Việt nhanh và thông minh, thân thiện với cả người dùng công nghệ lẫn người dùng phổ thông”, Đức chia sẻ.
Kết quả đánh giá cho thấy v7 giúp giảm hơn 50% số lần nhấn phím so với các bộ gõ truyền thống như Telex và VNI, cải thiện tốc độ nhập liệu đáng kể. Tuy nhiên, vì v7 là một bộ gõ kiểu dự đoán, người dùng sẽ cần một thời gian làm quen. Sau khi quen thuộc với cơ chế hoạt động của AI, tốc độ gõ có thể tăng thêm đến 50%.
v7 không chỉ là một dự án kỹ thuật, mà còn là một trong những nỗ lực cá nhân hiếm hoi từ Việt Nam được ghi nhận tại sân chơi nghiên cứu AI toàn cầu. Trong bối cảnh Việt Nam đang đầu tư mạnh vào hạ tầng trí tuệ nhân tạo, sự xuất hiện của các sản phẩm ứng dụng như v7 được kỳ vọng sẽ góp phần thúc đẩy hệ sinh thái công nghệ nội địa phát triển.
Tin cùng chuyên mục








-
Honda bán xe Cub hơn 80 triệu, bản chạy điện chỉ hơn 20 triệu đã về: Dáng đẹp lạ, chỉ có thể đi một mình (19/07)
-
Tuổi thọ phụ thuộc vào 69: Nếu bạn dễ dàng thực hiện 5 điều này ở tuổi 69 thì có thể sống đến 90 tuổi (19/07)
-
Kinh hoàng khoảnh khắc vòng đu quay bốc cháy ngùn ngụt ở Brazil, 54 người hoảng loạn treo lơ lửng giữa khói lửa (19/07)
-
NÓNG - Vụ sửa bài thi lớp 10: Hiệu trưởng cùng 5 giáo viên "hô biến" từ 4,5 điểm thành 8 điểm, từ thủ khoa thành trượt (19/07)
-
9 khối nữ chiến sĩ Công an, Quân đội tổng hợp luyện cho ngày 2/9: Vượt nắng hè, rèn ý chí, vững bước chân (19/07)
-
Vụ CEO bị vạch trần ngoại tình với cấp dưới ở concert: Công ty tuyên bố lập tức mở cuộc điều tra, cả 2 đều bị cho tạm nghỉ (19/07)
-
Tên lửa Patriot, xe tăng Abrams tăng tốc đổ về Ukraine (19/07)
-
Người dân bàng hoàng kể lại vụ cháy ngùn ngụt trong đêm ở Hà Nội: “Ngọn lửa nhanh chóng cháy lan, một vài người cố gắng dập lửa nhưng không được” (19/07)
-
6 nguyên nhân iPhone bị nóng máy và cách xử lý (19/07)
-
Tom Cruise và bạn gái sexy kém 26 tuổi tình tứ trên du thuyền (19/07)
Bài đọc nhiều



