-
Cảnh báo từ Cục CSGT: Đã bán hoặc cho tặng xe, chủ cũ cần làm ngay điều này để tránh rắc rối pháp lý -
Khi đàn ông đối diện việc cưới mẹ đơn thân: Sự tỉnh táo nghiệt ngã hay bản lĩnh của lòng bao dung? -
Chi tiết 34 điểm bắn pháo hoa tại Hà Nội dịp Tết Nguyên Đán 2026, bao gồm tầm cao và tầm thấp -
Phía sau khoản thưởng Tết "khủng" của chồng: Lời tiết lộ từ vị sếp khiến tôi trăn trở -
Tử vi Chủ nhật ngày 1/2/2026 của 12 con giáp: Mùi tốt số, Tuất rủng rỉnh tiền tiêu -
Bức xúc trước loạt ảnh, video AI gán ghép Đình Bắc và Á hậu Châu Anh để câu view -
Lời khai khó chấp nhận của nam công nhân bị bắt vì sàm sỡ đồng nghiệp chưa đủ 16 tuổi ở Đồng Nai -
Vụ 6 cựu chiến binh kêu oan: Tòa tuyên mức án đúng bằng thời gian đã chấp hành xong -
Trường đưa ra 2 quyết định nóng sau vụ giáo viên sửa bài thi đúng thành sai để "dìm" điểm học sinh -
TP.HCM: Cận cảnh hiện trường vụ cháy nhà dân, khói đen mù mịt bao trùm
Công nghệ
15/05/2025 16:35Chàng sinh viên phát triển bộ gõ tiếng Việt tích hợp AI
v7 là tên gọi của bộ gõ do Trí Đức (sinh năm 2003), sinh viên Đại học Bách khoa TP HCM, phát triển với mục tiêu giúp người dùng gõ tiếng Việt nhanh hơn. Dự án đã được chấp nhận trình bày tại IJCAI 2025 – một trong những hội nghị quốc tế danh giá về trí tuệ nhân tạo, quy tụ nhiều công trình nghiên cứu từ các phòng thí nghiệm và trường đại học hàng đầu thế giới.
Khác với các bộ gõ tiếng Việt phổ biến hiện nay như Telex hay VNI, vốn hoạt động theo nguyên lý bổ sung, tức là gõ đầy đủ ký tự rồi thêm dấu, v7 sử dụng mô hình AI để dự đoán từ cần nhập chỉ dựa trên một phần cấu trúc âm tiết. Ví dụ, người dùng chỉ cần nhập “v7”, hệ thống sẽ gợi ý “Việt”.
Ý tưởng này xuất phát từ thói quen viết tắt của một bộ phận người Việt trong giao tiếp hàng ngày, khi dùng những chứ cái đầu để đại diện cho cả một từ, ví dụ như “hs” là “học sinh”. Theo Đức, nếu con người có thể hiểu cách viết này thì mô hình AI cũng hoàn toàn có khả năng xử lý tương tự nếu được huấn luyện với dữ liệu phù hợp.
Bộ gõ tận dụng đặc điểm âm tiết tiếng Việt – vốn được cấu tạo từ ba thành phần: phụ âm đầu, phần vần và thanh điệu – để giảm số lần gõ phím, đồng thời vẫn đảm bảo tính chính xác trong việc gợi ý từ.
Đức cho biết dự án sử dụng kiến trúc GPT-2, một mô hình thuộc dòng transformers, nổi bật với khả năng hiểu ngữ cảnh và dự đoán ngôn ngữ. Chàng sinh viên đã xây dựng lại toàn bộ tokenizer (bộ mã hóa từ vựng) để phù hợp với tiếng Việt, đảm bảo chỉ sử dụng các từ đúng chính tả, tối ưu hóa khả năng xử lý và dự đoán.
Ngoài ra, mô hình được huấn luyện trên Vietnamese Curated Dataset, bộ dữ liệu gồm hơn 10 tỷ từ do Viettel Solutions phát hành. Nguồn dữ liệu phong phú này giúp hệ thống học được ngữ cảnh sử dụng tiếng Việt trong đa dạng tình huống, từ văn bản hành chính đến hội thoại đời thường.
Về mặt hiệu năng, phiên bản hiện tại có thể đưa ra đúng gần 70% từ người dùng định nhập lên vị trí đầu tiên, với độ trễ trung bình chỉ khoảng 0,03 giây – đủ điều kiện chạy thời gian thực trên cả máy tính và điện thoại.
Khác với quan niệm phổ biến rằng tiếng Việt có 6 thanh điệu, Đức tham khảo nghiên cứu của các nhà ngữ học như Cao Xuân Hạo, Henri Maspero và đề xuất hệ thống 8 thanh điệu để mô hình AI xử lý ngôn ngữ chính xác hơn. Đây cũng là cơ sở hình thành tên gọi "v7", vừa tượng trưng cho “Việt”, vừa thể hiện nguyên lý xây dựng trên nền tảng các yếu tố âm vị học.
Hiện v7 đang được công bố dưới dạng mã nguồn mở trên GitHub để cộng đồng lập trình viên có thể thử nghiệm và đóng góp. Song song đó, Đức đang phát triển phiên bản phần mềm cài đặt cho Windows và macOS, nhắm đến nhóm người dùng phổ thông.
Trong kế hoạch phát triển tiếp theo, Đức ưu tiên xây dựng bàn phím ảo dành cho iPhone, nền tảng phổ biến trong việc nhập liệu cá nhân. Bên cạnh đó, mô hình sẽ được cải thiện độ chính xác bằng cách tiếp tục huấn luyện trên dữ liệu hội thoại tự nhiên.
“Mục tiêu của mình là tạo ra một công cụ nhập liệu tiếng Việt nhanh và thông minh, thân thiện với cả người dùng công nghệ lẫn người dùng phổ thông”, Đức chia sẻ.
Kết quả đánh giá cho thấy v7 giúp giảm hơn 50% số lần nhấn phím so với các bộ gõ truyền thống như Telex và VNI, cải thiện tốc độ nhập liệu đáng kể. Tuy nhiên, vì v7 là một bộ gõ kiểu dự đoán, người dùng sẽ cần một thời gian làm quen. Sau khi quen thuộc với cơ chế hoạt động của AI, tốc độ gõ có thể tăng thêm đến 50%.
v7 không chỉ là một dự án kỹ thuật, mà còn là một trong những nỗ lực cá nhân hiếm hoi từ Việt Nam được ghi nhận tại sân chơi nghiên cứu AI toàn cầu. Trong bối cảnh Việt Nam đang đầu tư mạnh vào hạ tầng trí tuệ nhân tạo, sự xuất hiện của các sản phẩm ứng dụng như v7 được kỳ vọng sẽ góp phần thúc đẩy hệ sinh thái công nghệ nội địa phát triển.
- Hà Nội tính xây bể ngầm khổng lồ dung tích 125 triệu m3 để chống ngập (21:06)
- Hà Nội ban hành Quy chế hoạt động Ban Chỉ đạo về phát triển Hệ thống camera giám sát tập trung (1 giờ trước)
- Giá vàng chiều 1-2 tiếp tục neo đỉnh cao, thị trường trong nước lặng sóng giữa biến động mạnh của giá vàng thế giới (1 giờ trước)
- Bé gái 12 tuổi mất tích bí ẩn khi đạp xe đi tìm ông ngoại, gia đình đau đớn phát hiện thi thể (1 giờ trước)
- Gia Lai: Cái kết đắng cho nam thanh niên đánh võng, tông CSGT trọng thương rồi bỏ chạy (1 giờ trước)
- Thủ tướng Phạm Minh Chính nhận nhiệm vụ mới trong Ban chỉ đạo quốc gia (2 giờ trước)
- Alcaraz hạ gục Djokovic, hoàn tất bộ sưu tập Grand Slam ở tuổi 22 (2 giờ trước)
- Kinh hoàng xe tải "làm xiếc" rồi lật nghiêng trên Quốc lộ 6 sau va chạm với ô tô con (2 giờ trước)
- TP.HCM: Một nữ công nhân tử vong bất ngờ khi đang hát tại tiệc tất niên (3 giờ trước)
- Lãnh tụ tối cao Iran cảnh báo Mỹ, vạch "lằn ranh đỏ" trước đe dọa quân sự của Tổng thống Trump (3 giờ trước)