-
Hà Nội sẽ công bố toàn bộ bản vẽ quy hoạch Thủ đô vào cuối tháng 6 -
Hàng trăm người có mặt ở hiện trường vụ tai nạn nghiêm trọng giữa đêm: Nguyên nhân người đàn ông tử vong -
Master Sanker lên tiếng sau clip tặng iPhone tại Hồ Gươm, thừa nhận một số video có dàn dựng trên mạng xã hội -
Chân dung nữ đại sứ Mỹ đầu tiên tại Việt Nam vừa được Thượng viện phê chuẩn -
Khai báo không trung thực về ngoại tệ, vàng khi xuất nhập cảnh có thể bị phạt tới 50 triệu đồng -
Hà Nội đề xuất loạt chính sách đặc thù cải tạo chung cư cũ: Người dân được bồi thường và tái định cư ra sao? -
Đại án gia tộc thời trang Mango: Phó Chủ tịch tập đoàn bị bắt vì cáo buộc bức tử cha ruột -
Người đàn ông lặn xuống sông Lô tìm các nam sinh gặp nạn: "Nhìn thấy các cháu dưới nước tôi gần như chết lặng" -
Hôn nhân của Tiên Nguyễn và chồng Canada gốc Dubai: Ít phô trương nhưng đầy những cử chỉ ngọt ngào -
Nữ sinh lớp 12 rời nhà rồi mất liên lạc nhiều ngày, công an phát thông báo tìm kiếm
Công nghệ
15/05/2025 16:35Chàng sinh viên phát triển bộ gõ tiếng Việt tích hợp AI
v7 là tên gọi của bộ gõ do Trí Đức (sinh năm 2003), sinh viên Đại học Bách khoa TP HCM, phát triển với mục tiêu giúp người dùng gõ tiếng Việt nhanh hơn. Dự án đã được chấp nhận trình bày tại IJCAI 2025 – một trong những hội nghị quốc tế danh giá về trí tuệ nhân tạo, quy tụ nhiều công trình nghiên cứu từ các phòng thí nghiệm và trường đại học hàng đầu thế giới.
Khác với các bộ gõ tiếng Việt phổ biến hiện nay như Telex hay VNI, vốn hoạt động theo nguyên lý bổ sung, tức là gõ đầy đủ ký tự rồi thêm dấu, v7 sử dụng mô hình AI để dự đoán từ cần nhập chỉ dựa trên một phần cấu trúc âm tiết. Ví dụ, người dùng chỉ cần nhập “v7”, hệ thống sẽ gợi ý “Việt”.
Ý tưởng này xuất phát từ thói quen viết tắt của một bộ phận người Việt trong giao tiếp hàng ngày, khi dùng những chứ cái đầu để đại diện cho cả một từ, ví dụ như “hs” là “học sinh”. Theo Đức, nếu con người có thể hiểu cách viết này thì mô hình AI cũng hoàn toàn có khả năng xử lý tương tự nếu được huấn luyện với dữ liệu phù hợp.
Bộ gõ tận dụng đặc điểm âm tiết tiếng Việt – vốn được cấu tạo từ ba thành phần: phụ âm đầu, phần vần và thanh điệu – để giảm số lần gõ phím, đồng thời vẫn đảm bảo tính chính xác trong việc gợi ý từ.
Đức cho biết dự án sử dụng kiến trúc GPT-2, một mô hình thuộc dòng transformers, nổi bật với khả năng hiểu ngữ cảnh và dự đoán ngôn ngữ. Chàng sinh viên đã xây dựng lại toàn bộ tokenizer (bộ mã hóa từ vựng) để phù hợp với tiếng Việt, đảm bảo chỉ sử dụng các từ đúng chính tả, tối ưu hóa khả năng xử lý và dự đoán.
Ngoài ra, mô hình được huấn luyện trên Vietnamese Curated Dataset, bộ dữ liệu gồm hơn 10 tỷ từ do Viettel Solutions phát hành. Nguồn dữ liệu phong phú này giúp hệ thống học được ngữ cảnh sử dụng tiếng Việt trong đa dạng tình huống, từ văn bản hành chính đến hội thoại đời thường.
Về mặt hiệu năng, phiên bản hiện tại có thể đưa ra đúng gần 70% từ người dùng định nhập lên vị trí đầu tiên, với độ trễ trung bình chỉ khoảng 0,03 giây – đủ điều kiện chạy thời gian thực trên cả máy tính và điện thoại.
Khác với quan niệm phổ biến rằng tiếng Việt có 6 thanh điệu, Đức tham khảo nghiên cứu của các nhà ngữ học như Cao Xuân Hạo, Henri Maspero và đề xuất hệ thống 8 thanh điệu để mô hình AI xử lý ngôn ngữ chính xác hơn. Đây cũng là cơ sở hình thành tên gọi "v7", vừa tượng trưng cho “Việt”, vừa thể hiện nguyên lý xây dựng trên nền tảng các yếu tố âm vị học.
Hiện v7 đang được công bố dưới dạng mã nguồn mở trên GitHub để cộng đồng lập trình viên có thể thử nghiệm và đóng góp. Song song đó, Đức đang phát triển phiên bản phần mềm cài đặt cho Windows và macOS, nhắm đến nhóm người dùng phổ thông.
Trong kế hoạch phát triển tiếp theo, Đức ưu tiên xây dựng bàn phím ảo dành cho iPhone, nền tảng phổ biến trong việc nhập liệu cá nhân. Bên cạnh đó, mô hình sẽ được cải thiện độ chính xác bằng cách tiếp tục huấn luyện trên dữ liệu hội thoại tự nhiên.
“Mục tiêu của mình là tạo ra một công cụ nhập liệu tiếng Việt nhanh và thông minh, thân thiện với cả người dùng công nghệ lẫn người dùng phổ thông”, Đức chia sẻ.
Kết quả đánh giá cho thấy v7 giúp giảm hơn 50% số lần nhấn phím so với các bộ gõ truyền thống như Telex và VNI, cải thiện tốc độ nhập liệu đáng kể. Tuy nhiên, vì v7 là một bộ gõ kiểu dự đoán, người dùng sẽ cần một thời gian làm quen. Sau khi quen thuộc với cơ chế hoạt động của AI, tốc độ gõ có thể tăng thêm đến 50%.
v7 không chỉ là một dự án kỹ thuật, mà còn là một trong những nỗ lực cá nhân hiếm hoi từ Việt Nam được ghi nhận tại sân chơi nghiên cứu AI toàn cầu. Trong bối cảnh Việt Nam đang đầu tư mạnh vào hạ tầng trí tuệ nhân tạo, sự xuất hiện của các sản phẩm ứng dụng như v7 được kỳ vọng sẽ góp phần thúc đẩy hệ sinh thái công nghệ nội địa phát triển.
- Trung Quốc bắn 21 loạt đại bác chào đón Tổng thống Putin tại Bắc Kinh (39 phút trước)
- Neymar và ván cược cuối cùng của Brazil: Khi thiên tài phải chạy đua với chính cơ thể mình (45 phút trước)
- Giá vàng miếng lao dốc mạnh, người mua vùng đỉnh lỗ nặng (47 phút trước)
- Đạo diễn Perfect Crown cúi đầu khóc nghẹn, xin lỗi vì bê bối xuyên tạc lịch sử (48 phút trước)
- Hà Nội sẽ công bố toàn bộ bản vẽ quy hoạch Thủ đô vào cuối tháng 6 (48 phút trước)
- Bước đi chiến lược của Samsung: Sức hút từ "tân binh" Galaxy S27 Pro có thể làm lu mờ phiên bản Ultra (49 phút trước)
- 6 món đồ quen thuộc trong nhà có thể âm thầm làm tăng nguy cơ ung thư tuyến tụy (58 phút trước)
- Khởi tố chủ chuỗi cửa hàng K.W Sneaker: Thu giữ hơn 1.400 đôi giày giả các thương hiệu lớn, thu lợi bất chính hơn 1 tỷ đồng (1 giờ trước)
- Hàng trăm người có mặt ở hiện trường vụ tai nạn nghiêm trọng giữa đêm: Nguyên nhân người đàn ông tử vong (1 giờ trước)
- Master Sanker lên tiếng sau clip tặng iPhone tại Hồ Gươm, thừa nhận một số video có dàn dựng trên mạng xã hội (1 giờ trước)