-
Cứu sống người phụ nữ ở Hà Nội định nhảy cầu tự tử vì một lý do đau lòng -
Từ năm 2026, bán hàng online trên sàn thay đổi lớn về thuế, ai được khấu trừ, ai phải quyết toán cuối năm? -
Tìm thấy 2 cây vàng trị giá hơn 300 triệu đồng người dân đánh rơi xuống sông Hương -
Hà Nội sẽ tổ chức câu lạc bộ làm quen giúp thanh niên kết hôn -
Sự thật về tin đồn "cán bộ công an bị đâm tử vong" gây xôn xao, công an cảnh báo khẩn -
Từ năm 2026, xe máy rẽ không xi nhan có thể bị phạt tới 14 triệu đồng, nhiều người bất ngờ vì mức xử phạt mới -
Bi kịch "ở rể": Thu nhập 25 triệu/tháng, nộp vợ gần hết vẫn không được quyền biếu Tết bố mẹ đẻ bằng nhà ngoại -
Đỉnh cao "Công ty nhà người ta": Hủy tăng ca cho nhân viên về xem U23 Việt Nam, tặng thêm suất thịt kho tàu gây bão MXH -
Phạt nguội "dồn dập" 24 giờ qua, camera AI ghi nhận loạt vi phạm giao thông khiến nhiều tài xế giật mình -
Thực hư quy định giáo viên phải vận động 95% phụ huynh đóng tiền mới được xếp loại xuất sắc
Công nghệ
16/12/2023 17:02AI Việt Nam dịch tiếng Lào, Thái, Khmer,… sang tiếng Việt
Dịch máy là một trong những ứng dụng thành công nhất của công nghệ trí tuệ nhân tạo trong việc xử lý ngôn ngữ tự nhiên. Các hệ thống dịch máy chất lượng cao như Google Translate của Google hay Bing Translator của Microsoft cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình.
Tuy nhiên, rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên. Do đó, việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là việc rất cấp thiết và gặp nhiều thách thức.
Mới đây, Viện Công nghệ Thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) đã nghiên cứu, làm chủ công nghệ dịch máy tiên tiến nhất hiện nay. Đơn vị này cũng đã xây dựng thành công hệ thống dịch văn bản đa ngữ giữa tiếng Việt với các ngôn ngữ của khu vực bao gồm tiếng Lào, tiếng Khmer, tiếng Thái Lan, tiếng Malaysia và tiếng Indonesia.
Theo đơn vị phát triển, các ngôn ngữ như Lào, Thái và Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy. Khó khăn không chỉ đến từ sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa.
Mô hình AI do Viện Công nghệ thông tin phát triển đã "học" được cách "thích ứng" với tất cả những điểm đặc biệt của các ngôn ngữ nói trên. Từ đó, phần mềm cho phép nhanh chóng bổ sung các ngôn ngữ khác khi cần với chất lượng dịch tương đương các sản phẩm tiên tiến của nước ngoài.
Điểm đặc biệt là phần mềm dịch đa ngữ này chạy riêng, lưu trữ dữ liệu tại chỗ, không phải sử dụng API của hãng cung cấp dịch vụ khác. Điều này giúp đảm bảo an ninh, an toàn và không lộ lọt thông tin ra ngoài.
Một vấn đề của các hệ thống dịch như Google Translate hay Bing Translator là khả năng thích ứng miền chuyên biệt (domain-specific). Nghĩa là, chúng có thể dịch tốt cho miền ngôn ngữ chung, phổ thông phục vụ đại chúng nhưng chất lượng dịch kém trong các miền ngôn ngữ mang tính chuyên môn như y tế, luật pháp, an ninh…
Để khắc phục tồn tại trên, nhóm nghiên cứu tại Viện Công nghệ thông tin đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch hai chiều sang các ngôn ngữ nghèo tài nguyên với chất lượng tốt.
Cụ thể, phần mềm này có chất lượng tương đương hoặc cao hơn Google Translate đối với cùng văn bản. Ngoài ra, phần mềm không hạn chế độ dài của văn bản.
Trong giai đoạn 2022-2023, hệ thống tập trung triển khai kỹ thuật mô hình ngôn ngữ lớn (Large Language Models – LLMs) ưu tiên các cặp ngôn ngữ sau Việt – Khmer, Việt – Lào, Việt – Thái, Việt – Malay và Việt – Indo.
Với ngôn ngữ tiếng Anh (tài nguyên dữ liệu rất dồi dào và là thế mạnh ưu tiên của Google), phần mềm của Viện Công nghệ thông tin đảm bảo chất lượng gần tương đương Google Translate. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.
Hệ thống này được nhóm nghiên cứu tự phát triển, dựa trên hạ tầng kỹ thuật hỗ trợ lưu trữ dữ liệu ngôn ngữ lớn và năng lực siêu tính toán trí tuệ nhân tạo/học máy (AI/ML) mạnh nhất Việt Nam.
Viện Công nghệ thông tin hoàn toàn làm chủ các công nghệ liên quan. Do vậy, đơn vị này có thể dễ dàng mở rộng ứng dụng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga… khi cần.
Phần mềm dịch đa ngôn ngữ Make in Viet Nam này được kỳ vọng sẽ là lời giải cho bài toán tiếp cận thông tin của đồng bào các dân tộc thiểu số.
Theo Trọng Đạt (VietNamNet)
- Bố Xuân Bắc nấu cháo gà tiếp lửa cho con trai: "Nếu U23 Việt Nam vô địch, tôi sẽ làm 80 mâm cỗ mời cả làng" (17 phút trước)
- Cô gái yêu hai anh em sinh đôi cùng một lúc, thuê phòng sống chung và được gia đình ủng hộ (34 phút trước)
- Sự thật sốc về đội trưởng U23 Khuất Văn Khang: Từng bỏ ăn 3 ngày vì bị bố cấm theo nghiệp cầu thủ (40 phút trước)
- Mẹ của Thùy Tiên thông báo bất ngờ trên livestream, lần đầu nhắc đến con gái sau khi bị phạt 2 năm tù (1 giờ trước)
- Người yêu đe dọa tung clip riêng tư để "tống tiền", cô gái có pha xử lý khiến nhiều người ngỡ ngàng (1 giờ trước)
- Bảng giá xe Honda LEAD 2026 giữa tháng 1/2026: Giảm không phanh, lấn át Vision và SH Mode vì quá rẻ (1 giờ trước)
- Cứu sống người phụ nữ ở Hà Nội định nhảy cầu tự tử vì một lý do đau lòng (1 giờ trước)
- Từ năm 2026, bán hàng online trên sàn thay đổi lớn về thuế, ai được khấu trừ, ai phải quyết toán cuối năm? (2 giờ trước)
- Từ tranh cãi đời thường đến rơi vào cảnh tù tội, 2 anh em ruột ở Hà Tĩnh bị khởi tố chỉ vì 1 con bò (2 giờ trước)
- Đây là chiếc Galaxy S cao cấp full tính năng giá rẻ nhất Việt Nam, AI toàn diện áp đảo iPhone 17 (2 giờ trước)