-
Lần đầu công bố sổ ghi chép của bà Nguyễn Thị Bình và nhiều tài liệu ngoại giao
-
Nháy đèn pha và vượt đèn đỏ, tài xế xe bán tải bị phạt hơn 20 triệu đồng
-
Lan truyền thông tin nghỉ 4 ngày Tết Dương lịch 2026: Bộ Nội vụ lên tiếng
-
Nam thanh niên chết gục trong quán game ở Hải Phòng: Vì sao nhân viên và mọi người xung quanh không biết?
-
Kết quả kiểm định nhánh cầu Vĩnh Tuy sau vụ cháy bãi giữ xe
-
Chủ tịch Đà Nẵng phê bình 29 xã , phường chậm cập nhật số liệu chi trả quà 2 - 9
-
Những thiết bị mệnh danh là "thần ăn cắp điện" bạn nên biết
-
Chủ tịch TPHCM Nguyễn Văn Được lý giải việc "không tự nhiên mà một số chủ tịch xin nghỉ"
-
Thông tin cá rô phi "có độc", gây hại sức khỏe, nhà khoa học nói gì?
-
Những hình ảnh đang khiến cộng đồng mạng cười vỡ bụng: Đây là lý do nhiều cô giáo mầm non được khuyên đi tập Gym!
Công nghệ
22/07/2024 09:20Sợ hãi với AI tạo giọng nói giống hệt con người
Sản phẩm này "đỉnh" đến mức gã khổng lồ công nghệ Mỹ không có ý định tích hợp nó vào sản phẩm hoặc mở rộng quyền truy cập của công chúng, do lo ngại nguy cơ tiềm ẩn về việc sử dụng cho mục đích xấu.
Công cụ có tên VALL-E 2, giúp chuyển văn bản thành giọng nói hoặc bắt chước giọng nói chỉ dựa trên vài giây âm thanh. Hệ thống được đào tạo để nhận dạng các khái niệm mà không cần cung cấp bất kỳ ví dụ nào về các khái niệm đó.
"VALL-E 2 là robot đầu tiên đạt được "sự tương đương với con người", nghĩa là nó đáp ứng hoặc vượt qua các tiêu chuẩn về độ giống con người" - Microsoft tuyên bố.
VALL-E 2 kế thừa hệ thống VALL-E ban đầu được công bố vào tháng 1-2023.

"VALL-E 2 có thể tạo ra giọng nói chính xác, tự nhiên theo đúng giọng của người nói gốc" - các nhà phát triển tại Microsoft Research quả quyết và cho biết công cụ này có thể tổng hợp các câu phức tạp.
Sở dĩ VALL-E 2 này có khả năng "như con người" nhờ tích hợp hai tính năng chính, gồm tính năng lấy mẫu có nhận thức về sự lặp lại và mô hình mã hóa theo nhóm.
Trong đó, tính năng lấy mẫu có nhận thức về sự lặp lại giúp giải quyết được các lần lặp lại của các đơn vị ngôn ngữ nhỏ như từ hoặc thành phần của từ; ngăn chặn các vòng lặp vô hạn của âm thanh hoặc cụm từ trong quá trình giải mã.
Còn mô hình mã nhóm giúp cải thiện hiệu quả bằng cách giảm độ dài chuỗi hoặc số lượng mã thông báo riêng lẻ, mà mô hình xử lý trong một chuỗi đầu vào duy nhất. Qua đó, có thể tạo ra giọng nói và giúp quản lý những khó khăn với việc xử lý chuỗi âm thanh dài.
Các thí nghiệm được tiến hành trên các tập dữ liệu LibriSpeech và VCTK đã chỉ ra rằng VALL-E 2 vượt trội hơn các hệ thống TTS zero-shot trước đây về độ mạnh mẽ của giọng nói, độ tự nhiên và độ tương đồng của người nói.
Các nhà nghiên cứu cho rằng rằng chất lượng đầu ra của VALL-E 2 phụ thuộc vào độ dài và chất lượng của lời nói cũng như các yếu tố môi trường, như tiếng ồn xung quanh.
Các nhà nghiên cứu nhận định trong tương lai, VALL-E 2 có thể tổng hợp giọng nói, duy trì được danh tính của người nói. Hơn nữa, nó có thể được sử dụng cho mục đích học tập, giáo dục, giải trí, báo chí, nội dung tự biên soạn, tính năng trợ năng, hệ thống phản hồi bằng giọng nói tương tác, dịch thuật, chatbot…
Theo Bằng Hưng (Nld.com.vn)








- Nghe vợ tôi tuyên bố từ mặt các anh chồng, cấm họ béng mảng đến nhà, bố tôi tức giận nhưng không phản đối (14:09)
- Lamine Yamal được ưu ái đặc biệt, gây bất ổn phòng thay đồ Barca (14:03)
- "Tinh hoa hội tụ" phiên bản đời thực: Chỉ 5 giây lên sóng, tân bác sĩ nội trú đẹp trai khiến chị em "sốt xình xịch"! (14:00)
- Lần đầu công bố sổ ghi chép của bà Nguyễn Thị Bình và nhiều tài liệu ngoại giao (13 phút trước)
- Thêm hai bộ phim Việt 18+ ra rạp (14 phút trước)
- Bóc mẽ chiêu trò giả danh "công an ma túy" để lừa đảo (15 phút trước)
- Nháy đèn pha và vượt đèn đỏ, tài xế xe bán tải bị phạt hơn 20 triệu đồng (17 phút trước)
- Học sinh Lâm Đồng dự phiên tòa giả định xử tội phạm ma túy (17 phút trước)
- Tinh hoa của tinh hoa: Chân dung thủ khoa kỳ thi bác sĩ nội trú đang HOT nhất MXH! (20 phút trước)
- Báo Trung đặt nghi vấn Australia cố ý “nhả” để giúp U23 Trung Quốc giành vé vào VCK giải châu Á? (24 phút trước)




