-
Bộ Nội vụ chính thức lên tiếng: Không có kỳ nghỉ lễ kéo dài 9 ngày trong tháng 4/2026 -
Bị nghi ngờ "kiếm tiền ác" để tậu Porsche và Mercedes, Kiên Hoàng "Gia đình Cam Cam" chính thức hé lộ công thức thành công -
Gia Lai: Thảm kịch hỏa hoạn lúc giữa trưa, nghi 4 bà cháu tử vong trong căn nhà cháy rụi -
Xác minh danh tính tài xế ô tô con lấn làn, vứt xe giữa đường rồi quay lại dọa đánh người tại TP.HCM -
Bộ Giáo dục chính thức lên tiếng: Đề tài giải Nhất khoa học kỹ thuật của học sinh Ninh Bình không có dấu hiệu đạo văn -
Bức tranh toàn cảnh về trọng trách của Thủ tướng Lê Minh Hưng và 6 Phó Thủ tướng nhiệm kỳ mới -
Vbiz xôn xao trước "bùng binh" tình ái mới: Võ Điền Gia Huy bị nghi "phát tín hiệu" với Uyển Ân dù đang được đẩy thuyền cùng Lê Tam Triều Dâng -
Bộ trưởng Y tế lý giải nguyên nhân hai bệnh viện nghìn tỷ vẫn "đắp chiếu" sau một thập kỷ -
Đề xuất đưa mẹ chồng vào viện dưỡng lão, nàng dâu bất ngờ trước phản ứng của gia đình -
Link web đen xuất hiện trong vở bài tập tin học lớp 3, chủ biên Nguyễn Trương Tri lên tiếng về sự cố và hướng xử lý
Công nghệ
29/07/2023 16:39AI bóc tách giọng nói thành văn bản
Ứng dụng có khả năng tối ưu nhận dạng vùng miền với khả năng hoạt động hiệu quả trong môi trường nhiễu, khoảng cách xa và hiển thị thời gian thực, đạt độ chính xác 95%.
Tự động bóc băng ghi âm
Ngày 13/7, Sở Khoa học Công nghệ TPHCM tổ chức hội thảo “Giải pháp chuyển đổi giọng nói thành văn bản Memobot”. Đây là một trong những hoạt động của Sàn Giao dịch Công nghệ TPHCM năm 2023, do Trung tâm Thông tin và Thống kê Khoa học và Công nghệ (CESTI) triển khai thực hiện.
Ông Phạm Tấn Anh Vũ (Công ty Cổ phần Giải pháp Trí thông minh nhân tạo Việt Nam) chia sẻ với nguồn dữ liệu gần 7.000 từ vựng tiếng Việt, Memobot là phương án hiệu quả giúp cá nhân và doanh nghiệp tiết kiệm thời gian, công sức, thúc đẩy tiến độ công việc, giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu.
Ứng dụng có khả năng tối ưu nhận dạng vùng miền với khả năng hoạt động hiệu quả trong môi trường nhiễu, khoảng cách xa và hiển thị thời gian thực, đạt độ chính xác 95%. Một giờ ghi âm có thể xử lý thành văn bản trong 6 phút.
Xả băng ghi âm truyền thống là việc nghe và đánh máy, ghi chép thủ công lại tập tin ghi âm. Công việc ngồi nghe băng ghi âm hàng giờ và viết lại thành văn bản phức tạp và có nhiều điểm hạn chế: Tốn nhiều thời gian, thời lượng ghi âm dài gây khó khăn trong việc nghe lại các đoạn âm thanh từng phần của biên bản.
Trong các doanh nghiệp, công việc xả băng ghi âm ở các cuộc họp sẽ được nhóm thư ký xử lý. Khi đó, với tốc độ nói 100 – 250 từ/phút và tốc độ gõ 50 – 70 từ/phút sẽ tốn nhiều thời gian để ghi chép, chuyển đổi thành văn bản.
Sau đó là công đoạn rà soát lại nội dung, thư ký sẽ nghe toàn bộ file ghi âm kết hợp với dò văn bản một lần nữa để đảm bảo tính chính xác của văn bản chuyển đổi. Do mất nhiều thời gian và công đoạn, biên bản sẽ ra chậm, đôi khi cuộc họp chỉ 1 giờ nhưng 2 ngày sau mới có biên bản hoàn chỉnh.
Khi sử dụng Memobot, mọi thông tin file ghi âm và văn bản đều được lưu trữ trên phần mềm. Giải pháp chuyển đổi giọng nói thành văn bản, hỗ trợ việc xả băng ghi âm, ứng dụng trong nhiều lĩnh vực như: Họp hành (lãnh đạo, thư ký ghi âm lại các buổi họp), phỏng vấn (nhà báo, luật sư, nhà tuyển dụng ghi âm lại các sự kiện, cuộc phỏng vấn), học tập (học sinh, sinh viên ghi âm lời thầy cô giảng bài), sáng tạo nội dung (người làm truyền thông YouTube/Podcasts ghi âm làm phụ đề video), sáng tác (nhà văn, nhà nghiên cứu ghi âm ngay khi vừa nảy ra ý tưởng).
Tự ngắt phân đoạn, loại bỏ tạp âm
Theo nhóm phát triển nghiên cứu, điểm nổi bật của hệ thống là hỗ trợ tự động tạo phụ đề và ngắt đoạn từng lời của nhiều người khác nhau trong thời gian thực, giúp tiết kiệm tối đa thời gian xử lý băng ghi âm, trong khi xả băng ghi âm truyền thống phải nghe và viết lại thủ công, tự ngắt phân đoạn thời gian và phân biệt từng người nói. Văn bản đầu ra được chuẩn hóa viết tắt, số, ngày tháng, từ nước ngoài, email và tự động viết hoa và chèn dấu chấm câu.
Memobot cũng hỗ trợ đăng tải và xuất văn bản chuyển đổi ra các loại tệp có định dạng khác nhau, xử lý toàn bộ các công đoạn trên trong thời gian thực, chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, từ nào sai thì chỉ cần gõ lại từ đó chứ không cần gõ lại toàn bộ nội dung.
Người dùng giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu. Hơn thế, giải pháp chuyển đổi giọng nói thành văn bản Memobot có thể được triển khai ngay, thích nghi nhiều ngôn ngữ lập trình và nhiều loại thiết bị (máy tính, điện thoại di động, micro) trong điều kiện ngoại tuyến, sử dụng dịch vụ cloud và máy chủ riêng để đảm bảo bảo mật thông tin trong đơn vị, doanh nghiệp.
TS Đỗ Quốc Trường, CEO của công ty VAIS, đơn vị phát triển ứng dụng Memobot cho biết, Memobot là tâm huyết của tập thể cố gắng đạt được trong suốt 4 năm qua. Mục tiêu là tạo ra một sản phẩm có thể giúp đỡ cho những người dùng có nhu cầu thực sự. Nhóm tác giả hy vọng mọi người sẽ yêu thích và có những trải nghiệm thú vị với Memobot.
Ứng dụng memobot đang được phát hành miễn phí trên hai nền tảng Android và iOS. Ngoài phiên bản phổ thông cung cấp thời lượng ghi âm 600 phút/tháng, ứng dụng ghi âm này còn có thêm phiên bản Plus cho thời gian ghi âm 6.000 phút/tháng, hỗ trợ ghi âm trực tuyến khi tương thích với các ứng dụng Zoom, Meets và Team cũng như hỗ trợ lưu trữ đám mây (Cloud).
Phiên bản Pro có thời gian ghi âm lên đến 12.000 phút/tháng, có các tính năng tương tự phiên bản Plus nhưng hỗ trợ thêm trình soạn thảo nâng cao và không giới hạn dung lượng lưu trữ đám mây.
Hiện tại sàn Giao dịch Công nghệ TPHCM tiếp tục hỗ trợ kết nối, chuyển giao công nghệ giải pháp chuyển đổi giọng nói thành văn bản cho đơn vị, tổ chức, cá nhân có nhu cầu.
Khi sử dụng Memobot, người dùng có thể ghi âm mọi lúc, mọi nơi bằng smartphone, kể cả việc ghi âm cuộc họp trên Zoom, Teams hay Meet. Mọi thông tin file ghi âm và văn bản đều được lưu trữ trên phần mềm. Sau đó, người dùng dễ dàng nắm bắt và chia sẻ cho người khác, do đó các cá nhân và doanh nghiệp khác cũng có thể tiếp nhận thông tin từ dữ liệu đã được lưu trữ lại.
Theo Chi Nhật (Giáo dục & Thời đại)
- Chi tiết các điểm pháo hoa 30/4 trên cả nước: TP.HCM bắn 7 điểm, nhiều địa phương đồng loạt tổ chức (1 giờ trước)
- Đây là chiếc Galaxy S full tính năng giá rẻ nhất Việt Nam, chỉ từ 13 triệu có AI toàn năng hạ đo ván iPhone 17e (1 giờ trước)
- Xác định danh tính nạn nhân vụ 4 người tử vong sau tiếng nổ lớn ở Gia Lai (1 giờ trước)
- Honda chính thức ra mắt "vua xe ga" 150cc mới giá 45 triệu đồng: Thiết kế "nét: hơn cả SH và SH Mode (1 giờ trước)
- Phụ huynh chật vật xoay xở đưa đón con sau khi trường tạm dừng bán trú vì 148 học sinh nghi ngộ độc (2 giờ trước)
- Iran phát tín hiệu gây chú ý: Không muốn chiến tranh nhưng không từ bỏ quyền lợi (2 giờ trước)
- Đề xuất giảm thuế với xăng dầu đến hết năm 2026, dự báo giá xăng dầu thời gian tới ra sao? (2 giờ trước)
- Vụ cô gái "ngoại tình" bị người vợ xăm lên mặt và gây thương tích nặng kháng cáo toàn bộ bản án (2 giờ trước)
- Thảm kịch tại Dragao: Tài năng trẻ Porto ghi "bàn phản lưới nhà tệ nhất lịch sử" cúp châu Âu (3 giờ trước)
- Sập bẫy "việc nhẹ lương cao": Cảnh báo thủ đoạn buôn người núp bóng tuyển nhân viên karaoke (3 giờ trước)