Trong lĩnh vực phiên dịch, dịch cabin chính là kỹ năng dịch cao nhất khi người dịch sẽ dịch đồng thời, song song với diễn giả. Tuy nhiên, trí tuệ nhân tạo (AI) với sự tiến bộ vượt bậc hiện nay đang thách thức "nghề trình độ cao" này.

1 Ai Thach Thuc Phien Dich Cabin

Chuyển lời nói thành văn bản nhờ AI - Ảnh minh họa: Exemplary.ai

Để dễ hình dung, một diễn giả đang thao thao bất tuyệt trực tiếp bằng tiếng Anh trên màn hình Zoom, độc giả ở Việt Nam có thể xem song song "phụ đề" tiếng Việt ngay bên dưới màn hình nhờ... AI.

Tốc độ dịch siêu nhanh

OpenAI, cha đẻ của công cụ ChatGPT, vừa chính thức cung cấp dịch vụ giao diện lập trình ứng dụng (API) Whisper có thể chuyển tiếng nói thành văn bản (đa ngôn ngữ, trong đó có tiếng Việt).

Whisper là hệ thống nhận biết ngôn ngữ nói tự động có thể "rã băng" và dịch tiếng nói của mọi loại ngôn ngữ khác ra tiếng Anh.

Trên thực tế đã có nhiều công ty tham gia phát triển hệ thống nhận diện tiếng nói có năng lực xử lý cao như Google, Amazon, Meta. Dĩ nhiên "kẻ đến sau" sẽ luôn được hưởng lợi ích "đứng trên vai những người khổng lồ".

Theo ông Greg Brockman - nhà đồng sáng lập và là chủ tịch của OpenAI, điều khiến Whisper khác biệt với những cái đã có là ở chỗ nó được đào tạo bằng 680.000 giờ dữ liệu tiếng nói đa ngôn ngữ và cả dữ liệu "đa nhiệm" được thu thập từ web.

Vì thế, ông Brockman cho rằng Whisper được cải thiện đáng kể ở khả năng nhận biết cả giọng nói (accent) ít phổ biến, tiếng động nền và những thuật ngữ kỹ thuật chuyên biệt.

Ông Brockman nói với TechCrunch là Whisper đã được công ty của ông tối ưu hóa tới mức tuyệt đối. "Nó nhanh hơn rất, rất nhiều và vô cùng thuận tiện" - ông nói và nhấn mạnh ưu điểm "át chủ bài" của Whisper là tốc độ.

Cây bút Teemu Maatta chia sẻ ví dụ trên trang Medium về tốc độ ấn tượng của Whisper: để xử lý 5 giây tiếng nói ra văn bản, nó cần 1,07 - 1,59 giây; và để xử lý 15 phút tiếng nói, nó chỉ cần 41 giây.

OpenAI tin tưởng công cụ mới của họ sẽ được dùng để cải thiện hoạt động của các ứng dụng, dịch vụ, sản phẩm và công cụ hiện có. Theo họ, hiện đã có một số công ty tích hợp cả hai API ChatGPT và Whisper vào nền tảng là tính năng My AI của Công ty Snap (sở hữu ứng dụng Snapchat), nền tảng học ngoại ngữ Quizlet, Instacart, ứng dụng Shop của Công ty Shopify và ứng dụng học ngôn ngữ Speak.

Tiềm năng và thách thức

Về tiềm năng ứng dụng, doanh nghiệp có thể tích hợp ChatGPT và Whisper vào nền tảng trao đổi của họ với đối tác, khách hàng với chi phí rẻ hơn rất nhiều so với mô hình ngôn ngữ hiện có của họ. Theo trang Arstechnica, phí dùng Whisper chỉ tốn 1/10 so với chi phí các mô hình trước đây, chỉ 0,006 USD/phút.

Mặc dù Công ty OpenAI ca ngợi AI có thể tạo ra "những cơ hội kỳ diệu", song thực tế những năm qua cho thấy khi nói tới việc ứng dụng công nghệ nhận diện tiếng nói trong doanh nghiệp, có nhiều vấn đề còn khiến họ e ngại.

Theo khảo sát năm 2020 của trang Statista, đó là các vấn đề như độ chính xác của phần mềm, các trục trặc phát sinh trong việc nhận diện giọng điệu, cách nói hay những vấn đề liên quan tới phương ngữ và chi phí.

Cũng theo trang TechCrunch, bất kể những quảng bá hào hứng của ông Greg Brockman, Whisper cũng còn những hạn chế của nó, đặc biệt ở lỗi dự đoán "từ tiếp theo".

Do hệ thống này được đào tạo trên một khối lượng lớn dữ liệu rất phong phú nên chính OpenAI cũng đã cảnh báo Whisper có thể "phản chủ" khi tự ý thêm vào các từ không có trong "phiên bản" gốc. Lỗi này được lý giải có thể vì nó vừa cố gắng "đoán biết" từ tiếp theo trong file âm thanh vừa sao chép nội dung đó ra văn bản.

Ngoài ra, Whisper cũng không hoạt động hiệu quả như nhau với mọi loại ngôn ngữ. Thực tế cho thấy tỉ lệ mắc lỗi của nó cao hơn ở những ngôn ngữ có lượng dữ liệu đào tạo chưa đủ lớn.

Một hạn chế nữa vốn là điều không mới trong thế giới công nghệ nhận diện tiếng nói lâu nay, đó là ngay cả ở những hệ thống tốt nhất, sự thiên lệch trong hiệu quả xử lý vẫn tồn tại như một thách thức dai dẳng.

Nghiên cứu năm 2020 của ĐH Stanford với các hệ thống của Amazon, Apple, Google, IBM và Microsoft cho thấy nếu người dùng là người da trắng, hệ thống gặp ít lỗi hơn (khoảng 19%) so với người dùng da màu.

Theo báo cáo công bố tháng 12-2021 của trang Markets And Markets, thị trường của các ứng dụng nhận diện tiếng nói có giá trị khoảng 2,2 tỉ USD vào năm 2021 nhưng dự kiến sẽ tăng lên 5,4 tỉ USD vào năm 2026. Cũng như nhiều công ty khác, OpenAI, cũng như ông lớn Microsoft đã "chống lưng" cho họ, đang hy vọng có thể nhanh chóng chiếm được "miếng bánh" thị phần lớn hơn.

Whisper hỗ trợ 57 ngôn ngữ

Theo trang web của Công ty OpenAI, hiện Whisper đã hỗ trợ ít nhất 57 loại ngôn ngữ, trong đó có tiếng Anh, tiếng Trung, tiếng Pháp, tiếng Đức, tiếng Hàn, tiếng Nga, tiếng Tây Ban Nha, tiếng Thái, tiếng Hindi... Tiếng Việt cũng đã được hỗ trợ.

Một đại diện của Công ty OpenAI nói với trang Venture Beat là Whisper có thể chuyển tiếng nói thành văn bản ở mức độ xuất sắc với tiếng Anh và khoảng 10 ngôn ngữ khác, nó cũng có thể dịch các ngôn ngữ khác đó sang tiếng Anh.

Để so sánh, Bloom là mô hình ngôn ngữ đầu tiên xử lý được 59 ngôn ngữ khác nhau, còn Meta đang phát triển mô hình có thể dịch qua lại khoảng 200 ngôn ngữ.

Nguồn: Báo Tuổi trẻ Online




 

Báo TINTUCVIETDUC-Trang tiếng Việt nhiều người xem nhất tại Đức

- Báo điện tử tại Đức từ năm 1995 -

TIN NHANH | THỰC TẾ | TỪ NƯỚC ĐỨC