Công cụ tạo giọng của ElevenLabs ra mắt khỏi phiên bản beta

Đầy sức mạnh từ trí tuệ nhân tạo, ElevenLabs, nền tảng tạo giọng tổng hợp viral, đã ra mắt nền tảng của mình khỏi phiên bản beta hôm nay với sự hỗ trợ cho hơn 30 ngôn ngữ.

Sử dụng một mô hình AI mới được phát triển trong nhà, ElevenLabs cho biết công cụ của mình hiện có khả năng tự động nhận diện ngôn ngữ, bao gồm tiếng Hàn, Hà Lan và Việt Nam, và tạo ra giọng nói “phong phú về cảm xúc” trong những ngôn ngữ đó.

Kết hợp với mô hình mới, khách hàng ElevenLabs có thể tận dụng công cụ sao chép giọng nói của nền tảng để nói trong gần 30 ngôn ngữ mà không cần phải gõ văn bản trước.

“ElevenLabs đã được khởi đầu với giấc mơ mang lại tất cả nội dung trở nên phổ biến trong bất kỳ ngôn ngữ nào và trong bất kỳ giọng của nào,” CEO và đồng sáng lập viên Mati Staniszewski của ElevenLabs nói trong một tuyên bố. “Với bản phát hành này, chúng tôi sẽ gần hơn một bước đến việc biến giấc mơ này thành hiện thực và mang giọng AI chất lượng con người đến mỗi phương ngữ. Công cụ tạo giọng từ văn bản sang giọng nói của chúng tôi giúp làm phẳng bằng và mang đến khả năng âm thanh nói chất lượng cao cho tất cả các nhà tạo ra nội dung đó.”

Được thành lập bởi Staniszewski, người trước đây đã làm việc tại Palantir, và bạn của thủa nhỏ Piotr Dabkowski, một cựu nhân viên của Google, ElevenLabs đã thu hút sự chú ý trong vài tháng qua về cả những lý do tốt và gớm ghiếc. Lấy cảm hứng từ việc đồng giọng phim Mỹ không tốt mà Staniszewski và Dabkowski xem khi còn nhỏ ở Ba Lan, cặp đôi này đã thiết kế một nền tảng có thể làm tốt hơn — sử dụng trí tuệ nhân tạo tất nhiên.

ElevenLabs đã ra mắt trong phiên bản beta vào cuối tháng Giêng, và nhanh chóng nhận được sự quan tâm — nhờ vào chất lượng cao của giọng nói được tạo ra và gói cước miễn phí rộng lượng. Nhưng như đã ám chỉ trước đây, sự chú ý không luôn tích cực — đặc biệt khi những người tấn công xấu exploit nền tảng cho mục đích riêng của họ.

Bảng tin nổi tiếng 4chan, nổi tiếng với nội dung âm mưu, đã sử dụng công cụ của ElevenLabs để chia sẻ những thông điệp đầy căm hờn giống như các ngôi sao như diễn viên Emma Watson. Ở nơi khác, James Vincent từ The Verge đã có thể tận dụng ElevenLabs để sao chép giọng của mục tiêu trong vòng vài giây, tạo ra mẫu âm thanh chứa đầy từ đe dọa bạo lực đến biểu hiện của phân biệt chủng tộc và lương tâm.

Để đáp ứng, ElevenLabs cho biết sẽ ra mắt một loạt biện pháp bảo vệ mới, như giới hạn sao chép giọng cho tài khoản trả tiền và cung cấp một công cụ phát hiện AI mới.

Đến nay, ElevenLabs vẫn chưa giải quyết vấn đề tranh cãi khác đang nổ ra xung quanh nền tảng của nó và các nền tảng tương tự, tuy nhiên: sự đe doạ đến ngành diễn xuất giọng nói.

Motherboard viết về cách diễn viên lồng tiếng ngày càng được yêu cầu ký giấy cam kết quyền về giọng nói của họ để khách hàng có thể sử dụng AI tạo ra phiên bản tổng hợp có thể cuối cùng thay thế họ. Trong khi đó, các email nội bộ được xem bởi The New York Times đề cập đến việc Activision Blizzard, một trong những công ty xuất bản game lớn nhất thế giới, đang làm việc trên các công cụ hỗ trợ AI cho “sao chép giọng nói.”

Có vẻ như ElevenLabs coi đây là sự tiến triển tự nhiên của vấn đề, quảng cáo công việc của mình với các công ty xuất bản như Storytel; các nền tảng truyền thông như TheSoul Publishing và MNTN cho sách nói và nội dung radio; và các nhà xuất bản như Embark Studios và Paradox Interactive cho trò chơi video, (Storytel và TheSoul Publishing là nhà đầu tư chiến lược). Công ty cho biết họ có hơn một triệu người dùng đã đăng ký trải rộng trong lĩnh vực sáng tạo, giải trí và xuất bản đã tạo ra nội dung âm thanh từ 10 năm.

ElevenLabs, mới đây vừa huy động được $19 triệu từ các nhà đầu tư, bao gồm Andreessen Horowitz và người đồng sáng lập DeepMind Mustafa Suleyman với một giá định giá là $99, dự định mở rộng mô hình AI của mình để tạo giọng lồng tiếng — theo dấu các startup như Papercup và Deepdub và xây dựng những gì họ gọi là “một nền tảng để có thể chuyển đổi cảm xúc và ngữ điệu từ một ngôn ngữ sang ngôn ngữ khác.”

Ngoài ra, ElevenLabs nói rằng họ dự định ra mắt một cơ chế cho phép người dùng chia sẻ giọng trên nền tảng, tuy chi tiết vẫn mơ hồ.