Клонування голосу за секунди: нова фіча від Grok та як не стати жертвою дипфейку.

Компанія Ілона Маска xAI запускає Custom Voices для свого чат-бота Grok. Тепер штучний інтелект може миттєво клонувати будь-який голос на основі короткого аудіозапису.

Як це працює: Користувач записує близько однієї хвилини свого природного мовлення в консолі xAI, після чого система створює готовий для використання голосовий профіль.

Так, усвідомлюючи ризики зловживань, xAI реалізувала двоетапний процес верифікації перед створенням голосової моделі.

Як діє двоетапний процес верифікації:

Підтвердження наміру та присутності, тобто користувач зачитує спеціальну верифікаційну фразу вголос - модуль Speech-to-Text (STT) розшифровує її та звіряє з оригіналом у режимі реального часу;
Біометричне порівняння: система обчислює speaker embeddings (унікальні голосові «відбитки») з верифікаційного кліпу та основного запису, щоб переконатися, що обидва зразки належать одній і тій самій людині.

Логіка захисту полягає в тому, що система вимагає вимовити випадкову або спеціально згенеровану фразу в режимі реального часу та додатково перевіряє збіг голосових характеристик. Це значно ускладнює використання заздалегідь підготовлених записів або голосових діпфейків.

Такий інструмент відкриває нові можливості для творчості та автоматизації, але водночас може бути використаний зловмисниками для створення переконливих голосових діпфейків.

Діпфейк - це підроблений фото, відео або аудіоконтент, створений за допомогою штучного інтелекту, який імітує зовнішність, голос або поведінку реальної людини.

Як не стати жертвою голосових діпфейків?

Встановіть «пароль» для родини.

Домовтеся з близькими про секретне слово або фразеологізм, який знаєте тільки ви. Якщо вам телефонує «син» чи «мама» з проханням терміново переказати гроші - попросіть назвати пароль.

Ставте контрольні запитання.

Якщо голос здається схожим, але ситуація підозріла, запитайте про те, що неможливо знайти в соцмережах (наприклад: "Якого кольору був наш старий кіт?" або "Куди ми їздили влітку 2015-го?").

Перевіряйте через інший канал зв’язку.

Якщо отримали тривожне голосове повідомлення або дзвінок - покладіть слухавку і самі передзвоніть цій людині на її звичайний номер.

Остерігайтеся емоційного тиску.

Шахраї використовують ефект терміновості та паніки, щоб ви не встигли розпізнати синтетичний голос. Не поспішайте діяти під впливом емоцій.

Менше зразків голосу у відкритому доступі.

Подумайте двічі, перш ніж викладати довгі відео чи сторіз зі своїм чистим голосом у відкриті профілі. Це - ідеальний матеріал для навчання нейромереж.

Пам'ятайте: Технології розвиваються швидше, ніж ми встигаємо до них звикнути.
Ваша пильність - найкращий фільтр проти маніпуляцій.