Компанія Google працює над новим ШІ, що писатиме саундтреки для відео
Лабораторія штучного інтелекту DeepMind від Google працює над новою технологією, яка зможе генерувати звукові доріжки та навіть цілі діалоги для відео.
Лабораторія розповіла про свій прогрес у створенні технології перетворення відео в аудіо (V2A), яку можна поєднати з інструментами створення відео.
У своїй публікації в блозі команда DeepMind пояснює, що система може розуміти необроблені пікселі та поєднувати цю інформацію з текстовими підказками для створення звукових ефектів для того, що відбувається на екрані. Інструмент також можна використовувати для створення звукових доріжок для німих фільмів та відео без звуку, пише NV.
Дослідники DeepMind навчили цю технологію на відео, аудіо та створених штучним інтелектом анотаціях, які містять детальні описи звуків і стенограми діалогів. Вони кажуть, що завдяки цьому технологія навчилася асоціювати певні звуки з візуальними сценами. Хоча текстова підказка необов’язкова, її можна використовувати для формування та вдосконалення кінцевого продукту, щоб звукова доріжка була максимально точною і реалістичною.
Дослідники визнають, що вони все ще намагаються усунути обмеження своєї технології V2A, як-от зниження якості аудіо на виході та погана синхронізація губ для згенерованого діалогу. Крім того, вони обіцяють провести сувору оцінку безпеки та випробування технології перед випуском у моделі для користувачів.
Команда DeepMind не перша, хто випустив інструмент штучного інтелекту, який може генерувати звукові ефекти. ElevenLabs також нещодавно випустила схожий інструмент.
Источник: top.postfactum.info