Исследователи из Лондонского университета Квин Мэри представили AutoMV — первую в мире открытую ИИ-систему, способную генерировать полноценные музыкальные клипы из полноразмерных песен. Проект разработан совместно с учёными из Пекинского университета почты и телекоммуникаций, Нанкинского университета, Гонконгского университета науки и технологий и Манчестерского университета. AutoMV знаменует качественный скачок в области генеративного ИИ для креативных индустрий.
Ключевая особенность AutoMV — мультиагентная архитектура, в которой каждый ИИ-агент выполняет отдельную творческую роль. Агент-сценарист анализирует музыкальную структуру, ритм и синхронизированные с таймлайном тексты песни, после чего создаёт сцену за сценой. Агент-режиссёр формирует операторские инструкции и обеспечивает последовательность персонажей. Агент-монтажёр собирает финальное видео, а агент-верификатор проверяет связность и качество всего материала.
По результатам оценки экспертами AutoMV значительно превосходит существующие коммерческие инструменты для генерации видео. Система сокращает разрыв между ИИ-генерированными клипами и профессионально снятыми музыкальными видео. Руководитель проекта доктор Эммануил Бенетос, аспирант Инхао Ма, доктор Чанджэ О и исследователь Чаоран Чжу из Центра цифровой музыки и Центра интеллектуального восприятия провели многоэтапные тесты качества с привлечением профессиональных оценщиков.
Одно из главных преимуществ AutoMV — радикальное снижение стоимости производства. Если съёмка профессионального музыкального клипа обходится в десятки тысяч фунтов стерлингов, то создание видео через AutoMV стоит примерно столько же, сколько один вызов API к облачной ИИ-модели. Это открывает двери для независимых музыкантов, преподавателей и контент-создателей, которые ранее не могли позволить себе профессиональное видеопроизводство.
AutoMV выпущен как полностью открытый проект — исходный код доступен на GitHub, а научная статья опубликована на arXiv. Это обеспечивает прозрачность, воспроизводимость исследований и открывает возможности для совместной работы глобального сообщества разработчиков. Мультиагентный подход на базе моделей Gemini может стать новым стандартом для ИИ-систем в креативных индустриях.
Появление AutoMV вписывается в глобальный тренд: рынок генеративного ИИ в музыке оценивается в 642,8 миллиона долларов и, по прогнозам, достигнет 3 миллиардов к 2030 году. Рынок ИИ-генерации видео растёт на 35% ежегодно и может составить 14,8 миллиарда долларов к концу десятилетия. AutoMV, объединяя генерацию видео и понимание музыки в единой системе, задаёт направление развития для всей индустрии креативных ИИ-инструментов.






