Ai Video Editor — О технологии
Существующие решения видеомонтажа, как профессиональные, ставшие стандартами индустрии (линейка продуктов Adobe, DaVinci, Avid), так и полупрофессиональные (Vegas, Filmora, CapCut и др.) начинают внедрять ИИ функционал в набор доступных инструментов. В основном, это ограничивается реализацией ИИ-помощников (copilot), средствами генерации изображений и видео, средствами генерации и редактирования текстов (инфографика, субтитры, многоязычность, транскрибация, удаление пауз и др.). В нескольких случаях, реализован полуавтоматический монтаж по фиксированным шаблонам для коротких видео для соц. сетей (сервис Vimeo). Однако средства автоматизированного мультикамерного монтажа для профессионального контента в настоящий момент не реализованы.

AiVideoEditor предлагает ряд принципиально новых технических и методических подходов, позволяющих добиться высокого качества видеомонтажа автоматизированным образом, без участия человека.

Декомпозиция предметной области по целевым сферам применения/отраслям, что позволяет дообучить используемые средства на наборах специфичных объектов, получив существенно более (в 2-3 раза) высокое количество и точность распознавания объектов. Первоначально выбрано 2 сегмента: классические концерты, телевизионные передачи.

На основе покадровой высокодетализированной информации об объектах - специфичные для выбранной отрасли классы/типы объектов, их размеры, расположение, перемещение между кадрами и т.д., появляется возможность формирования набора шаблонов, "пресетов" для последующего видеомонтажа схожих роликов, но уже с новыми исходными материалами.
Концерт, тестовое видео
Концерт, тестовое видео
Кафе
Кафе
Технологический стек
  • Компонента распознава-ния и разметки

    ОС Linux
    Веб-сервер nginx
    Язык программирования Python, php 8.1+
    БД MSSQL 15
  • Компонента дообучения нейросети

    ОС Linux
    Веб-сервер nginx
    Язык программирования Python, php 8.1+
    БД MSSQL 15
  • Компонента видео/аудио монтажа

    ОС Windows Server 2019
    Язык программирования C#
    Библиотека ffmpeg и кодеки
    БД MS SQL 15
  • Web/desktop
    приложение

    ОС Windows
    Язык программирования C#, .NET, ASP.NET
    DevExpress 23.2+
    БД MS SQL 15
Разрабатываемый подход позволяет выполнить монтаж нового видео полностью автоматически, без участия человека. При этом время, требуемое для автоматического монтажа по описанному алгоритму, соотносится с длительностью финального ролика как 1:1, т.е. в десятки раз быстрее человека. Профессиональный монтажер, в среднем, делаем за 8-ми часовую рабочую смену 4 репортажных 3-х минутных видео, т.е. тратит на каждый ролик около 120 минут рабочего времени. В автоматизированном режиме на 3-минутный ролик потребуется всего 3 минуты работы AIVideoEditor, что в 40 раз эффективнее.

Кроме того, создаваемое научно-техническое решение имеет способность к самообучению в случае наличия портфолио ранее сделанных видеороликов определенной тематики. Например, в случае если видеограф занимается преимущественно свадебной видеосъемкой, AIVideoEditor может обучиться на его портфолио, запомнить индивидуальный "фирменный" стиль и в дальнейшем монтировать видео именно в его стиле. Аналогичным образом, система может обучаться и использовать стиль видеомонтажа по любым другим портфолио, без дополнительных действий со стороны человека.

В результате автоматизированного монтажа система выдает не только финальный, полностью готовый ролик, но и соответствующие файлы проектов для сред Adobe Premiere и DaVinci Resolve - на случай, если монтажер захочет внести некие коррективы или исправления вручную.

Описанный подход позволяет использовать принципиально новую модель монетизации, при которой само облачное или desktop-решение будет полностью бесплатным, а оплата списывается посекундно, по факту использования облачного времени нейросети, исходя из продолжительности финального видеоролика и сложности монтажа.
Перспективные направления:

  • Построение пользовательского интерфейса в формате диалогового LLM-агента, которому пользователь описывает задачи на естественном языке, при необходимости сопровождая их примерами.
  • Система может быть расширена модулем видеомонтажа многокамерных трансляций в реальном времени.
  • Система может быть реализована в формате плагина к одному из существующих индустриальных решений (Adobe Premiere, DaVinci Resolve, Avid).
Наша команда — победитель конкурса «Старт-Взлёт» (очередь II), заявка №С1−419 779.

Фокусная тематика проекта - Распознавание образов и речи
Направление программы СТАРТ - Н1. Цифровые технологии
Приоритетные направление - Информационно-телекоммуникационные системы
Критическая технология федерального уровня - Технологии и программное обеспечение распределенных и высоко-производительных вычислительных систем

На основе отдельных фрагментов разрабатываемого решения уже выполнен коммерческий проект.
Made on
Tilda