Мы уже говорили, что сегодня рынок ИИ выглядит как бесконечная ядерная гонка, где: детище DeepMind опережает по тестам GPT 3.5, GPT 4.0. обгоняет Gemini, а новая Claude 3.5. Sonnet работает, судя по бенчмаркам, шустрее, точнее и правдоподобнее, чем все предыдущие нейросети.
И это мы не говорим про анонс GPT 5.0, которую разработчики OpenAI называют революционной.
ИИ – рай для энтузиастов и исследователей, но жесткий мир венчурных фондов и крупного бизнеса – денежная история. Поэтому компаниям и стартапам необходимо постоянно конкурировать с друг другом за пользователей.
Генеративные нейросети четко укрепились в массовом сознании: изображения с кривой анатомией, повторяющиеся паттерны отрисовки объектов, простая узнаваемость – все отрицательные коннотации приписали миру ИИ-генераторов. Но в феврале OpenAI анонсируют прорывную нейросеть – Sora.
Она выдает феноменальный результат с минимумом артефактов и максимумом реализма, творческой гибкостью. Древние мамонты, бегущие прямо на нас, или космонавт на луне – все это в гиперреализме. Кажется, что видео сделаны или в формате высококачественного CGI, или натуральных съемок.
Ставка на реализм – естественный ход самой крупной компании по разработке LLM, которая в перспективе должна пройти самый сложный тест Тьюринга…
Первое впечатление, когда мы видим мультипликационного кота с шоурила SORA: “вау, кажется они симулировали эту шерсть в Houdini (программа для симуляций спецэффектов и физики в 3D) с высококлассными специалистами в сфере компьютерной графики”.
Больше мы не отличим видео, снятое туристом в китайском квартале Нью-Йорка и работу Sora.
Когда мы говорим про видеопродакшн, мы совсем не шутим. Кадры с космонавтом в пустыне напоминают материалы, снятые на дорогущую Arri Alexa (кинокамера), а видео с молодой китаянкой – работу, полученную с матрицы SonyA7c.
Практически все результаты работы Sora – творческие идеи, реализованные на профессиональные камеры, имитирующие работу продакшенов.
Компания месяц работала с художниками, дизайнерами, творческими директорами и киноделами, чтобы понять, как Sora преобразит креативную индустрию.
На вопрос: “Почему бы не отдать бета-версию пользователям?” – ответ будет прозаичный. Cтартап предназначен бизнесу: глянцевые промо для косметики, музыкальные клипы, короткометражное кино… Ходят слухи, что подписка на Sora будет стоить значительно больше, чем на GPT.
Все примеры работ художников-киноделов компания выложила на отдельной странице.
Ключевое отличие Sora от конкурентов не только в ставке на реализм засчет инвестирования в проект миллионов долларов, но и ориентация на совершенно отличный от GPT “рынок сбыта” – креативные индустрии.
После выхода нейронки мы, вероятно, не увидим гибкости. Не получится собрать генерацию в стиле Арт-Деко с ожившей Офелией… Все результаты будут четко выверены в соответствии с целями компаний рекламного бизнеса. Безусловно, мы не можем “вытащить” рабочий датасет из проекта, но предполагаем, что Sora обучали нейронку на рекламе и кино.
Можно выделить два вектора конкуренции: вертикальный и горизонтальный. Вертикальный – чисто экстенсивный и существует по принципу: “точнее, быстрее, реалистичнее”, а горизонтальный – про уникальное торговое предложение.
Компаниям-конкурентам пришлось пойти другими путями: создание монтажного интерфейса, повышение гибкости запросов, понятные и прозрачные промты, интерполяция существующих видео, увеличение продолжительности роликов, скорость генерации – все это приводило клиентов, отстегивающих десятки долларов за временную подписку.
Почему компании среднего сегмента могут лишь догонять гигантов индустрии?
Клиенты скажут:
“Господи, лучше я просто поставлю FinalCut на телефон и сам смонтирую футажи от Sora, зато какие!” (Хотя стоимость подписки может неприятно удивить пользователей…)
Стартапам победнее приходится изворачиваться разными путями, чтобы хоть как-то конкурировать с крупными игроками.
Таковы правила формирования “уникального торгового предложения” для тех, кто не получает миллиарды долларов на инвестиционных Seed/A раундах; для тех, кто не может позволить себе базу с тысячами TPU под создание гениальной нейросети.
Подобные компании ограничены исследовательски: они не могут просто взять и создать новую архитектуру сети или собрать эффективный метод обучения, протестировать разные датасеты.
Давайте разберемся, как работает Sora.
На первом этапе — начальной обработке данных — входные данные преобразуются в формат, подходящий для обработки трансформером.
Дальше пиксельные значения нормализуются, и изображения (кадры) преобразуют в последовательность батчей (небольших частей изображения), которые будут обработаны трансформером.
К переваренным данным последовательно добавляется шум в соответствии с диффузионной моделью.
Диффузионные модели напоминают сами по себе физическую диффузию, где данные искажаются путём добавления шума на каждом шаге. Постепенное увеличение уровня шума в данных создает зашумленные версии исходных картинок.
Цель – обучить модель обратному процессу — восстановлению исходных изображений из зашумленных версий.
Архитектура трансформера позволяет проводить реставрацию выборочно.
Мы получаем семантические связи не между словами, а картинками… Механизм внимания вычисляет веса для каждого элемента последовательности, определяя, какие элементы важнее для предсказания текущего элемента.
Трансформер захватывает сложные зависимости и отношения в данных, даже когда они зашумлены.
Итеративный процесс добавления шума и последующего обучения трансформера продолжается до тех пор, пока модель не достигнет высокой точности в предсказании исходных данных из искаженных картинок.
Мы говорим про стохастический градиентный спуск, где на каждом шаге модель улучшает свои предсказания, минимизируя разницу между предсказанными и исходными данными.
После того как модель обучена, она может использоваться для генерации или восстановления данных, постепенно уменьшая уровень шума.
Да, диффузионный трансформер – совсем не новая технология. После прорыва трансформеров через два года появились архитектуры в секторе Computer Vision: VIT (объединение трансформера и реккурентной нейронки и CNN) и DiT (объединение диффузионной модели и трансформера).
Кстати, о первой архитектуре мы писали на Хабре.
Но были ли средства у компаний из среднего класса для проверки гипотезы? Могли ли они рисковать и объединять диффузионки с трансформерами? – нет. Поэтому компании буквально ползут за быстротечной инновационностью OpenAI/DeepMind, эффективностью корпораций. Таковы правила формирования монополий.
Чтобы оставаться в рынке, необходимо уникализировать свою нейронку. Самый простой вариант – нишеваться.
Один из популярных примеров нишевания – разработка стартапа под отдельные сегменты креативных индустрий, например, мультипликаций или моушен-дизайн.
На простой рост эффективности и реализма нейронок нужны деньги.
Анонс Sora вызвал провалы на рынке. Средние компании более не могут конкурировать на уровне “минимального” прироста производительности или добавления внутреннего монтажного интерфейса. Нужны фундаментальные отличия.
Как Luma AI учитывают физику тел при генерации видео?
Последний успех их работы связан не только с иным подходом к генерации видео, но и историческими обстоятельствами. Пока компании гнались за производительностью диффузионок – Luma клепали свои генераторы 3D моделей и развивали технологию NERF…
Мы уже писали в некоторых своих постах про “тесселяцию лучей” и “облака точек”, но напомним, как работает алгоритм.
Создание NeRF — задача сложная и трудоёмкая. Нужно разбить видео на отдельные кадры и подготовить их для обучения нейронной сети. Ключевое словосочетание – “несколько кадров”. Для грамотной разработки 3D-рендера нужны данные с нескольких фотографий.
Процесс тренировки модели на этих кадрах может занять много времени и ресурсов, а при попытке сгенерировать NeRF можно столкнуться с ограничениями оперативки… Да, считать рендер вашего велосипеда затратно в отличие от рендера по методу гауссового сплеттинга, который работает в реальном времени.
Но у последнего метода особенность – кроме конечного рендера из результатов работы нейронки вытащить ничего не получится. Поэтому алгоритм не подходит для компаний, что занимаются разработкой компьютерных игр.
NeRF преобразует набор фотографий в математическое представление, которое можно использовать для генерации новых ракурсов объекта или сцены.
NeRF помогает компьютеру «видеть» и «понимать» мир в трёх измерениях на основе множества изображений, сделанных с разных углов, и выводить их в редакторы 3D моделей.
Вы хотите создать виртуальную 3D-модель статуи, фотографируете статую со всех сторон и передаете алгоритму. На выходе мы получаем готовую трехмерную модель.
Система анализирует каждую фотографию, чтобы понять, как свет взаимодействует с поверхностью статуи, как распределены тени, где находятся текстурные детали. Нейронка предсказывает цвет и плотность для любого заданного направления и точки в 3D-пространстве.
Вместо того чтобы хранить только координаты точек и их цвета, NeRF создает непрерывную функцию, которая описывает, как каждый луч света, проходящий через сцену, должен выглядеть. Алгоритм составляет карту глубины, по которой генерится сама модель.
Карта глубины выглядит примерно так:
В отличие от гауссиановых сплеттов – мы получаем гибкие возможности для обработки конечной модели. У нас не просто облака точек, но конкретный трехмерный, дискретный объект. Правда, для этого нужно прописать конвертацию результатов NeRF в Mesh.
Важное отличие LumaAI от конкурентов – они научились переводить NeRF-модели в Mesh – набор полигонов, которые активно используются в компьютерной графике.
На него распространяются все классические алгоритмы симуляции физики.
Симуляции возможны лишь в полигональной 3D-графике, где модели состоят из ограниченных прямоугольников или треугольников. Так как модель, состоящая из взаимосвязанных вершин попросту подвергается дискретным вычислениям.
Мы буквально можем работать с дифференциальными уравнениями, выбрасывая все нюансы, связанные с пределами, производными и другими страшными штуковинами, которые завязаны на бесконечности.
Для симуляции столкновений и контактов твердых тел применяются алгоритмы: ограниченных Лагранжевых множителей (LCP) и метод импульсных столкновений.
Мягкие тела: гели, ткани и органические структуры, моделируются с использованием подходов, аналогичных симуляции одежды, но с учетом дополнительных факторов, таких как внутренние силы упругости и вязкости. Тут используются, например, методы конечных элементов (FEM) и метод сглаженных частиц.
Динамическое поведение одежды описывается уравнениями движения, которые учитывают: гравитацию, трение, сопротивление воздуха и упругость материала.
Для решения этих уравнений используются методы конечных элементов или масс-пружин.
Luma AI обучала нейронные сети для генерации моделей, с которыми можно поиграться, например, включить в пайплайн игровой индустрии.
Технологически прорыв у Luma наступил тогда, когда они через видео, набор кадров научились вытаскивать физически корректные модели NERF, которые могут учитывать законы физического мира.
И мы получаем не просто сгенерированные видео, имитирующие другие видео – своеобразные миры, в которых есть своя физика. Мы не говорим, что их нейросети дотошно симулируют изображенных людей на картинке. Но даже “болванистая” симуляция физики – уже полноценный прорыв, который может привести нас к генерации общих миров.
Почему Dream Machine это новая веха в сфере генеративных ИИ?
Посмотрите небольшой шоурил по работе Dream Machine от энтузиаста и задумайтесь над названием “Dream”, что дословно переводится как мечта или сон. И не зря. Ведь главная особенность и инновация стартапа Luma, которая раскроется лишь впоследствии. DM – генератор грез, снов и “мечтаний”.
Благодаря технологии Nerf, которая умело распознает тела, представленные в кадре; благодаря концепции image to video, мы получаем практически трехмерную сцену с симулированной физикой.
Нейросеть не просто считывает пиксели на изображении, но осознает существование “препятствий и твердых тел” в сцене. Из-за чего буквально достраивает пространство исторических картин, которыми мы кормим нейронку.
Сила платформы Luma AI заключается в ее способности точно отображать определенные объекты, персонажей, действия и окружение, рассказывать связные истории и поддерживать плавное движение всех объектов, которое возможно только при учете физических данных.
Мы не получаем глянцевую картинку SORA, нейронка чаще галлюцинирует – мы получаем более физически-корректную картину, которая работает не только через текстовый запрос, но и импорт изображений.
Учитывая нынешнюю ситуацию бешеной гонки за производительностью, ориентация на погружения в грезы для рядовых пользователей через дешевую подписку – лучший вариант для компании.