AI ML Автоматизация США

Миллиард долларов на беспилотные автомобили?

Мы уже писали обзор на проект по производству беспилотных автомобилей и технологии детекции местности с локаторами. Но, как мы и указывали в предыдущей статье, многие из автомобильных компаний провалились в поисках уникального решения для автономных машин. 

 

 

Смертельные аварии не происходили часто, но были. Одно слово «были», одно упоминание в СМИ и за автомобильными инновациями последовали сотни проверок. Та же Tesla, управляемая ИИ, чуть не сбила девушку, когда та переходила дорогу на зеленый свет строго по пешеходному переходу. По итогам обзора WP беспилотники Tesla попадали в автомобильные аварии много раз. 

 

 

Причем шесть из аварий смертельны, часть пришлись на серьезные человеческие травмы. Число неприятных инцидентов росло с 2020 по 2021 год — ДТП постоянно преследовали авторские автомобили Tesla. Проблемы скрываются даже глубже, чем кажется – в самом принципе ИИ. 

 

 

 

Дело касается не только безопасной езды со стороны условных автомобилей TESLA – их способности предотвращать аварии. Например, в 2018 году в Питтсбурге, США, беспилотник ARGO врезался в проезжающий на красный грузовик. Можно ли было предотвратить аварию с водителем? Вопрос философский, но мучающий исследователей и конгрессменов США. Напоминаем, законы принимаются в штатах через конгресс. 

 

 

В результате многочисленных ДТП с жертвами стартапы потеряли существенную часть инвестиций. Кто-то пророчил смерть компаниям, работающим в направлении разработки беспилотников. 

 

 

Важнейшая особенность разработки подобных автомобилей — проблемы нарастают по мере работы. Хорошо подходит здесь цитата одного из философов: «Чем больше я знаю — тем меньше я знаю». 

 

 

Все же венчурные фонды и разного рода «инвесторы» рассчитывают на прибыль в относительно короткий срок, а не заморозку проектов и игру в «долгожителей». Если к низкой окупаемости проекта добавить общую повестку на 2018 год в отношении беспилотников на уровне законов США — мы получаем долгосрочную и крайне высокорисковую авантюру в области инвестиций. 

 

 

Но дело начинает потихоньку меняться: появляются новые проекты с инновационными и «хитрыми» решениями, которые вселяют надежды в беспилотные автомобили. 

 

 

“Трудные” проблемы беспилотников? 

 

 

Подробнее о функционале и вообще принципах работы ИИ в сфере беспилотных автомобилей мы писали в другом нашем обзоре. Там мы и говорили о ключевых проблемах, но мы остановимся на них подробнее, ведь наш стартап не просто так собрал целых 10 миллиардов долларов в мае этого года. 

 

 

Плохая погода создает значительные трудности для беспилотных автомобилей, так как камеры с искусственным интеллектом не могут корректно распознавать объекты на заснеженной дороге, что делает вождение небезопасным зимой. Исследователи работают над улучшением лазерных датчиков и программного обеспечения, чтобы автомобили могли видеть сквозь снег и отличать реальные препятствия от атмосферных явлений. Но этого недостаточно. 

 

 

Дорожная разметка, поскольку она сильно варьируется даже в пределах одного города, сложно упорядочивается. Требуется повторное обучения ИИ в каждом новом месте. Перекрестки с затертой или отсутствующей разметкой особенно опасны, так как ИИ может не понять, где остановиться или как безопасно проехать. Я думаю, многие водители знают участки своего города, где двойная сплошная существует лишь в головах водителей и сотрудников ДПС.

 

 

В силу высокого уровня коррупции в дорожном бизнесе разметка может планироваться неправильно. И внедрение паттернов в “мозг ИИ” в соответствии с ГОСТ или другими нормативами может привести к ложным предсказаниям на дороге, особенно на высокой скорости. 

 

 

Некоторые компании изучают досконально отдельный населенный пункт и обучают ИИ по его инфраструктуре. Такой вариант хорошо подходит для оформления такси в мегаполисах —  «перевозки» в крупных городах всегда будут востребованы и можно рассчитывать на адекватную окупаемость. 

 

 

Сюда можно добавить доставку и логистику, для которой в качественно урбанизированных городах, в той же Москве, можно оформить отдельную полосу/путь движения. Подобно заскриптованному NPC, машины DeliveryClub могли бы на автопилоте развозить пиццу или товар в супермаркеты: Ашан, Metro, Ленту… 

 

 

Хорошим примером тестов может стать новый проект от Яндекса с их беспилотным такси и выделенной полосой.

 

 

Существенный минус такого хитрого бизнес-решения — отказ от универсальности. 

 

 

Левые повороты, а в странах с левосторонним движением правые, создают сложности для ИИ, так как требуют принятия быстрых решений в условиях интенсивного трафика. 

 

 

Ваша машина едет со скоростью 130 км/ч, а ситуаций обгона встречного автомобиля может быть много, местность может быть разная. Вылет на обочину, предположим, снижает риск смерти, но лишь снижает, а не предотвращает — на кого ляжет ответственность в случае ухода на тот свет двух взрослых пассажиров с детьми? Некоторые ситуации на трассе не предполагают «скорость реакции» водителя в одну наносекунду, чтобы перенять управление с беспилотника. Кто возьмет ответственность? Беспилотник остается козлом отпущения в откровенно патовой ситуации. 

 

 

Взаимодействие с живыми водителями и пешеходами – одна из самых сложных задач для ИИ. Люди могут обойти опасности, вызванные нарушением правил другими водителями, а самоуправляемым автомобилям трудно принимать подобные решения. 

 

 

Начнем с того, что в Тюмени пешеходы передвигаются по диагонали, а в Москве «шашки» на BMW уже превратились в злостную норму. Стран, где движение основывается на внутренних конвенциях водительского комьюнити и хаосе предостаточно. Самое печальное — подобные соглашения между автолюбителями и сами принципы поведения на дороге могут корректироваться со временем. 

 

 

Сегодня остается нормой постоянно идти на обгон в потоке, а уже завтра принимается закон о лишении прав на «шашковании», вводится новое ПДД, водители начинают ездить цивильнее и соц. система перестраивается. 

 

 

 

 

Связывая сложность социального внутри автомобильного движения, скорость автомобиля и невнятную разметку, трафик выходит слишком неупорядоченным, поэтому обучать искусственный интеллект сложно. Здесь мы получаем ряд крайне трудноразрешимых проблем (социологические) и попросту решаемые, но с изысками и существенными затратами — погода/разница в разметке. 

 

 

Некоторые автомобильные происшествия происходят по вине других участников движения: лихой маршрутки, обгоняющей прямо на перекресте черепашью легковушку и пешехода, уткнувшегося телефон, и все это вместе с вашим скоростным беспилотником. 

 

 

Как принимать решения в сложных ситуациях, где вину и суть ДТП правоохранители устанавливают по несколько часов? Где ДТП неизбежно и вопрос стоит лишь о вероятностях и рисках? Просто включить экстренное торможение не получится. 

 

 

Водители неохотно отказываются от управления своими Tesla из-за недоверия к ИИ, особенно после увеличения числа ДТП с беспилотными авто. Для повышения доверия компании, такие как Wayve, показывают водителям информацию, видимую автомобилями. Это помогает, но частые аварии снижают эффективность таких мер. Поэтому репутацию беспилотникам следует поднимать. И не пропагандой, а кардинально новыми системами искусственного интеллекта. 

 

 

С другой стороны, именно нейросети могли бы стать эталоном правильного вождения, ведь автомобили без водителей не нарушают ПДД.  Но чем отличился наш стартап в области технологических инноваций?

 

 

Как Wayve собрался решать проблему сложного и многогранного автомобильного трафика?

 

 

Стартап привлек 1 млрд в рамках нового раунда. Ключевым инвестором оказался SoftBank Group. Такие инвестиции редко кому даже снятся. Не будем лукавить, вложения на этапе pre-IPO – наиболее оптимальное соотношение риска и доходности в общей оценке компаний. 

 

 

А еще инвесторами выступили Microsoft, Nvidia – они могут внести средств в эквиваленте бюджетов парочки городов с учетом современной капитализации их компаний… которая, мы напоминаем, больше ВВП России. 

 

 

Но есть и объективный фактор – Embodied AI. Помните мы писали про самую сложную проблему автомобильных беспилотников? – теперь автомобили учатся не по правилам ПДД и на основе тщательно проделанной картографии с локаторами – они тестируются на реальном человеческом поведении и сценариях дорожного движения. 

 

 

Но прежде нам нужно разобраться в том, что за воплощенное ИИ, тот самый Embodied. 

 

 

 

 

Алгоритмы Embodied AI обрабатывают сенсорные данные и формируют модели, которые учитывают физические характеристики автомобиля и его взаимодействие с дорожными условиями: динамической оценкой траекторий движения, анализом скорости и ускорения, а также предсказанием поведения других участников дорожного движения. 

 

 

Сенсоры позволяют агенту воспринимать окружающую среду, собирая данные о различных физических характеристиках: визуальной информация, звуках, тактильных ощущениях и других параметрах. 

 

 

Акторы, в свою очередь, позволяют агенту взаимодействовать с окружающим миром, осуществляя движения, манипуляции объектами и другие действия. Этот процесс восприятия и действия циклический и непрерывный: агент получает информацию из среды, обрабатывает её и на основе полученных данных выполняет соответствующие действия.

 

 

Ключевые слова “циклический” и “непрерывный”. Модель должна постоянно находиться в состоянии: стимул-решение-реакция, и они должны быть достаточно вариативными. 

 

 

Воплощенное ИИ напоминает реализацию гипотез и выводов самого наблюдаемого и проверяемого направления психологии — биохиверизма, о котором мы писали в недавнем обзоре. 

 

 

«Созданный для обеспечения безопасности, Wayve AI Driver может адаптироваться к неожиданным и невидимым ситуациям.»

 

 

«Наша технология искусственного интеллекта не требует карт HD, что позволяет легко масштабировать ее на новые дороги и города.»

 

 

«Наше программное обеспечение искусственного интеллекта, не зависящее от датчиков и аппаратного обеспечения, совместимо с любым типом транспортных средств.»

 

 

Воплощенный ИИ (или embodied AI) акцентирует внимание на интеграции физического воплощения и сенсомоторных способностей с когнитивными функциями. И вы не поверите, но не только водители, но и машина обладает своей небольшой, но человечностью.

 

 

Такой подход позволяет автомобилю не только следовать заранее заданным маршрутам, но и адаптироваться к неожиданным изменениям в окружающей среде: внезапному появлению препятствий или погодным условиям.

 

 

Подобный стартап, безусловно, требует серьезной исследовательской базы. И дело тут не в УТП (уникальном торговом предложении) компании, а в инновационности ее подхода. 

 

 

В предыдущем обозреваемом нами стартапе о беспилотных автомобилях, мы видели лишь вариации реализации старых технологий на основе лидар-локаторов и детекторов. Тут речь идет о поведении машин и целом ансамбле мультимодальных нейронок для имитации человеческой сенсорной системы. 

 

 

Ансамблевое программирование в деле: Авторегрессор, AGI на GPT 3.5 и 3D-генерация местности? 

 

 

Компания обещает планирование и рассуждение во время движения со стороны ИИ. В датасет идет все: картография, статистика, лидар, снятые «траектории движения», записи камер, информация о дорожном трафике, GPS, даже какие-то мистические мультимодальные данные. 

 

 

Главное открытие тут — мультимодальное взаимодействие целого ансамбля нейронок. Об ансамблях мы писали уже на Хабре, как и о мультимодальных ИИ. 

 

 

 

Вообще стартап предлагает несколько нейронок, которые работают в ансамбле. Одна из них – GAIA 1, которая работает по принципу предсказаний дорожных ситуаций в моменте. 

 

 

GAIA-1 может генерировать видео, выполняя будущие развертывания, начиная с видеоподсказки. Эти будущие развертывания дополняются действиями, влияющими на определенное поведение транспорта (например, поворот влево), или текстом, вызывающим изменение некоторых аспектов сцены (изменение цвета светофора).

 

 

Сама нейронка разделяется на два компонента: модель «мира» и декодер видеодиффузии. Модель “мира” рассуждает о компонентах и динамике сцены высокого уровня, в то время как модель «диффузии» берет на себя ответственность за перевод скрытых представлений обратно в видео с разрешением чуть ли не в IMAX. Шутка. 

 

 

Модель «мира» – это авторегрессионный преобразователь, который предсказывает следующий символ изображения на основе текста и действия.

 

 

Будущее значение, например, температура завтра, зависит от нескольких предыдущих значений, например, температуры за последние несколько дней. Эти предыдущие значения умножаются на определенные коэффициенты, которые модель подбирает так, чтобы наиболее точно отражать наблюдаемые данные — так работает авторегрессор. 

 

 

Многозадачный декодер диффузии видео рендерит видео с высоким разрешением (больше 4к), а также временную повышающую субдискретизацию для создания плавных видео на основе информации, сгенерированной авторегрессионной моделью мира.

 

 

GAIA-1 спроектирован как мультимодальный, он использует видео, текст и действия для имитации реальных сценариев.  

 

 

 

 

Обучая его на большом массиве реальных данных о вождении в городских условиях Великобритании, GAIA-1 учится понимать и распутывать статичные и динамические элементы, включая автомобили, автобусы, пешеходов, велосипедистов, схемы дорог, здания и даже светофоры. 

 

 

Важно отметить, что мультимодальность заточена не только под данные с high-quality видео и данных с датчиков, но и текста… 

 

 

Другая составляющая ансамбля – специально обученный LLM, который демонстрирует признаки AGI, так как на нем строятся принципы рассуждения во время движения. Хотя пока что трансформер нужен для комментирования своих действий. Как будет это выглядеть на практике?

 

 

Они собрали мультимодальную архитектуру LLM на уровне объекта, которая объединяет векторизованные числовые модальности с предварительно обученным трансформером для улучшения понимания контекста в дорожных ситуациях.

 

 

Новый набор данных из 160 тысяч пар QA, полученных из 10 тысяч сценариев вождения, в сочетании с высококачественными командами управления, собранными с помощью агента RL, и парами вопросов и ответов, созданными учителем LLM (GPT-3.5). 

 

 

Разработана отдельная стратегия предварительной подготовки для согласования числовых векторных модальностей со статическими представлениями LLM с использованием данных языка векторных субтитров. 

 

 

Объекты распознаются и выбранное решение кодируется в векторное представление, проводится эмбендинг, и через LLM мы получаем субтитры для движения нашего беспилотника.

 

 

Еще одно ключевое решение в проекте – моделирование окружения и отсутствие, своего рода, формальной детекции на аннотированных данных. Да, именно проблемы в аннотации приводили ко всяким ошибкам в моделях Tesla: девушка перед машиной неожиданно превратилась в дорожную магистраль, и ИИ-водитель давал газу… 

 

 

Они обучили модель глубокого обучения вождению в смоделированной среде, где возможно полное знание окружающей среды, и адаптировали ее к визуальным изменениям, наблюдаемым в реальном мире, совершенно без присмотра и без меток реального мира. 

 

 

Эта работа выходит за рамки простого перевода изображения в изображение, ставя желаемую задачу управления дифференцируемым компонентом в архитектуре глубокого обучения. Как это будет работать на практике – тоже большой вопрос, но технология звучит многообещающе. Она предлагает вариативность обучения. 

 

 

Все же мы наблюдаем постоянный прогресс в сфере ИИ не только на уровне производства новых кремниевых ультра-чипов со скоростью в миллиард операций в наносекунду, а также улучшению уже существующих технологий. KAN, о которой мы скоро расскажем на Хабре подробно, трансформеры и подобные технологии двигают индустрию машинного обучения семимильными шагами. 

 

 

Будем ждать новостей от проекта, а пока… 

 

 

Мы приводим ссылки на исследовательские работы их ресерчеров, где они подробно рассказывают про свои наработки и результаты: 

 

 

Переосмысление беспилотного автомобиля

 

 

Вероятностное предсказание будущего для понимания видеосцен

 

 

FIERY: Прогнозирование будущих экземпляров с высоты птичьего полета с помощью монокулярных камер объемного звучания

 

 

Вождение с LLM: объединение векторной модальности на уровне объекта для объяснимого автономного вождения 

 

 

А другие статьи можете найти у них на сайте.