Гонка нейросетей продолжается: ChatGPT стал похож на сюжет фильма «Она» — Google отвечает своими обновлениями

События последних дней вновь заставили весь мир говорить о нейросетях. Сначала, 13 мая OpenAI показала новую, еще более совершенную, языковую модель GPT-4o, которая, по выражению журналистов, «вдохновлена голливудским видением искусственного интеллекта». На следующий день Google провел конференцию, на которой показал свои ИИ-новинки, включая генерацию видео по тексту и нейросеть, которая ищет ответы в сети за пользователя. Битва нейросетей продолжается? И почему последние анонсы радикально изменят опыт работы с искусственным интеллектом для миллионов пользователей? Рассказываем в материале «Собака.ru».

Новый ChatGPT — прямо из фантастических фильмов

«OpenAI запускает голосового помощника, вдохновленного голливудским видением искусственного интеллекта», — таким заголовком отреагировало издание The Wall Street Journal на очередную презентацию разработчика ChatGPT. В ходе мероприятия была представлена новая языковая модель GPT-4o, которую уже называют «самым мощным ИИ» от Open AI. Причем она будет доступна пользователям бесплатно.

Главное, на что был сделан упор в ходе презентации, — голосовые возможности новой модели. Разработки OpenAI и раньше могли говорить, но теперь GPT делает это намного увереннее, меняя интонацию и другие характеристики своего голоса. Также модель распознает эмоции собеседника, ее можно перебивать или попросить сочинить и спеть песню. При этом для того чтобы отреагировать на голосовую команду нейросети, теперь нужно менее секунды (раньше на это уходило до 5,4 секунды).

Большой шаг сделан и в сторону мультимодальности: модель может воспринимать любую комбинацию визуальной, текстовой и аудиоинформации. К примеру, пишет РБК, пользователь может загрузить фотографию меню на иностранном языке и голосом попросить перевести текст, а также дать рекомендации по заказу блюда.

Также нейросеть воспринимает информацию с камеры устройства — к примеру, она может распознать на видео математическое уравнение и дать подсказки по его решению. Кроме того, GPT-4o может «увидеть» эмоции на лице собеседника и отреагировать на них, в том числе шуткой.

Все это делает взаимодействие с новой ИИ-моделью максимально похожим на разговор с живым человеком... или на общение с искусственным интеллектом из научной фантастики. Так, журналисты стали сравнивать новинку с программой из фильма «Она» 2014 года. В этой картине писатель, герой Хоакина Феникса, влюбляется в «операционку» — систему на базе искусственного интеллекта. Поддержал это сравнение и глава OpenAI Сэм Альтман, опубликовавший после презентации твит со словом «Her» (ранее Альтман называл эту картину своим любимым научно-фантастическим фильмом).

Директор по стратегическому маркетингу «Яндекса» Андрей Себрант в комментарии для «Собака.ru» также отмечает «рывок в человекоподобности разговорного интерфейса», в первую очередь в скорости ответа. «Именно скорости мы прежде всего ждем от подобного себе собеседника – если ему каждый раз требуются секунды на размышление, а ответ формируется по словам и зачитывается бесстрастно – это точно робот по ощущениям. Многолетний опыт работы с голосовыми ассистентами (от Алексы до Алисы) для многомиллионных аудиторий показывает, что большинству людей важна и нужна такая "человечность" собеседника, и здесь достижения OpenAI очень впечатляют», — добавил он.

Игорь Котенков

Специалист по машинному обучению, автор Telegram-канала «Сиолошная»:

Сравнение с операционкой из фильма «Она» оправдано в том смысле, что перед нами очень удобный интерфейс. Языковая модель, с которой мы привыкли общаться как с ChatGPT, теперь умеет отвечать голосом, причем нативно, без промежуточной генерации текстового ответа, как это происходило до этого. Это очень большое новшество с точки зрения технологии, потому что, как показывает вся история развития нейросетей, когда мы объединяем все системы в одну (это называется end-to-end), это приносит свои плоды.

Что еще очень важно: GPT4o — самая умная модель будет доступна в режиме свободного доступа. Это даже важнее, чем [продвинутый] голосовой ассистент. Большинство пользователей до сих пор общались с бесплатной версией ChatGPT, работающей на базе модели GPT3.5. Нововведение должно принести большое количество новых впечатлений этим людям. Десятки миллионов людей [получив доступ к обновленной версии] скажут: «Ого, а я и не знал, что нейронки такие умные!» Почему не знали, потому что они не пробовали платную версию, возможности которой теперь перекочевали в открытую.

Ответ Google — более десятка новых ИИ-возможностей

Сенсационная презентация OpenAI состоялась за день до конференции Google, на которой технологический гигант должен был представить свои обновления в области искусственного интеллекта. Комментаторы, открыто говорят, что это не совпадение — OpenAI и партнеры (к примеру, Microsoft) уже больше года соревнуются с Google на рынке нейросетей.

Если представление GPT-4o заняло всего 26 минут, то трансляция от Google растянулась почти на два часа! Как посчитали профильные Telegram-каналы, слова «ИИ», «искусственный интеллект» и производные от них прозвучали в общей сложности 121 раз. Что не удивительно, мероприятие было практически полностью посвящено нейросетям и тому, как они помогут пользователям Gmail и других сервисов компании — всего издание Rozetked насчитало 13 достойных упоминания анонсов (включая обновления в почте, поиске и документах).

Так, летом 2024 года в Google Photo появится функция интеллектуального поиска снимков и информации о них (к примеру, можно будет попросить найти фотографию своей машины и уточнить, какой у нее номерной знак). Большое внимание привлекла новая функция интеллектуального поиска AI Overview — она сама анализирует содержание сайтов и выдает пользователю ответ в виде краткого саммари по запросу со ссылками, по которым можно найти более подробную информацию. В издании The Verge новинку назвали «будущим поиска», которое «уже здесь» (в русскоязычном сегменте новинку, однако, восприняли с большим скепсисом, отметив, что очень похожая функция уже в апреле была запущена «Яндексом»).

Помимо этого, Google представил свою первую нейросеть, генерирующую видео по текстовому описанию, — ее прямо называют конкурентом Sora от OpenAI. Также была представлена функция Imagen 3, являющаяся самым мощным в истории компании генератором картинок по текстовым описаниям. Ну и, конечно, широкое внимание привлек Gemini Live — ИИ-ассистент, который как GPT-4o, умеет работать с голосовой, визуальной и текстовой информацией, способен вести беседу с человеком без задержек и долгого времени ожидания, а также запоминать контекст беседы. Впрочем, в сухом остатке конференция Google встретила куда более прохладные отзывы, чем релиз OpenAI.

Андрей Себрант

Директор по стратегическому маркетингу «Яндекса»:

Удивительно, что Google пока не демонстрирует своего главного и мощнейшего преимущества: у него есть колоссальный портфель высокотехнологичных продуктов, которыми пользуются миллиарды людей. Глубокая интеграция ИИ-моделей в такие продукты позволяет создавать недостижимое для конкурентов (в том числе, OpenAI) новое качество. И уже много лет назад такие интеграции Google объявлял (вспомним его Duplex, который должен был вести за человека телефонные переговоры с разными сервисами) – но именно в этом направлении никаких новинок нам не показали. Суммаризация в браузере или в поиске совсем не выглядит как крутая инновация, как и помощь в написании писем. Да, нам показывают возможности собственных генеративных моделей, сопоставимые (на уровне демок) с тем, что умеют модели от OpenAI, но хочется-то увидеть революцию продуктов, которыми Google силен.

«Насколько убедителен ответ Google? — добавляет специалист по машинному обучению Игорь Котенков, — Очень неубедителен. Они оправдывают звание догоняющих в этой ИИ-гонке. Многое из того, что они показали, мало того, что хуже, [чем у OpenAI], с точки зрения технологий, так оно еще и недоступно сейчас, а появится когда-нибудь потом».

Новый шаг в сторону будущего?

«Мы смотрим в будущее взаимодействия между нами и машинами», — так охарактеризовала презентацию GPT-4o технический директор OpenAI Мира Мурати. Некоторые авторы называют произошедшее на этой неделе «переломным моментом в эволюции искусственного интеллекта».

«Разделять поступательный прогресс и прорывы в быстро развивающейся области сложно, причем прорыв может быть не в технологических метриках или новых фичах, а в восприятии, — говорит Андрей Себрант из «Яндекса», Пресловутый "вау-эффект" возникает для пользователя в тот самый момент, когда задержка голосового ответа модели сокращается с нескольких секунд до 0,3 секунды, чем оправданно гордится OpenAI. Называть ли это новым шагом – дело вкуса».

Андрей Себрант

Директор по стратегическому маркетингу «Яндекса»:

В любом случае непрерывные количественные изменения в итоге накапливаются до стадии, когда их уже можно назвать качественными, так что само по себе быстрое «очеловечивание» отклика моделей в диалоге можно считать важным шагом.

По мнению Игоря Котенкова, самое важное, что пользователи и эксперты увидели в презентации OpenAI и Google, — это то, что инженеры компаний могут масштабировать свои языковые модели, сохраняя качество продукта.

«Как следствие, людям становится легче пользоваться их решениями, — говорит он. — Большие языковые модели могут прорастать во все большее количество продуктов. Если раньше модель стоила, по-моему, 30 долларов за миллион слов, то сейчас она стоит 7 долларов. Вот получается, что появляются новые бизнес-кейсы, бизнес-сценарии использования ИИ-инструментов там, где раньше по экономике это не пролазило».

Неожиданное послесловие

Впрочем, на презентациях OpenAI и Google события в мире искусственного интеллекта не закончились. Вскоре после презентации GPT-4o стало известно об уходе из OpenAI одного из основателей компании Ильи Суцкевера, уроженца Нижнего Новгорода. Он являлся главным научным сотрудником компании, а в ноябре 2023 года оказался в центре скандала со временным увольнением из компании другого сооснователя Сэма Альтмана. Тогда говорилось, что Суцкевера смущает недостаточное внимание партнеров к возможным последствиям развития ИИ для человечества.

«Спустя почти десять лет я принял решение покинуть OpenAI, — написал Суцкевер в своих социальных сетях, — Траектория развития компании была просто чудесной, и я уверен, что OpenAI создаст AGI, который будет одновременно безопасным и полезным... Для меня было честью и привилегией работать вместе [с коллегами], и я буду очень скучать по всем. Пока и спасибо за все. Я с нетерпением жду того, что будет дальше — проекта, который очень важен для меня лично, о котором я поделюсь подробностями в свое время».

Сэм Альтман, несмотря на прошлогодний конфликт, отметил, что сожалеет об уходе коллеги и назвал его «одним из величайших умов своего поколения» и отметив, что без него «OpenAI не смогла бы стать тем, чем является сейчас». В чем причина решения Суцкевера и как оно скажется на компании и ее положении в гонке ИИ пока неизвестно.

Гонка нейросетей продолжается: ChatGPT стал похож на сюжет фильма «Она» — Google отвечает своими обновлениями