Общий ИИ уже наступил: интервью с CEO Pheon Юрой Фицджеральдом

Индустрия искусственного интеллекта стремительно развивается, в том числе и по части принятия технологии среди простых пользователей. Инструменты вроде ChatGPT, Stable Diffusion и ElevenLabs позволили миллионам людей по всему миру взаимодействовать с ИИ. Проявляет ли ChatGPT интеллект? Оставит ли технология людей без работы? Этично ли использовать ИИ на войне? Об этом и не только ForkLog пообщался с основателем стартапа по цифровому клонированию человека Pheon, а в прошлом — владельцем аутсорсинговой компании Hey Machine Learning, Юрой Фицджеральдом [Jura Fitzgerald]. Про ChatGPT Богдан: ChatGPT. О нем говорят буквально все. Что ты думаешь по поводу технологии? Я думаю, это замечательная технология. Она появилась не вчера, к этому долго шли. Эволюция заняла лет пять [с момента появления первой версии GPT]. И сейчас мы в точке, когда есть ChatGPT, GPT 3.5, а скоро и четвертая версия подоспеет. Google также проводит какие-то опыты со своей языковой моделью. Они, скорее всего, используют LaMDA. Один из удачных экспериментов — применения языковой модели в функции планирования. То есть, на языковую модель подается задача, например «мне нужно принести бутылку пива». Затем языковая модель генерирует алгоритм действия: «подъехать к холодильнику — поднять руку — открыть дверь — взять бутылку — закрыть дверь — развернуться — привезти бутылку». Дальше этот алгоритм парсится и выполняется. Результаты получились хорошие. Богдан: это можно назвать проявлением интеллекта? Языковые модели, в частности GPT, это вот уже хорошее проявление интеллекта. Лет пять назад, когда ИИ выполнял узкоспециализированные задачи, я говорил: «люди поймут, что искусственный интеллект уже пришел, когда алгоритмы станут выполнять более широкий спектр задач если не лучше человека, то хотя бы на уровне». ChatGPT и GPT в частности — огромный шаг в этом направлении. По сути, это одна модель, которая хорошо решает множество задач, даже тех, которые не подразумевались. Это такая мультизадачная штука, которая будет развиваться в сторону мультимодальности, то есть будет совмещать различные алгоритмы в единые системы. Точнее, это уже происходит. Может видели сериал Nothing Forever на Twitch? Где совместили генератор картинок и текстовую модель, которые беспрерывно создают сценарий и отрисовывают изображения. Богдан: если эти модели существуют давно, в чем секрет успеха ChatGPT? На мой взгляд, удачный шаг — наличие очень удобного интерфейса для взаимодействия. Это как с [протоколом] HTTP было. Его удобно смотреть и отлаживать, уже потом на него нагородили знакомый всем нам интернет. OpenAI примечательна тем, что они, по сути, монополисты. Как пионеры технологии, у них отличная команда и практически неограниченные ресурсы от Microsoft [благодаря сделке на $10 млрд]. Я уверен, что там не вся сумма в виде денег. Очень много решает сервис Azure и их сервера, к которым у OpenAI есть безлимитный доступ. Сейчас это особенно ценно, потому что банально не хватает вычислительных мощностей. У Amazon и Google их нет в достаточном количестве. Даже мы как небольшой стартап — нам много серверов не надо — регулярно сталкиваемся с проблемами. Мол, вот наши деньги, но их не могут взять, потому что нет доступных ресурсов. И сейчас рядовому стартапу очень сложно конкурировать в фундаментальном направлении диалоговых моделей. Натренировать модельку с нуля — это дорого, очень дорого, и таких ресурсов у рядовых стартапов нет. Поэтому ChatGPT — очень сильная монополия. Про синтетических людей Богдан: раз уж разговор зашел про ваш стартап, Pheon, расскажи о нем поподробнее. Это digital-cloning стартап. Технология клонирования людей, создания их цифровых копий. По сути, сгенерированное видео, на котором человек выглядит и звучит также, как в жизни, и говорит приблизительно то же, что и оригинал. Допустим, клон Илона Маска. На вопрос «где ты работаешь» он ответит: «я CEO Tesla Motors, SpaceX, Neuralink, Twitter», и что там у него еще есть. Богдан: как у вас родилась такая идея? Начиналось все с поиска. На этом этапе мы перебирали все возможные варианты ИИ-продуктов с новыми и перспективными технологиями. Насобирали много вариантов, из которых выбрали пять лучших и презентовали по профильным инвесторам. Идея с цифровыми людьми вызвала наибольший интерес, поэтому решили на ней сфокусироваться. Кроме этого, о ней давно уже говорят, снимают сериалы вроде «Черного зеркала». К нам [в Hey Machine Learning] приходил заказчик, который хотел что-то подобное сделать — «оживить» покойного дедушку. Мы исследовали возможности и тогда все было плохо. Сейчас вопрос технологического риска не стоит. В том или ином виде они [необходимые разработки» уже существуют. Марина: синтетические люди — перспективная ниша? Это как GPS, когда перестала быть чисто военной системой и «пошла в народ». На ее основе появились сервисы вроде Uber, Glovo, [Google] Maps, получила развитие отрасль дронов. Вот так и с цифровыми людьми – фундаментальная технология, поверх которой можно строить много разных применений. Можно оцифровывать знаменитостей и связать с образовательными курсами, изучением языков. Например, выучить испанский с Бейонсе. Это может быть консалтинговая история. Многие юридические кейсы вроде открытия компании по законам штата Делавэр, подачи налоговой декларации и составления отчетов поддаются формализации. С таким объемом работы, который не потянет человек, легко справится цифровой юрист. Еще пример — коуч-мотиватор, помогающий достигать цели вроде регулярного посещения спортзала. Он сможет напоминать о необходимости ходить на тренировки, контролировать выполнение упражнений на разные части тела, спорить о чем-то. И есть много применений, о которых мы и не догадываемся. Эта индустрия только-только начинает появляться. Мы сейчас в поиске большого рынка под эту историю. Богдан: как происходит процесс цифрового клонирования? Допустим, я селебрити, хочу создать свою копию. Что мне для этого нужно сделать? У нас уже есть решение для селф-онбординга, где можно создать клона. Сейчас это в простом варианте, где ты описываешь краткую биографию человека, важные факты о нем, характер. И загружаешь видео, снятое хоть с селфи-камеры смартфона, где он что-то говорит. Эти данные используются нейросетями для того, чтобы сгенерировать персонализированные видеоответы. Богдан: звучит как-то просто. Помню кейс, когда оцифровали словацкого баскетболиста Луку Дончича. Его долго фотографировали в студии под разными углами, записывали образцы голоса и так далее. Ваш подход сильно страдает в отношении качества результата? В начале у нас тоже были высокие требования к контенту. Для этого надо было арендовать студию, что в Америке не дешево. Оплатить работу оператора, продюсера, несколько часов снимать контент, заботиться об идеальном свете, положении головы в кадре. Со временем требования к контенту сильно снизились. До селфи-видео на пять секунд. Марина: у вас есть защита от недобросовестного использования? Чтобы не создавали клонов звезд и не распространяли с их помощью токсичный контент? Конечно. Наши нейросети фильтруют контент. Есть модель, которая тренируется на таких датасетах, чтобы минимизировать количество непристойного, грубого или токсичного контента. Это в плане текстовых запросов. В плане видео это все может решаться водяными знаками, дисклеймерами в самом приложении. Но пока у технологии генерирования есть ряд ограничений. Иногда в каких-то кадрах могут проскочить артефакты, разрешение картинки также ограничено. То есть по таким маркерам можно определить реальный ли контент. Но это вопрос времени, когда технология в 99% случаев будет неотличима от видео, записанного на камеру. Богдан: вы фиксировали попытки сгенерировать что-то неприемлемое? Или замечали ошибки самого приложения? Нередкий случай, когда приходит человек создавать двойника, но вместо своего селфи загружает видео с утятами какими-то. Или записывает YouTube вместе с интерфейсом. Хоть мы и упростили порог входа, для большого количества пользователей снять качественный контент — не простой процесс. По ряду технических и психологических причин. Богдан: если кто-то скопирует образ, скажем, Ким Кардашьян, без разрешения. Кто несет ответственность за это? Если ты делаешь свое приложение и генерируешь контент, то правами на использование образа должен обладать ты. У нас была ситуация с AppStore, когда мы собрали приложение под одного селебрити. Apple отклонила заявку и запросила документы, подтверждающие права использования образа. Мы им отправили соответствующие бумаги и в итоге приложение допустили к публикации. На UGC-площадках ответственность за контент ложится на пользователей. Платформа должна лишь модерировать. При возникновении спорных ситуаций необходимо разбираться, нарушены права или нет. Про войну Богдан: основная часть команды у вас была сосредоточена в Харькове. Как начало широкомасштабного вторжения повлияло на работу? Это риторический вопрос для всех, кто с начала войны был в Украине. Конечно, на нас это повлияло негативно. Нарушились процессы, на первый план вышли вопросы безопасности. Из Харькова пришлось эвакуироваться. Часть людей разъехалась. А я большой противник удаленки: считаю, что команда должна работать вместе, потому как скорость коммуникации и само общение сильно решают. Очень много крутых идей появляется в случайных диалогах. Да и банально что-то объяснить, показать, проговорить рабочие вещи – это быстрее делать в формате лицом к лицу. Богдан: вам удалось сохранить состав команды? У нас один человек пошел воевать. Остальная команда сохранилась. Марина: спустя почти год вам удалось вернуть прежний темп работы? Да, перфоманс вернулся к довоенному уровню. Сложно было первые пару месяцев. Марина: говоря о войне, как ты считаешь, на сколько этично использовать ИИ на поле боя? Абсолютно допустимо, почему нет? Почему естественный интеллект этично использовать, а искусственный — нет? Их отличие лишь в том, что естественный — родился, а искусственный — собрали. И если роботы смогут воевать друг с другом, люди перестанут страдать. Но это такая утопия, мало реалистичная. Про общий ИИ Богдан: сейчас ИИ стал массовым явлением, хотя еще совсем недавно он был больше интересен гикам и целевому сообществу. Что поменялось за последние годы? Лет 5 назад я выступал с презентацией об ИИ в Харьковском национальном университете радиоэлектроники. Впрочем, с тех времен, она не потеряла актуальность. Появились какие-то новые наработки, те же Diffusion или ChatGPT. Предшественником всего этого стало железо, доступность вычислительных мощностей. Органически растет сообщество, появляется больше специалистов, «звезд» отрасли. Соответственно, это сообщество и делает больше исследований, больше хороших новых инструментов. Больше становится данных, их стало проще хранить и дешевле обрабатывать. То есть предпосылка — это экономика. Марина: по-твоему, не было какого-то переломного момента, а все развивалось своим чередом? А что такое переломный момент? Марина: произошло нечто такое, что поделило на «до» и «после». А что такое «до» и что такое «после»? Марина: например, когда вышла DALL-E и оказалось, что картинки можно генерировать по текстовому запросу. DALL-E далеко не первая, было много других решений. Они были хуже по качеству, генерировали более «ЛСД-шные» картинки. Конечно DALL-E, GPT — это майлстоуны. В каком-то роде это все переломные моменты. Но для меня это одна естественная непрерывная эволюция. Марина: лет пять назад мы обсуждали чат-ботов и говорили, что эта технология уже отходит на задний план. Ты мог тогда представить, что в 2023 году чат-бот будет настолько популярным и востребованным? Я тогда не задумывался, что чат-бот — это удачный интерфейс к искусственному интеллекту. Но и сейчас есть небольшая разница между тем, что человек общается с другим человеком или ботом. Даже очень умным ботом. Тут уже больше барьер в психологии. Дружба это не просто переписка. Это длительный процесс выстраивания отношений, наличие общих моментов, воспоминаний, увлечений. Общение в формате переписки — одна из составляющих дружбы. И чат-боты ее не заменяют. Но даже в текущем виде они могут создавать некую привязанность. Особенно это заметно среди одиноких людей, которые ищут поддержку. Но и все это будет эволюционировать, будет обрастать психологическими факторами. Таким образом боты будут восприниматься более одушевленными. Марина: а если не в качестве общения, а обслуживания. Если бы тебе подавал блюда в ресторане робот, ты бы себя комфортно чувствовал? Конечно, есть потребность в человеческом общении, но и одновременно с этим нет претензий к ботам. Я недавно заходил в кафешку, где готовят машины. Там работает, всего один человек, который устанавливает капсулы с макаронами и соусами в этих роботов. Они это все смешивают, подогревают, готовят, а ты наблюдаешь за процессом и через 15 минут у тебя готовый заказ. Еда по вкусу ничем не отличается от блюд шеф-повара. Это, конечно, не «Мишлен», скорее ближе к домашним макарошкам. Но это обычная, съедобная еда. Изысканная кухня тоже может к этому прийти в процессе естественной эволюции. Да, приятно, когда приходит официант, заботится о комфорте гостя. Машины пока не могут их заменить, потому что нет таких технологий. Если вместо человека будет приходить робот – так это только здорово. Богдан: какие секторы ИИ ты считаешь наиболее перспективными? Да в целом ИИ очень перспективная область. Как сказал Эндрю Ын, искусственный интеллект – это новое электричество. Что будет развиваться? Из того что сейчас в тренде, собственно, языковые модели. Они станут фундаментом для ИИ. Если говорить о векторе развития — мультимодальность. Поверх моделей будут добавляться новые интерфейсы, помимо текстовых. Это могут быть системы принятия решений для роботов, генераторы сценариев для видео, военные технологии. Богдан: насколько сильно автоматизация повлияет на рынок труда? Останутся ли люди без работы? Без дела люди не останутся. А работу можно придумать из любой деятельности. Можно переквалифицироваться в другую профессию. Какие-то области начнут трансформироваться. Из очевидного – копирайтинг. Несмотря на то, что алгоритмы могут создать большие объемы изображений, дизайнеров они не заменят. Они трансформируют ремесло. С тем же GPT — запрос необходимо правильно сформировать. Так что может появиться такая работа — промпт-инжиниринг. Специалист, который будет формировать правильную задачу для ИИ. На данный момент у человека есть большое преимущество. С него можно спросить, когда что-то пошло не так. С чат-бота ты не спросишь. Это еще одна причина, почему люди не скоро останутся без работы. Мне недавно картинка попалась в интернете, где в магазине с роботами-пылесосами уборщица моет полы. Ее я всегда вспоминаю, когда говорят, что люди останутся без работы. Данные: Twitter-аккаунт Keisinger. Богдан: что на счет общего ИИ, как быстро он наступит? И нужен ли он нам вообще? Он уже появился. Тот же GPT — это AGI. На тему «что такое общий ИИ» можно спекулировать, потому что нет единого мнения. В моем понимании — это одна система, один мозг, архитектура, которая может решать широкий спектр задач. ChatGPT является таковой. Она решает широкий спектр задач, которым даже не обучалась. И эта способность будет становиться сильнее и сильнее. Богдан: в теории ChatGPT смог бы пройти тест Тьюринга, и обычный человек не догадался бы с кем общается? Даже у нас люди, которые общаются с клоном, спрашивают: «Ты живой человек? Давай созвонимся пообщаемся». И скидывают в чат номер телефона. Есть у людей зерно сомнения. Так что тест Тьюринга на этом этапе пройден. Лет пять назад AGI был сильно глупее. Да и сейчас ему далеко до человека. Но пройдет какое-то время и ИИ сравняется с людьми. Это здорово, это продвинет развитие. Сейчас исследователи и математики очень ограничены в когнитивных способностях. У нас есть барьер: размер мозга, количество нейронов. И мы не можем его преодолеть. А у продвинутого интеллекта будет преимущество, он сможет находить какие-то более глубокие закономерности, о которых мы даже не подозреваем. Придумывать новые смыслы, недоступные для человеческого разума. AGI сможет создавать какие-то новые приборы, генерировать новые понятия — и всем от этого будет хорошо. Если роботы, конечно, нас всех не уничтожат. Но хорошая новость в том, что это вряд ли произойдет при нашей жизни. Беседовали Богдан Каминский и Марина Глайборода

Общий ИИ уже наступил: интервью с CEO Pheon Юрой Фицджеральдом

Most Read News

Related News