Самые важные тенденции в области искусственного интеллекта в 2024 году

В 2024 году бизнес может создавать уникальные ИИ-модели, используя открытые источники, для различных сфер, таких как право и здравоохранение. Развитие многофункционального ИИ углубляет взаимодействие с виртуальными агентами. В то же время, популярность генеративных ИИ-инструментов увеличивает юридические и репутационные риски для компаний.

2022 год стал годом, когда генеративный искусственный интеллект вошел в общественное сознание, а в 2023 году он начал укореняться в бизнес-мире. Таким образом, 2024 год обещает быть решающим для будущего ИИ, поскольку исследователи и предприятия стремятся понять, как наиболее практично интегрировать этот технологический скачок в нашу повседневную жизнь.

Эволюция генеративного ИИ напоминает эволюцию компьютеров, хотя и происходит намного быстрее. Огромные центральные мейнфреймы, управляемые несколькими компаниями, уступили место более компактным и эффективным машинам, доступным предприятиям и исследовательским учреждениям. В последующие десятилетия постепенные усовершенствования привели к появлению домашних компьютеров, с которыми могли работать энтузиасты. Со временем мощные персональные компьютеры с интуитивно понятными интерфейсами без необходимости программирования стали повсеместными.

Генеративный ИИ уже достиг своей "фазы для энтузиастов" — и, как в случае с компьютерами, дальнейший прогресс направлен на достижение большей производительности в более компактных устройствах. В 2023 году мы наблюдали взрывной рост все более эффективных базовых моделей с открытыми лицензиями, начиная с запуска семейства больших языковых моделей (LLM) LlaMa от Meta и продолжая такими моделями, как StableLM, Falcon, Mistral и Llama 2. DeepFloyd и Stable Diffusion достигли относительного паритета с ведущими проприетарными моделями. Благодаря техникам дообучения и наборам данных, разработанным сообществом с открытым исходным кодом, многие открытые модели теперь превосходят все, кроме самых мощных закрытых моделей по большинству показателей, несмотря на значительно меньшие параметры.

По мере ускорения темпов прогресса, постоянно расширяющиеся возможности современных моделей будут привлекать наибольшее внимание СМИ. Но самые значимые разработки могут касаться управления, промежуточного программного обеспечения, техник обучения и каналов данных, которые делают генеративный ИИ более надежным, устойчивым и доступным как для предприятий, так и для конечных пользователей.

Вот некоторые важные текущие тренды в ИИ, на которые стоит обратить внимание в следующем году:

Проверка реальности: более реалистичные ожидания
Мультимодальный ИИ
Малые языковые модели и достижения в области открытого исходного кода
Дефицит GPU и затраты на облачные вычисления
Оптимизация моделей становится более доступной
Настраиваемые локальные модели и каналы данных
Более мощные виртуальные агенты
Регулирование, авторские права и этические вопросы ИИ
Теневой ИИ (и корпоративные политики ИИ)

Хотите узнать, как лидеры российского рынка используют наши решения?

Ознакомьтесь с маркетинг-китом AllSee, где собраны реальные кейсы и решения, доказавшие свою эффективность в бизнесе!

Проверка реальности: более реалистичные ожидания

Когда генеративный ИИ впервые привлек массовое внимание, типичные бизнес-лидеры получали знания в основном из маркетинговых материалов и захватывающих новостей. Практический опыт (если таковой был) ограничивался экспериментами с ChatGPT и DALL-E. Теперь, когда шумиха немного улеглась, бизнес-сообщество имеет более четкое представление о решениях на базе ИИ.

Согласно циклу хайпа Gartner, генеративный ИИ находится на "пике завышенных ожиданий" и готовится к спуску в "долину разочарования" — другими словами, он скоро перейдет в период, когда ожидания несколько снизятся. В то же время, отчет Deloitte "Состояние генеративного ИИ в бизнесе" за первый квартал 2024 года показывает, что многие лидеры "ожидают значительных трансформационных изменений в ближайшее время". Реальность, скорее всего, окажется между этими крайностями: генеративный ИИ предоставляет уникальные возможности и решения, но не станет универсальным решением для всех.

То, как реальные результаты сравниваются с ажиотажем, отчасти зависит от точки зрения. Отдельные инструменты, такие как ChatGPT, часто привлекают наибольшее внимание, но плавная интеграция в уже существующие сервисы обычно оказывается более устойчивой. До нынешнего хайпа, генеративные инструменты машинного обучения, такие как функция "Smart Compose" от Google, представленная в 2018 году, не воспринимались как революция, несмотря на то, что предвосхищали сегодняшние сервисы по генерации текста. Аналогично, многие высокоэффективные инструменты генеративного ИИ внедряются как интегрированные элементы корпоративной среды, которые улучшают и дополняют существующие инструменты, а не заменяют их: например, функции "Copilot" в Microsoft Office, функции "Generative Fill" в Adobe Photoshop или виртуальные агенты в приложениях для продуктивности и сотрудничества.

То, где генеративный ИИ сначала набирает обороты в повседневных рабочих процессах, будет иметь большее влияние на будущее ИИ-инструментов, чем гипотетический потенциал любых конкретных возможностей ИИ. Согласно недавнему опросу IBM среди более 1000 сотрудников крупных компаний, тремя основными факторами, способствующими внедрению ИИ, являются улучшения в инструментах ИИ, которые делают их более доступными, необходимость сокращения затрат и автоматизации ключевых процессов, а также все большее количество ИИ, встроенного в стандартные бизнес-приложения.

Мультимодальный ИИ

Тем не менее, амбиции современных генеративных ИИ растут. Следующая волна достижений будет направлена не только на улучшение производительности в конкретной области, но и на создание мультимодальных моделей, которые могут использовать разные типы данных в качестве ввода. Хотя модели, работающие с разными типами данных, не являются абсолютно новой идеей — текст-изображение модели, такие как CLIP, и модели преобразования речи в текст, как Wave2Vec, существуют уже несколько лет — они обычно работают только в одном направлении и обучены выполнять конкретную задачу.

Новая поколение междисциплинарных моделей, включающих проприетарные модели, такие как GPT-4V от OpenAI или Gemini от Google, а также модели с открытым исходным кодом, такие как LLaVa, Adept или Qwen-VL, могут свободно перемещаться между задачами обработки естественного языка (NLP) и компьютерного зрения. Новые модели также включают работу с видео: в конце января Google анонсировала Lumiere, модель диффузии текста в видео, которая также может выполнять задачи преобразования изображения в видео или использовать изображения в качестве стилистических референсов.

Наиболее очевидная польза мультимодального ИИ — это более интуитивные и универсальные ИИ-приложения и виртуальные ассистенты. Пользователи, например, могут спросить об изображении и получить ответ на естественном языке, или попросить голосом инструкции по ремонту чего-либо и получить визуальные подсказки вместе с пошаговыми текстовыми инструкциями.

На более высоком уровне мультимодальный ИИ позволяет модели обрабатывать более разнообразные входные данные, обогащая и расширяя информацию для обучения и вывода. Видео, в частности, предлагает огромный потенциал для целостного обучения. «Есть камеры, которые работают круглосуточно и фиксируют происходящее без какой-либо фильтрации, без намеренности», — говорит Питер Норвиг, заслуженный научный сотрудник Института искусственного интеллекта, ориентированного на человека, Стэнфордского университета (HAI). «ИИ-модели никогда раньше не имели таких данных. Эти модели будут просто лучше понимать все».

Ищете проверенные ИИ-решения, которые реально работают?

В нашей подборке — 85 уникальных ИИ технологий для маркетинга, ритейла, HR и других сфер, которые уже приносят выгоду компаниям.

Малые языковые модели и достижения в области открытого исходного кода

В специализированных моделях, особенно в больших языковых моделях (LLM), мы, вероятно, достигли точки убывающей отдачи от увеличения количества параметров. Сэм Альтман, генеральный директор OpenAI (чья модель GPT-4, по слухам, имеет около 1,76 триллиона параметров), предположил это на мероприятии MIT "Imagination in Action" в апреле прошлого года: "Я думаю, что мы находимся в конце эпохи гигантских моделей, и будем улучшать их другими способами," предсказал он. "Думаю, слишком много внимания уделялось количеству параметров."

Огромные модели стали толчком для нынешнего золотого века ИИ, но у них есть свои недостатки. Только самые крупные компании могут себе позволить обучать и поддерживать энергоемкие модели с сотнями миллиардов параметров. По оценкам Вашингтонского университета, обучение одной модели размера GPT-3 требует годового потребления электроэнергии более чем 1,000 домохозяйств; один стандартный день запросов к ChatGPT сопоставим с дневным потреблением электроэнергии 33,000 американских домохозяйств.

Меньшие модели, между тем, требуют гораздо меньше ресурсов. Влиятельная статья Deepmind от марта 2022 года показала, что обучение меньших моделей на большем объеме данных дает лучшие результаты, чем обучение больших моделей на меньшем объеме данных. Поэтому многие текущие инновации в области LLM направлены на достижение большего выхода при меньшем количестве параметров. Недавние достижения моделей с 3–70 миллиардами параметров, особенно тех, что созданы на основе моделей LLaMa, Llama 2 и Mistral в 2023 году, показали, что модели могут быть уменьшены без значительной потери производительности.

Мощность открытых моделей продолжит расти. В декабре 2023 года Mistral выпустила модель "Mixtral", смесь экспертов (MoE), интегрирующую 8 нейронных сетей, каждая с 7 миллиардами параметров. Mistral утверждает, что Mixtral не только превосходит версию Llama 2 с 70 миллиардами параметров на большинстве тестов и работает в 6 раз быстрее, но и сопоставима или превосходит гораздо более крупную модель GPT-3.5 от OpenAI на большинстве стандартных тестов. Вскоре после этого, в январе, Meta объявила о начале обучения моделей Llama 3 и подтвердила, что они будут с открытым исходным кодом. Хотя детали (например, размер модели) не были подтверждены, можно ожидать, что Llama 3 будет следовать структуре, установленной в двух предыдущих поколениях.

Эти достижения в области меньших моделей имеют три важных преимущества:

Они способствуют демократизации ИИ: меньшие модели, которые можно запускать с меньшими затратами на доступном оборудовании, дают возможность большему числу любителей и учреждений изучать, обучать и улучшать существующие модели.

Их можно запускать локально на меньших устройствах: это позволяет использовать более сложный ИИ в таких сценариях, как edge computing и интернет вещей (IoT). Кроме того, запуск моделей локально, например, на смартфоне пользователя, помогает избежать многих проблем с конфиденциальностью и кибербезопасностью, возникающих при взаимодействии с чувствительными личными или собственными данными.

Они делают ИИ более понятным: чем больше модель, тем сложнее понять, как и где она принимает важные решения. Объяснимый ИИ необходим для понимания, улучшения и доверия к выводам ИИ-систем.

Дефицит GPU и затраты на облачные вычисления

Тренд на уменьшение моделей будет продиктован как необходимостью, так и предпринимательской энергией, поскольку затраты на облачные вычисления растут, а доступность оборудования снижается.

«Крупные компании (и их становится все больше) пытаются внедрять ИИ в свои системы, и это создает ажиотаж на рынке графических процессоров (GPU)», — говорит Джеймс Ландай, заместитель директора и научный руководитель исследований в Стэнфордском институте искусственного интеллекта. «Это создаст огромное давление не только для увеличения производства GPU, но и для того, чтобы новаторы разрабатывали аппаратные решения, которые дешевле и проще в производстве и использовании».

Как объясняется в отчете O’Reilly в конце 2023 года, основное бремя вычислений сейчас лежит на облачных провайдерах: относительно немногие пользователи ИИ поддерживают собственную инфраструктуру, и дефицит оборудования только увеличит препятствия и расходы на установку собственных серверов. В долгосрочной перспективе это может повысить затраты на облачные услуги, поскольку провайдеры обновляют и оптимизируют свою инфраструктуру для эффективного удовлетворения спроса на генеративный ИИ.

Для предприятий навигация в этих условиях неопределенности требует гибкости как в отношении моделей — опираясь на меньшие, более эффективные модели, когда это необходимо, или на большие, более производительные модели, когда это целесообразно — так и в отношении среды развертывания. «Мы не хотим ограничивать, где люди развертывают [модель]», — сказал генеральный директор IBM Арвинд Кришна в интервью CNBC в декабре 2023 года, касаясь платформы IBM watsonx. «Если они хотят развернуть её в крупном публичном облаке, мы сделаем это там. Если они хотят развернуть её в IBM, мы сделаем это в IBM. Если они хотят сделать это у себя, и у них достаточно инфраструктуры, мы сделаем это там».

Оптимизация моделей становится более доступной

Тренд на повышение производительности более компактных моделей получает поддержку благодаря недавним достижениям сообщества с открытым исходным кодом.

Многие ключевые усовершенствования были (и будут продолжать быть) достигнуты не только за счет новых базовых моделей, но и благодаря новым методам и ресурсам (таким как открытые наборы данных) для обучения, настройки, дообучения или приведения в соответствие уже обученных моделей. В 2023 году особенно заметными стали следующие универсальные методы:

Low Rank Adaptation (LoRA): Вместо того чтобы напрямую дообучать миллиарды параметров модели, метод LoRA предполагает заморозку весов предобученной модели и добавление обучаемых слоев, которые представляют матрицу изменений весов модели в виде двух меньших (низкоранговых) матриц в каждом блоке трансформера. Это значительно сокращает количество параметров, которые нужно обновлять, что, в свою очередь, существенно ускоряет процесс дообучения и снижает потребность в памяти для хранения обновлений модели.
Квантизация: Подобно снижению битрейта аудио или видео для уменьшения размера файла и задержки, квантизация снижает точность, используемую для представления данных модели — например, с 16-битных чисел с плавающей запятой до 8-битных целых чисел — для уменьшения использования памяти и ускорения вывода. Техники QLoRA объединяют квантизацию с методом LoRA.
Direct Preference Optimization (DPO): Чат-модели обычно используют обучение с подкреплением на основе обратной связи от человека (RLHF) для приведения вывода модели в соответствие с человеческими предпочтениями. Несмотря на свою мощность, RLHF является сложным и нестабильным процессом. DPO обещает аналогичные преимущества при меньшей вычислительной нагрузке и значительно более простой реализации.

Вместе с параллельными достижениями в моделях с открытым исходным кодом в диапазоне 3–70 миллиардов параметров, эти развивающиеся методы могут изменить динамику на рынке ИИ, предоставляя более мелким игрокам, таким как стартапы и любители, сложные возможности ИИ, которые ранее были недоступны.

Настраиваемые локальные модели и каналы данных

Компании в 2024 году могут выделяться за счёт разработки индивидуальных моделей, а не создания оболочек вокруг переработанных сервисов от крупных компаний в области ИИ. С правильными данными и рамками для разработки, существующие модели и инструменты с открытым исходным кодом могут быть адаптированы практически к любому реальному сценарию, от использования в службе поддержки клиентов до управления цепочками поставок и анализа сложных документов.

Модели с открытым исходным кодом предоставляют организациям возможность быстро разрабатывать мощные пользовательские ИИ-модели, обученные на их собственных данных и точно настроенные под их конкретные нужды, без необходимости делать чрезмерно дорогие инвестиции в инфраструктуру. Это особенно важно в таких областях, как юриспруденция, здравоохранение или финансы, где высокоспециализированная терминология и концепции могут не быть изучены базовыми моделями на этапе предобучения.

Юриспруденция, финансы и здравоохранение также являются отличными примерами отраслей, которые могут извлечь выгоду из использования моделей, достаточно малых, чтобы их можно было запускать локально на скромном оборудовании. Локальное обучение, вывод и дополненная генерация данных (RAG) позволяют избежать риска использования собственных данных или конфиденциальной информации для обучения закрытых моделей или передачи данных третьим сторонам. А использование RAG для доступа к релевантной информации, а не для хранения всех знаний непосредственно в самой модели, помогает уменьшить размер модели, что дополнительно увеличивает скорость работы и снижает затраты.

По мере того как в 2024 году условия для разработки моделей становятся более равными, конкурентное преимущество всё больше будет определяться собственными каналами данных, которые позволяют проводить тонкую настройку на уровне лучших в отрасли.

Не уверены, нужен ли вашему бизнесу искусственный интеллект?

Специальная анкета от AllSee поможет оценить текущие бизнес-процессы и понять, где ИИ станет вашим конкурентным преимуществом.

Более мощные виртуальные агенты

С более совершенными инструментами и годовым опытом работы на рынке, компании готовы расширять использование виртуальных агентов, выходя за рамки простых чат-ботов для обслуживания клиентов.

По мере того как системы искусственного интеллекта становятся быстрее и начинают работать с новыми видами и форматами информации, они расширяют возможности не только для коммуникации и выполнения инструкций, но и для автоматизации задач. "2023 год был годом, когда можно было поговорить с ИИ. Многие компании запустили что-то подобное, но взаимодействие всегда сводилось к тому, что вы что-то печатаете, и вам отвечают," говорит Норвиг из Стэнфорда. "В 2024 году мы увидим, как агенты начнут выполнять задачи за вас. Бронировать места, планировать поездки, подключаться к другим сервисам."

Мультимодальный ИИ, в частности, значительно увеличивает возможности для беспрепятственного взаимодействия с виртуальными агентами. Например, вместо того чтобы просто спросить у бота рецепты, пользователь может направить камеру на открытый холодильник и запросить рецепты из доступных ингредиентов. Приложение Be My Eyes, которое соединяет людей с нарушениями зрения с волонтерами для помощи в бытовых задачах, тестирует инструменты ИИ, которые помогают пользователям напрямую взаимодействовать с окружающей средой с помощью мультимодального ИИ вместо ожидания помощи человека.

Регулирование, авторские права и этические вопросы ИИ

Улучшенные мультимодальные возможности и сниженные барьеры для входа также открывают новые возможности для злоупотреблений: создание дипфейков, проблемы с конфиденциальностью, укрепление предвзятости и даже обход защиты CAPTCHA могут стать все доступнее для злоумышленников. В январе 2024 года в социальные сети попала волна порнографических дипфейков на знаменитостей; исследование мая 2023 года показало, что количество голосовых дипфейков в интернете увеличилось в восемь раз по сравнению с тем же периодом 2022 года.

Неопределенность в регулирующей среде может замедлить внедрение, или по крайней мере более агрессивную реализацию в краткосрочной и среднесрочной перспективе. Существует внутренний риск для любых крупных, необратимых инвестиций в новые технологии или практики, которые могут потребовать значительной перенастройки или даже стать незаконными после нового законодательства или изменения политической обстановки в ближайшие годы.

В декабре 2023 года Европейский союз достиг предварительного соглашения о Законе об искусственном интеллекте. Среди прочего, он запрещает бесконтрольное собирание изображений для создания баз данных распознавания лиц, системы биометрической категоризации с потенциалом дискриминационного уклона, системы «социального рейтинга» и использование ИИ для социальной или экономической манипуляции. Также закон пытается определить категорию «высокорисковых» систем ИИ, которые могут угрожать безопасности, основным правам или верховенству закона, и которые будут подлежать дополнительному надзору. Кроме того, устанавливаются требования к прозрачности для так называемых систем «ИИ общего назначения», включая техническую документацию и систематическое адверсивное тестирование.

Несмотря на то, что некоторые ключевые игроки, такие как Mistral, находятся в ЕС, большинство прорывных разработок в области ИИ происходит в Америке, где серьезное законодательное регулирование ИИ в частном секторе потребует действий от Конгресса, что маловероятно в год выборов. 30 октября администрация Байдена выпустила всесторонний исполнительный указ, содержащий 150 требований к использованию технологий ИИ федеральными агентствами; за несколько месяцев до этого администрация получила добровольные обязательства от известных разработчиков ИИ соблюдать определенные ограничения для доверия и безопасности. Отметим, что и Калифорния, и Колорадо активно стремятся к собственному законодательству относительно прав на конфиденциальность данных индивидуумов в отношении искусственного интеллекта.

Китай более активно движется к формальным ограничениям ИИ, запрещая дискриминацию по ценам алгоритмами рекомендаций в социальных сетях и требуя четкой маркировки контента, созданного ИИ. Предполагаемые регуляции генеративного ИИ стремятся требовать, чтобы данные, используемые для обучения LLM, и впоследствии генерируемый контент были «правдивыми и точными», что, как считают эксперты, указывает на меры по цензуре выходных данных LLM.

Тем временем роль авторских материалов в обучении ИИ моделей, используемых для генерации контента, от языковых моделей до генераторов изображений и видеомоделей, остается предметом острых дебатов. Исход громкого судебного дела, поданного New York Times против OpenAI, может существенно повлиять на траекторию законодательства в области ИИ. Адверсивные инструменты, такие как Glaze и Nightshade, разработанные в Университете Чикаго, возникли в том, что может стать своего рода гонкой вооружений между создателями и разработчиками моделей.

Теневой ИИ (и корпоративные политики ИИ)

Для бизнеса растущий потенциал юридических, регуляторных, экономических или репутационных последствий усугубляется тем, как популярны и доступны стали инструменты генеративного ИИ. Организациям необходимо не только иметь аккуратную, согласованную и четко сформулированную корпоративную политику в отношении генеративного ИИ, но и опасаться теневого ИИ: "неофициального" личного использования ИИ на рабочем месте сотрудниками.

Также известный как "теневые ИТ" или "BYOAI" (принеси свой ИИ), теневой ИИ возникает, когда нетерпеливые сотрудники, ищущие быстрые решения (или просто желающие изучить новые технологии быстрее, чем позволяет осторожная корпоративная политика), внедряют генеративный ИИ на рабочем месте без одобрения или контроля со стороны ИТ-отдела. Многие потребительские сервисы, некоторые из которых бесплатные, позволяют даже неспециалистам импровизировать использование инструментов генеративного ИИ. В одном исследовании Ernst & Young 90% респондентов заявили, что используют ИИ на работе.

Этот предприимчивый дух может быть хорош, но энтузиазм сотрудников может привести к недостатку информации или понимания в вопросах безопасности, конфиденциальности или соблюдения норм. Это может подвергнуть бизнес большому риску. Например, сотрудник может непреднамеренно передать коммерческие секреты публичной модели ИИ, которая постоянно обучается на пользовательских данных, или использовать материалы, защищенные авторским правом, для обучения собственной модели генерации контента и подвергнуть свою компанию юридическим рискам.

Как и многие текущие разработки, это подчеркивает, как опасности генеративного ИИ растут почти линейно с его возможностями. С великой силой приходит великая ответственность.

Не уверены, нужен ли вашему бизнесу искусственный интеллект?

Двигаемся вперед

По мере того как мы переживаем переломный год в области искусственного интеллекта, понимание и адаптация к возникающим тенденциям необходимы для максимального использования потенциала, минимизации рисков и ответственного масштабирования внедрения генеративного ИИ.