Как предприятия используют открытые языковые модели

Статья о внедрении открытых языковых моделей (LLMs) в предприятия. Приведены примеры и причины задержек. Выделены плюсы и минусы использования открытых моделей, их роль в будущем предприятий.

Эксперты из VentureBeat и других источников утверждают, что открытые языковые модели (LLM), доступные для общественности, могут оказать более сильное воздействие на создание искусственного интеллекта в предприятиях.
Это может быть мощнее, чем закрытые модели, такие как те, что используются в популярных ChatGPT от OpenAI или Anthropic, конкурента OpenAI.

Но это сложно доказать, рассматривая реальные примеры внедрений. Несмотря на многочисленные эксперименты и концептуальные проекты с открытыми моделями, относительно мало утвержденных компаний сообщили публично, что они внедрили открытые языковые модели в реальные бизнес-приложения.

Мы решили связаться с ведущими поставщиками открытых LLM, чтобы найти примеры реальных внедрений корпоративными компаниями. Мы обратились к Meta и Mistral AI, двум крупным поставщикам открытых моделей, а также к IBM, Hugging Face, Dell, Databricks, AWS и Microsoft, все из которых имеют соглашения по распространению открытых моделей.

Из бесед с этими компаниями выяснилось, что существует несколько первых публичных примеров (мы нашли 16 конкретных случаев, см. список ниже), но это все еще очень раннее время. Наблюдатели отрасли говорят, что количество случаев значительно увеличится в ближайшее время.

Задержки в обратной связи открытых языковых моделей

Одна из причин заключается в том, что развитие открытых исходных кодов началось медленно. Meta выпустила первую крупную открытую модель, Llama, в феврале 2023 года, что было через три месяца после того, как OpenAI публично выпустила свою модель ChatGPT в ноябре 2022 года. Mistral AI выпустила Mixtral, лучшую по многим бенчмаркам открытую языковую модель, в декабре 2023 года.

Следовательно, примеры внедрения появляются только сейчас. Сторонники открытых исходных кодов согласны с тем, что примеров внедрения закрытых моделей гораздо больше, но это только вопрос времени, прежде чем открытые модели догонят закрытые.

Есть некоторые ограничения у существующих открытых моделей. Амжад Масад, генеральный директор стартапа по программным инструментам Replit, начал популярный тред в Twitter о том, что обратная связь не работает должным образом, потому что в разработку модели сложно вносить вклад.

Но также правда, что люди могли недооценить, насколько много экспериментов будет проведено с открытыми моделями. Разработчики открытых исходных кодов создали тысячи модификаций моделей, таких как Llama, включая все больше смешиваемых моделей, и они постепенно достигают паритета с закрытыми моделями или даже превосходят их по некоторым метрикам (см. примеры, такие как FinGPT, BioBert, Defog SQLCoder и Phind).

Большие общедоступные модели сами по себе имеют "мало или вообще никакой ценности" для предприятий

Мэтт Бейкер, старший вице-президент по стратегии искусственного интеллекта в компании Dell, сотрудничающей с Meta для внедрения открытой модели искусственного интеллекта Llama 2 в корпоративных пользователях, откровенно говорит о ограничениях открытых моделей: "Большие общедоступные модели сами по себе имеют мало или вообще никакой ценности для частных компаний" - сказал Бейкер. Он отметил, что эти модели стали избыточными, пытаясь предоставить универсальную модель, но они не позволяют предприятиям легко получать доступ к своим данным. По оценке Бейкера, около 95 процентов работ по искусственному интеллекту в организациях связаны с процессами, необходимыми для внедрения моделей с использованием данных через такие методы, как улучшенная генерация с помощью извлечения (retrieval augmented generation, RAG). Даже в этом случае RAG не всегда надежен. "Многие клиенты задают себе вопрос: почему я плачу за большую модель, которая знает очень мало о моем бизнесе? Разве я не могу просто использовать одну из этих закрытых моделей, и, кстати, возможно, использовать гораздо меньшую открытую модель для этого рабочего процесса (извлечение информации)?"

Многие предприятия создают и экспериментируют с приложениями поддержки клиентов и генерации кода на основе открытых исходных кодов для взаимодействия со своим собственным пользовательским кодом, который иногда не может быть понят закрытыми моделями LLM, созданными OpenAI или Anthropic, по словам Бейкера. Эти компании отдают предпочтение Python и другим популярным языкам облачных вычислений, не обеспечивая поддержку устаревшего корпоративного кода.

Хотите узнать, как лидеры российского рынка используют наши решения?

Ознакомьтесь с маркетинг-китом AllSee, где собраны реальные кейсы и решения, доказавшие свою эффективность в бизнесе!

Другие причины медленного внедрения открытых языковых моделей

Hugging Face, вероятно, является крупнейшим поставщиком инфраструктуры открытых языковых моделей, и сотни тысяч разработчиков скачивают LLM и другие открытые инструменты, такие как LangChain и LlamaIndex, чтобы создавать свои приложения. Эндрю Джардин, руководитель Hugging Face, ответственный за консультирование компаний, собирающихся использовать открытые языковые модели, говорит, что корпоративные компании занимаются внедрением LLM медленно, потому что им нужно тщательно рассмотреть вопросы конфиденциальности данных, опыта клиентов и этики. Обычно компании начинают с использования внутренних случаев, которые могут применяться внутри собственных сотрудников, и внедряют их только после создания концепции. И только затем большинство компаний начинают рассматривать внешние случаи использования, где снова проходят этап концепции. Только в конце 2023 года, по его словам, закрытые модели OpenAI стали появляться в большем количестве, и поэтому он ожидает, что открытые внедрения появятся в этом году.

Тем не менее, другие говорят, что предприятиям следует держаться подальше от открытых источников, потому что это может быть слишком сложно. Заявляется, что вызов API от OpenAI, который также предоставляет облачные услуги по требованию и компенсацию, гораздо проще, чем решение проблем с лицензированием и другими управленческими трудностями при использовании открытых источников. Кроме того, модели GPT довольно хорошо справляются с различными языками, в то время как открытые языковые модели бывают удачными и неудачными.

Разделение между открытыми и закрытыми моделями становится все более ложным, сказал Джардин из Hugging Face: "По сути, большинство людей будут использовать и открытые, и закрытые". Он упомянул о крупной фармацевтической компании, с которой он недавно общался, которая использовала закрытую языковую модель для своего внутреннего чат-бота, но использовала Llama для того же случая использования, чтобы, например, выделять сообщения с личной информацией. Они сделали это, потому что открытый источник дал компании больший контроль над данными. Компания беспокоилась, что если закрытые языковые модели взаимодействуют с чувствительными данными, эти данные могут быть отправлены обратно к поставщику закрытых моделей, сказал Джардин.

Причины, по которым открытые языковые модели догонят закрытые

Другие изменения в моделях, связанные с затратами и специализацией, происходят настолько быстро, что большинство компаний захочет иметь возможность переключаться между различными открытыми и закрытыми моделями по мере необходимости. Они понимают, что полагаться только на одну модель подвергает их риску. Например, по словам Джардина, клиенты компании могут понести отрицательные последствия, если поставщик моделей внезапно обновит модель неожиданно или, что хуже, не сможет обновить модель, чтобы быть в тренде. Когда компании беспокоятся о контроле доступа к своим данным или хотят больше контроля над настройкой модели для специальных целей, они часто выбирают путь с открытым исходным кодом. "Можно настраивать модель с использованием собственных данных, чтобы сделать ее более подходящей для вас", - сказал Джардин.

Мы обнаружили несколько компаний, таких как Intuit и Perplexity, аналогичных упомянутой выше фармацевтической компании, которые хотят использовать несколько моделей в одном приложении, чтобы выбирать те LLM, которые выгодны для конкретных подзадач. Эти компании создали "оркестровочные слои" для генеративного искусственного интеллекта, чтобы автономно вызывать лучшую модель для выполняемой задачи, будь то открытая или закрытая.

Кроме того, хотя в начале может быть более сложно развернуть модель с открытым исходным кодом при работе с моделью в масштабе, можно экономить деньги с открытыми моделями, особенно если у вас есть доступ к собственной инфраструктуре. "В долгосрочной перспективе, вероятно, открытый исходный код будет более экономичным, просто потому, что вы не платите за эту дополнительную стоимость интеллектуальной собственности и разработки", - сказал Джардин.

Он заявил, что знает о нескольких глобальных фармацевтических и других технологических компаниях, внедряющих открытые модели в приложения, но делают это тихо. Компании с закрытыми моделями Anthropic и OpenAI имеют маркетинговые команды, которые пишут и публично рекламируют кейс-стади, тогда как у открытых исходных кодов нет поставщика, отслеживающего такие внедрения.

Другие трудности внедрения открытых языковых моделей

Даже определение подлинных примеров использования открытых исходных кодов в предприятиях здесь затруднительно. Множество разработчиков и стартапов создают приложения на основе открытых языковых моделей, но мы хотели найти примеры устоявшихся компаний, использующих их для явно полезных проектов. Для наших целей мы определили корпоративную компанию как имеющую не менее 100 сотрудников.

Также мы искали примеры предприятий, которые в первую очередь являются «конечными пользователями» технологии LLM, а не их поставщиками. Даже это может стать непонятным. Еще одной сложностью является определение термина "открытый исходный код". Например, Llama от Meta, одна из популярных открытых языковых моделей, имела ограниченную лицензию для открытого исходного кода: например, в сеть попадали только веса моделей. Другие аспекты, такие как источники данных, код обучения или методы тонкой настройки, не раскрывались.. Мета выпустила Llama 2 в июле, который стал доступен для коммерческой лицензии, а не только для исследований, но у него все еще есть некоторые ограничения.

И затем есть примеры, такие как компания Writer, которая создала свою семью языковых моделей, называемых Palmyra, для запуска приложения, которое позволяет людям быстро и креативно создавать контент. У нее есть корпоративные клиенты, такие как Accenture, Vanguard, Hubspot и Pinterest. В то время как Writer открыла исходный код двух из этих моделей, ее основная большая модель Palmyra остается закрытой и является используемой по умолчанию этими корпоративными клиентами — так что это не примеры использования открытого исходного кода.

С учетом всех этих оговорок, ниже мы предоставляем список примеров, которые мы смогли найти в ходе нашего исследования. Мы уверены, что их гораздо больше. Многие компании просто не хотят публично рассказывать о том, что они делают с открытыми языковыми моделями или еще чем-то. В последние месяцы взрыв новых открытых языковых моделей, ориентированных на предприятия, произошел из стартапов, включая Deci и Redpajama от Together. Даже Microsoft, Amazon AWS и Google тоже включились в эту игру, и консультанты, такие как McKinsey, используют открытые языковые модели частично для создания приложений для клиентов — так что практически невозможно отслеживать всю вселенную использования предприятий. Многие предприятия заставляют поставщиков подписывать соглашения о неразглашении. Тем не менее, мы добавим к этому списку, если узнаем о новых примерах в результате этой истории

1. VMWare

VMWare использовала модель HuggingFace StarCoder для повышения эффективности разработчиков. Они предпочли хостить модель самостоятельно, а не использовать внешнюю систему, например, Copilot от Microsoft на Github. Вероятно, VMWare беспокоилась о своей кодовой базе и не хотела предоставлять доступ Microsoft к ней

2. Brave

Стартап веб-браузера с упором на безопасность стремится выделиться в области конфиденциальности и использовал разговорного помощника по имени Лео. Ранее Лео использовал модель Llama 2, но недавно Brave объявила, что Лео теперь использует открытую модель Mixtral 8x7B от Mistral AI по умолчанию. (Мы включаем это как подлинный пример, поскольку у Brave более 100 сотрудников).

3. Gab Wireless

Компания, создающая детские мобильные телефоны и акцентирующая внимание на безопасность, использует набор открытых моделей от Hugging Face, чтобы добавить защитный слой для проверки сообщений, которые дети отправляют и получают. Это гарантирует, что взаимодействия с незнакомыми людьми не содержат неподходящего контента.

4. Wells Fargo

Вэллс Фарго использовал открытые языковые модели, включая модель Llama 2 от Meta, для некоторых внутренних задач, как упомянул главный информационный офицер Вэллс Фарго Чинтан Мехта в интервью со мной на мероприятии AI Impact Tour VentureBeat в Сан-Франциско, где мы рассматривали примеры применения генеративного искусственного интеллекта на практике.

5. IBM

IBM является поставщиком приложений генеративного искусственного интеллекта, использующих собственные языковые модели, такие как Granite, а также открытые языковые модели от Hugging Face и Meta. Однако нечестно было бы исключить IBM из списка реальных пользователей, которые развернули приложения. Его 285 000 сотрудников полагаются на приложение AskHR компании, которое отвечает на вопросы сотрудников по всем вопросам управления персоналом и создано на основе приложения Watson Orchestration от IBM, использующего открытые языковые модели.

На прошлой неделе IBM также объявила о своем новом внутреннем консалтинговом продукте Consulting Advantage, который использует открытые языковые модели, управляемые Llama 2. Это включает в себя "Библиотеку помощников", работающую на платформе wasonx от IBM, и помогает 160 000 консультантам IBM создавать сложные услуги для клиентов.

Наконец, тысячи маркетологов IBM также используют приложение маркетинга, управляемое открытыми языковыми моделями от IBM, для создания контента, как сказал Мэтт Кэнди, глобальный управляющий партнер IBM Consulting по генеративному искусству, в интервью с VentureBeat. Хотя приложение находилось в стадии концепции в прошлом году, оно пошло в развертывание для конкретных подразделений в области маркетинга, сказал он. Приложение использует Adobe Firefly для генерации изображений, но дополняет его "LLM, которые мы обучаем и настраиваем, чтобы они стали мозгом бренда", по словам Кэнди. Приложение понимает рекомендации по персонажу IBM, тону голоса бренда и рекламным рекомендациям, а затем создает дериваты контента для суббрендов и различных стран, в которых действует IBM.

6. The Grammy Awards

Также недавно IBM объявила сделку о предоставлении Recording Academy, владельцу премии Grammy, услуги под названием AI stories, использующей Llama 2 на платформе IBM Wastonx.ai studio, чтобы помочь организации генерировать индивидуальные исследования и контент, созданные с использованием искусственного интеллекта. Сервис векторизовал данные из соответствующих наборов данных об артистах и их работах, чтобы LLM мог получить их через базу данных RAG. Затем поклонники смогут взаимодействовать с контентом.

7-9. Masters Tournament, Wimbledon and US Open

IBM помогает всем этим организациям создавать комментарии в устной форме и находить видеовыдержки из актуальных спортивных событий с использованием открытых языковых моделей, - сказал Candy из IBM. Технология IBM помогает этим компаниям, организующим спортивные события, выделять ключевые моменты, такие как жесты лица игроков и шум толпы, чтобы создать индекс волнения на протяжении всего соревнования.

10. Perplexity

Этот перспективный стартап, бросающий вызов поиску Google с использованием языковых моделей для переосмысления поискового опыта, имеет всего 50 сотрудников, но только что привлек $74 миллиона и почти неизбежно движется к отметке в 100. Хотя он не соответствует нашему определению предприятия, он достаточно интересен, чтобы заслуживать упоминания. Когда пользователь задает вопрос Perplexity, его движок использует около шести шагов для формулировки ответа, и в процессе используются несколько моделей LLMs. Perplexity использует свои собственные настроенные открытые языковые модели в качестве параметра для предпоследнего шага, - сказал сотрудник Дмитрий Шевеленко. Этот шаг - это тот, который резюмирует материал статьи или источника, который Perplexity нашел как ответ на вопрос пользователя. Perplexity построил свои модели на основе моделей Mistral и Llama, а для настройки использовал AWS Bedrock.

Использование Llama было критически важным, сказал Шевеленко, потому что это помогает Perplexity владеть своей судьбой. Инвестировать в настройку моделей на моделях OpenAI не стоит того, потому что результат не принадлежит вам, сказал он. Заметим также, что Perplexity также согласилась поддерживать новый карманный искусственный интеллект Rabbit R1, и таким образом, Rabbit также будет эффективно использовать открытые языковые модели через API Perplexity.

11. CyberAgent

Эта японская компания по цифровой рекламе использует открытые языковые модели, предоставляемые программным обеспечением Dell, для запуска OpenCALM (Open CyberAgent Language Models) - универсальной японской языковой модели, которую можно настроить под нужды пользователей.

12. Intuit

Intuit, поставщик программного обеспечения, такого как TurboTax, Quickbooks и Mailchimp, был одним из первых, кто создал свои собственные языковые модели, и использует открытые модели в составе языковых моделей, обеспечивающих функцию Intuit Assist, которая помогает пользователям в вопросах поддержки клиентов, анализа и выполнения задач. В интервью для VB по поводу платформы GenOS компании, руководитель Intuit Ашок Сривастава заявил, что их внутренние языковые модели созданы на основе открытых и обучены на данных Intuit.

13. Walmart

Розничный гигант создал десятки приложений для разговорного искусственного интеллекта, включая чат-бот, с которым общаются миллионы сотрудников Walmart для обслуживания клиентов. Вице-президент по новым технологиям в компании Walmart Global Tech Дезире Госби рассказала VentureBeat, что компания использует GPT-4 и другие языковые модели, чтобы "избежать ненужных ограничений". Усилия Walmart начались, сказала Госби, с использования открытых моделей Google BERT, выпущенных в 2018 году.

14. Shopify

Shopify Sidekick - это инструмент на основе искусственного интеллекта, который использует Llama 2, чтобы помочь владельцам малого бизнеса автоматизировать различные задачи по управлению своими коммерческими сайтами, такие как создание описаний продуктов, ответы на запросы клиентов и создание маркетингового контента.

15. LyRise

Стартап из США, ориентированный на подбор талантов, использует чат-бот, созданный на основе Llama, который ведет себя как человеческий рекрутер и помогает компаниям находить и нанимать ведущие таланты в области искусственного интеллекта и данных из пула высококачественных профилей в Африке в различных отраслях.

16. Niantic

Создатель Pokemon Go запустил новую функцию под названием Peridot, использующую Llama 2 для создания реакций и анимаций, специфичных для окружающей среды, для персонажей-питомцев в игре.

Создайте новое будущее с нашими решениями

Искусственный интеллект в розничной торговле: лучшие способы применения

Чем занимаются самые значимые компании в мире по искусственному интеллекту

Разработка искусственного интеллекта в 6 основных отраслях бизнеса

10 лучших приложений c искусственным интеллектом

Искусственный интеллект в мобильных приложениях — выведите свое приложение на новый уровень

ИИ в сельском хозяйстве — будущее фермерства

Роль больших данных и машинного обучения в обрабатывающей промышленности

Как создать искусственный интеллект: все, что нужно знать