Разработка и внедрение AI
Разработка приложения с нейросетью
Создание нейросети
Компьютерное зрение
Разработка приложения с искусственным интеллектом
ChatGPT внедрить в компанию
Создать прототип нейросети
MVP приложения с ChatGPT

10 лучших тенденций в области обработки данных и ИИ в 2025 году

В 2024 году генеративный ИИ достиг значительных успехов, но остаются нерешенные проблемы, особенно с качеством данных. ИИ копилоты уже демонстрируют успехи, но умозаключения и ИИ-агенты пока недостаточно точны. В будущем акцент будет на неструктурированных данных и оптимизации пайплайнов, с особым вниманием к снижению затрат и улучшению автоматизации.

По мнению экспертов индустрии, 2024 год обещал стать знаковым для генеративного ИИ. Операционные случаи применения поднимались на поверхность, технологии снижали барьеры для входа, а общая искусственная интеллигенция казалась на пороге.

Итак... случилось ли это?

Ну, отчасти. Здесь, в конце 2024 года, некоторые из этих предсказаний уже начинают сбываться. Остальным требуется немного больше времени (смотри на общую искусственную интеллигенцию).

Вот как известный футурист и инвестор Томаш Тунгус оценивает состояние данных и ИИ в конце 2024 года — плюс некоторые наши предсказания.

Тенденции в области инженерии данных на 2025 год уже на подходе.

1. Мы живем в мире без разума (Томаш)

Всего через три года после появления ИИ, мы начинаем видеть, как бизнесы создают ценность в некоторых ожидаемых областях — но не во всех. По мнению Томаша, текущее состояние ИИ можно разделить на три категории:

1. Прогнозирование: ИИ-ассистенты, которые могут завершать предложения, исправлять ошибки в коде и т.д.
2. Поиск: инструменты, использующие корпус данных для ответа на вопросы.
3. Умозаключение: многошаговый процесс, способный выполнять сложные задачи.

Хотя ИИ-ассистенты и поисковые системы имели умеренный успех (особенно первые) среди корпоративных организаций, модели умозаключения все еще отстают. И по мнению Томаша, причина этому очевидна.

Это точность моделей.

Как объясняет Томаш, текущие модели испытывают трудности с эффективным разделением задач на шаги, если только они не сталкивались с аналогичным паттерном много раз ранее. Но это далеко не всегда случается с работой, которую этим моделям могут поручить.

«Сегодня… если большой модели задать задачу составить диаграмму планирования и анализа, она сможет это сделать. Но если появится какое-то значительное отличие — например, перейдем от выставления счетов за программное обеспечение к выставлению счетов на основе использования — она потеряется».

Так что пока можно рассчитывать на ИИ-ассистентов и частично точные результаты поиска.

2. Процесс > Инструменты (Barr)

Новый инструмент полезен только тогда, когда его поддерживает соответствующий процесс. С течением времени, по мере развития "современного стека данных", команды по обработке данных иногда оказывались в состоянии постоянного тестирования. Они концентрировались на самом инструменте, при этом не уделяя должного внимания тому, как он будет использоваться.

Но по мере того, как корпоративная среда постепенно приближается к использованию ИИ на уровне производства, вопрос о том, как внедрить все эти новые инструменты, становится все более актуальным.

Возьмем, к примеру, качество данных. Поскольку данные, питающие ИИ, заняли центральное место в 2024 году, качество данных также стало более приоритетным. Столкнувшись с реальной возможностью использования ИИ на уровне производства, руководители по обработке данных в компаниях не имеют времени пробовать разные варианты обеспечения качества данных — небольшие тесты здесь, парочка точечных решений там. Им нужно предоставить ценность сейчас, и для этого требуются проверенные решения, которые можно быстро внедрить и эффективно использовать.

Если вы не можете быстро запустить свою организацию в работу с новым инструментом, то он останется всего лишь статьей расхода в бюджете и новым ярлыком на рабочем столе.

В ближайшие 12 месяцев, мы ожидаем, что команды по обработке данных будут использовать проверенные сквозные решения вместо набора разрозненных инструментов, чтобы сосредоточиться на более критически важных задачах, таких как управление качеством данных, управление инцидентами и долгосрочное развитие доменных знаний.

И то решение, которое сможет удовлетворить эти приоритеты, станет победителем в области ИИ.

3. ИИ способствует окупаемости инвестиций - но не доходов (Томаш)

Как и любой другой продукт, ценность генеративного ИИ проявляется в двух формах: снижении затрат или увеличении доходов.

С точки зрения роста доходов, это могут быть такие инструменты, как AI-ассистенты, системы обогащения данных или рекомендации. По мнению Томаша, эти инструменты могут создавать много потенциала для продаж... но это не будет здоровый потенциал. Поэтому, если ИИ не приносит доход, он должен сокращать расходы, и в этом отношении эта развивающаяся технология действительно нашла свое применение.

«Не многие компании заключают сделки за счет этого. В основном это снижение затрат. Klarna сократили две трети своего персонала. Microsoft и ServiceNow увеличили производительность инженерных групп на 50–75%».

По мнению Томаша, использование ИИ может способствовать снижению затрат, если выполняется один из трех критериев:

  • Повторяющиеся задачи
  • Сложная ситуация на рынке труда
  • Срочные потребности в найме

Томаш привел в пример компанию EvenUp — транзакционную юридическую фирму, которая автоматизирует составление претензионных писем. Организации, подобные EvenUp, которые поддерживают шаблонные, но высокоспециализированные услуги, могут быть особенно выгодно расположены для достижения заметного эффекта от ИИ в его текущей форме.

4. Внедрение ИИ происходит медленнее, чем ожидалось, но лидеры не торопятся (Томаш)

В отличие от волнения вокруг "стратегий ИИ", которое наблюдалось год назад, сегодня лидеры организаций, кажется, единодушно сделали шаг назад от этой технологии.

«В прошлом году была волна, когда люди пробовали все виды программного обеспечения просто чтобы увидеть его возможности. Их советы директоров спрашивали об их стратегии в области ИИ. Но теперь наблюдается значительный отток от той первой волны».

Некоторые организации просто не увидели ценности в своих ранних экспериментах, другие же столкнулись с быстрым развитием базовой технологии. По мнению Томаша, это одна из главных проблем, с которыми сталкиваются при инвестировании в компании, занимающиеся ИИ. Дело не в том, что технология теоретически не ценна, а в том, что организации еще не поняли, как эффективно использовать ее на практике.

Томаш считает, что следующая волна внедрения будет отличаться от первой, потому что лидеры будут лучше информированы о том, что им нужно, и где это можно найти.

Как на генеральной репетиции перед важным шоу, команды теперь знают, что именно они ищут. Они решили некоторые задачи, связанные с юридическими вопросами и закупками — особенно касающиеся утраты данных и их защиты — и готовы действовать, когда появится подходящая возможность.

Главная задача завтрашнего дня? «Как я могу найти и продать ценность быстрее?»

5. Малые данные - будущее ИИ (Томаш)

Дискуссия между использованием открытых и управляемых решений стара как мир. Однако, когда дело касается ИИ, этот вопрос становится гораздо более сложным.

На уровне крупных предприятий это не просто вопрос контроля или совместимости — хотя это также имеет значение — это прежде всего вопрос операционных затрат.

Компания считает, что крупнейшие B2C-компании будут использовать готовые модели, тогда как B2B старается создавать собственные проприетарные и открытые модели.

«В B2B будут использоваться, в основном, небольшие модели и больше будет использоваться открытый код. Это связано с тем, что использовать небольшую открытую модель намного дешевле».

Но дело не только в затратах. Маленькие модели также повышают производительность. Как и в случае с Google, большие модели предназначены для множества случаев использования. Пользователи могут задавать вопросы большой модели о чем угодно, и эта модель должна быть обучена на большом объеме данных, чтобы дать актуальный ответ — будь то о водном поло, китайской истории или французских тостах.

К сожалению, чем больше тем изучает модель, тем выше вероятность, что она смешает различные концепции, и тем больше вероятность ошибок в результатах со временем.

«Можно взять модель, такую как llama 2 с 8 миллиардами параметров, настроить её на основе 10 000 заявок в службу поддержки, и результат будет значительно лучше», — считает Томаш.

Кроме того, ChatGPT и другие управляемые решения часто подвергаются судебным искам из-за утверждений, что их создатели не имели юридических прав на данные, на которых были обучены эти модели.

И во многих случаях, это, вероятно, справедливо.

Это, наряду со стоимостью и производительностью, вероятно, окажет влияние на долгосрочное принятие проприетарных моделей — особенно в сильно регулируемых отраслях — но степень этого влияния пока остается неясной.

Конечно, проприетарные модели не собираются уступать позиции. Особенно если учесть позицию Сэма Альтмана в этом вопросе. (А если нас чему-то и научил Twitter, так это о том, что Сэм Альтман всегда готов высказаться).

Проприетарные модели уже активно снижают цены для увеличения спроса. Например, модели как ChatGPT уже сократили цены примерно на 50% и планируют снизить их еще на 50% в ближайшие 6 месяцев. Такое снижение затрат может стать необходимым благом для B2C-компаний, которые надеются конкурировать в гонке ИИ.

6. Границы между аналитиками и инженерами по обработке данных стираются (Барр)

Когда дело касается увеличения масштабов производства данных, данные команды сталкиваются с двумя основными проблемами: аналитики, которые не обладают достаточным техническим опытом, и инженеры по данным, у которых не хватает времени.

Похоже, это задача для ИИ.

Мы предполагаем, что в будущем развитие команд по обработке данных может привести к объединению инженерных и аналитических обязанностей в 2025 году благодаря двум важным изменениям:

  • Возрастающий спрос — по мере роста интереса бизнес-лидеров к продуктам на основе данных и ИИ, команды по обработке данных будут вынуждены делать больше с меньшими ресурсами. Стремясь минимизировать узкие места в процессах, лидеры будут наделять ранее специализированные команды более широкими полномочиями по управлению их процессами и заинтересованными сторонами.

  • Улучшения в автоматизации — новый спрос всегда стимулирует новые инновации. (В данном случае, это означает появление конвейеров с поддержкой ИИ.) По мере того как технологии становятся более автоматизированными, инженеры смогут делать больше с меньшими затратами, в то время как аналитики смогут выполнять больше задач самостоятельно.

Аргумент прост — по мере роста спроса, автоматизация конвейеров будет естественно развиваться, чтобы удовлетворить эту потребность. С развитием автоматизации, барьеры для создания и управления конвейерами снижаются. Разрыв в навыках уменьшается, и возможность добавлять новую ценность увеличивается.

Переход к самостоятельному управлению конвейерами с поддержкой ИИ означает автоматизацию наиболее трудоемких частей работы, расширяя возможности для создания и демонстрации новой ценности. Это похоже на хорошее будущее.

7. Синтетические данные имеют значение - но за них приходится платить (Томаш)

Вы, вероятно, видели изображение змеи, пожирающей собственный хвост. Если присмотреться, оно поразительно напоминает современный ИИ.

В настоящее время в интернете насчитывается примерно 21–25 триллионов токенов (слов). Современные модели ИИ использовали их все. Чтобы данные продолжали развиваться, требуется намного более обширный корпус данных для обучения. Чем больше данных у модели, тем больше у неё контекста для генерации результатов, и тем точнее будут эти результаты.

Что же делать исследователям ИИ, когда у них заканчиваются данные для обучения? Они создают их сами.

Поскольку тренировочные данные становятся все более скудными, компании считают, что синтетические данные станут важной частью процесса обучения их моделей в будущем. За последние 24 месяца вся индустрия выросла, чтобы поддержать это видение — включая компании, которые создают синтетические структурированные данные и обеспечивают создание соответствующих данных для регулируемых отраслей, таких как финансы и здравоохранение.

Но являются ли синтетические данные долгосрочным решением? Вероятно, нет.

Синтетические данные создаются моделями, которые формируют искусственные наборы данных, отражающие то, что можно было бы найти органически (в некоторой альтернативной реальности, где действительно существует больше данных), и затем используют эти новые данные для обучения собственных моделей. На малых масштабах это имеет смысл. Но, как говорится, всего хорошего понемногу...

Это можно представить как недостаток контекстуального питания. Как и в случае с едой, если свежий органический источник данных является наиболее питательным для обучения модели, то данные, полученные из существующих наборов данных, по своей природе менее питательны, чем исходные данные.

Немного искусственного «вкусового усилителя» допустимо — но если диета из синтетических данных для обучения будет продолжаться бесконечно без добавления новых органических данных, то модель в конечном итоге провалится (или, по крайней мере, будет выдавать менее качественные результаты).

Это не вопрос "если", а вопрос "когда".

По мнению Томаша, мы еще далеки от краха моделей. Но по мере того как исследования в области ИИ продолжают выводить модели на их функциональные пределы, несложно представить мир, где ИИ достигнет своего функционального плато — возможно, скорее, чем позже.

8. Появится стек неструктурированных данных (Барр)

Идея использования неструктурированных данных в производстве не является новой — но в эпоху ИИ неструктурированные данные приобрели совершенно новую роль.

Согласно отчету IDC, только около половины неструктурированных данных организаций в настоящее время анализируется.

Но это скоро изменится.

Для генеративного ИИ успех в значительной степени зависит от разнообразия неструктурированных данных, которые используются для его обучения, настройки и усиления. По мере того как все больше организаций стремятся внедрить ИИ в корпоративные процессы, интерес к неструктурированным данным — и к появляющемуся "стеку неструктурированных данных" — будет продолжать расти.

Некоторые команды даже исследуют, как они могут использовать дополнительные большие языковые модели (LLM), чтобы добавить структуру к неструктурированным данным, что позволит масштабировать их полезность в других случаях обучения и анализа.

Выявление неструктурированных данных от первого лица, существующих внутри организации, — и потенциальные способы их активации для заинтересованных лиц — предоставляет возможность для лидеров по данным продемонстрировать бизнес-ценность своей платформы данных (и, надеемся, обеспечить дополнительный бюджет для приоритетных инициатив).

Если 2024 год был посвящен изучению потенциала неструктурированных данных, то 2025 год будет посвящен реализации их ценности. Вопрос в том... какие инструменты выйдут на передний план?

9. Агентный ИИ хорош для общения - но не для внедрения (Томаш)

Если вы где-то рядом с венчурным капиталом в наши дни, вероятно, вы часто слышите термины "копилот" и "агенты". "Копилот" — это ИИ, который используется для выполнения одного шага (например, "исправь мой плохой код"), а "агенты" — это многошаговый процесс, который может собирать информацию и использовать её для выполнения задачи (например, "напиши блог о моем плохом коде и опубликуй его на WordPress").

Без сомнения, мы видели много успешных примеров использования ИИ-копилотов в 2024 году, что подтверждают такие компании, как Github, Snowflake и Microsoft. А как насчет ИИ-агентов?

Хотя "агенты ИИ" доставили массу хлопот командам поддержки клиентов, похоже, на этом их роль в ближайшее время и ограничится. Хотя эти ранние ИИ-агенты являются важным шагом вперед, точность их работы пока оставляет желать лучшего.

Для понимания, 75%-90% точности — это современные достижения для ИИ. Большинство ИИ сравнимы с уровнем старшеклассника. Но если у вас три шага с точностью 75–90%, то окончательная точность примерно 50%.

Мы тренировали слонов рисовать с более высокой точностью.

Вместо того чтобы быть источником дохода для организаций, большинство ИИ-агентов будут вредными, если выпустить их в производство с текущей производительностью. По мнению Томаша, эту проблему нужно решить в первую очередь.

Важно уметь обсуждать их, потому что никто не добился успеха за пределами демонстраций. Несмотря на то, что в Кремниевой долине любят обсуждать ИИ-агентов, эти разговоры не переходят в реальную производительность.

10. Пайплайны становятся больше, но качество не улучшается (Томаш)

"На одном ужине с руководителями в области ИИ мы спросили, сколько людей довольны качеством результатов, и никто не поднял руку. Существует реальная проблема в обеспечении стабильного качества результатов."

Каждый год проводятся опросы среди специалистов по данным о состоянии качества их данных. В этом году мы обратили внимание на область ИИ, и послание было ясным.

Риски для качества данных меняются, но управление качеством данных не успевает за ними.

"Мы видим, что команды создают векторные базы данных или встраивают модели в больших масштабах. SQLLite в больших масштабах. Все эти 100 миллионов небольших баз данных. Они начинают проектироваться на уровне CDN для запуска всех этих небольших моделей. Айфоны будут иметь модели машинного обучения. Мы увидим взрывное увеличение общего числа пайплайнов, но с гораздо меньшими объемами данных."

Паттерн точной настройки создаст взрывное увеличение количества пайплайнов данных внутри организаций. Однако чем больше расширяются пайплайны, тем сложнее становится обеспечение качества данных.

Качество данных возрастает прямо пропорционально объему и сложности ваших пайплайнов. Чем больше у вас пайплайнов (и чем сложнее они становятся), тем больше возможностей для появления проблем — и тем меньше вероятность найти их вовремя.

Создайте новое будущее с нашими решениями

Похожие статьи
© ООО «АЛЛ СИИ», 2025
ИНН 4000007028
КПП 400001001

Реквизиты счета
ФИЛИАЛ "САНКТ-ПЕТЕРБУРГСКИЙ" АО "АЛЬФА-БАНК"
Корреспондентский счет 30101810600000000786
БИК 044030786
Расчетный счет
40702810032200004699
ИНН 7728168971
КПП 780443001