Вы, вероятно, видели изображение змеи, пожирающей собственный хвост. Если присмотреться, оно поразительно напоминает современный ИИ.
В настоящее время в интернете насчитывается примерно 21–25 триллионов токенов (слов). Современные модели ИИ использовали их все. Чтобы данные продолжали развиваться, требуется намного более обширный корпус данных для обучения. Чем больше данных у модели, тем больше у неё контекста для генерации результатов, и тем точнее будут эти результаты.
Что же делать исследователям ИИ, когда у них заканчиваются данные для обучения? Они создают их сами.
Поскольку тренировочные данные становятся все более скудными, компании считают, что синтетические данные станут важной частью процесса обучения их моделей в будущем. За последние 24 месяца вся индустрия выросла, чтобы поддержать это видение — включая компании, которые создают синтетические структурированные данные и обеспечивают создание соответствующих данных для регулируемых отраслей, таких как финансы и здравоохранение.
Но являются ли синтетические данные долгосрочным решением? Вероятно, нет.
Синтетические данные создаются моделями, которые формируют искусственные наборы данных, отражающие то, что можно было бы найти органически (в некоторой альтернативной реальности, где действительно существует больше данных), и затем используют эти новые данные для обучения собственных моделей. На малых масштабах это имеет смысл. Но, как говорится, всего хорошего понемногу...
Это можно представить как недостаток контекстуального питания. Как и в случае с едой, если свежий органический источник данных является наиболее питательным для обучения модели, то данные, полученные из существующих наборов данных, по своей природе менее питательны, чем исходные данные.
Немного искусственного «вкусового усилителя» допустимо — но если диета из синтетических данных для обучения будет продолжаться бесконечно без добавления новых органических данных, то модель в конечном итоге провалится (или, по крайней мере, будет выдавать менее качественные результаты).
Это не вопрос "если", а вопрос "когда".
По мнению Томаша, мы еще далеки от краха моделей. Но по мере того как исследования в области ИИ продолжают выводить модели на их функциональные пределы, несложно представить мир, где ИИ достигнет своего функционального плато — возможно, скорее, чем позже.