Искусственный интеллект: грядет ли крах ИИ?

Увеличение количества ИИ-контента в интернете может стать угрозой для будущих моделей ИИ

грядет ли крах ИИ
Что произойдет, если в будущем искусственный интеллект будет обучаться на все возрастающей доле данных, генерируемых ИИ? © Just_Super/ iStock
Губительный круговорот:
Все больше и больше интернет-контента поступает от искусственных интеллектов и таким образом формирует обучающий материал для следующих поколений ИИ. Но это может привести к фатальным последствиям, как показал эксперимент: уже через несколько поколений ИИ такие «круговые поруки» приведут к краху языковых моделей. Результаты становятся все хуже и хуже, пока, наконец, системы ИИ не начнут выдавать только бессмыслицу, о чем сообщают авторы исследования в журнале «Nature». Как это можно предотвратить?

Искусственный интеллект в виде больших языковых моделей или генераторов изображений обучается, анализируя вероятности текста или последовательностей пикселей в больших объемах данных. До настоящего времени эти обучающие данные состояли в основном из контента, созданного людьми. В результате системы искусственного интеллекта учатся генерировать осмысленные тексты, изображения, математические уравнения или даже компьютерные программы, соответствующие запросу. GPT и co. научились даже обманывать и лгать.

ИИ учится у ИИ

Существует проблема: бум искусственного интеллекта также увеличивает долю контента, созданного ИИ, в Интернете, а значит, и в пуле обучающих данных для будущих систем ИИ:

«Если обучающие данные для будущих моделей ИИ будут по-прежнему браться из Интернета, эти системы ИИ неизбежно будут обучаться на данных своих предшественников»,

— объясняют Илия Шумайлов из Оксфордского университета и его коллеги.

В принципе, это приводит к своеобразному круговому движению: ИИ учится у ИИ.

Именно поэтому Шумайлов и его команда впервые систематически проанализировали последствия, которые это может иметь для будущих поколений ИИ.

«Мы оцениваем наиболее распространенную форму обучения большой языковой модели, при которой предварительно обученные модели совершенствуются с помощью новых циклов обучения», — объясняют они.

В ходе эксперимента языковая модель OPT-125m от Meta (запрещена в России) сначала была снабжена набором данных текстов из Википедии. Последующие поколения этой ИИ-системы получали для тонкой настройки только данные, сгенерированные их предшественником, или смесь из 90 % данных ИИ и 10 % исходных данных, сгенерированных человеком.

Деградация после пяти, коллапс после девяти поколений

пример ответа
Пример ответа, который становится все хуже и хуже с течением поколений ИИ, здесь в отрывке текста о средневековом строительстве церквей.
© Shumailov et al./ Nature, CC-by 4.0

Результат: всего через пять поколений ИИ ответы значительно ухудшились. «В большинстве случаев мы получаем каскадный эффект, при котором отдельные неточности объединяются, а общий объем ошибок продолжает расти», — сообщают исследователи. Например, ИИ все чаще генерировал повторы слов и предложений. «Однако если явно попросить его избегать таких повторений, его результат становится еще хуже».

Деградировавший искусственный интеллект больше не отвечает на поставленный вопрос или зацикливается лишь на небольшом аспекте ответа. «Модель перестает понимать поставленную задачу обучения», — говорят Шумайлов и его коллеги. После девяти поколений языковая модель выдавала только бессмысленные куски языка и строки символов — она разрушилась.

«Нефильтрованное обучение на основе данных, созданных ИИ, приводит к коллапсу моделей — дегенеративному процессу, в ходе которого они забывают истинное распределение исходных данных с течением времени», — объясняет команда. Однако, поскольку это распределение частот является основой для обучения искусственного интеллекта, он регрессирует — становится все более глупым».

Остаются только золотистые ретриверы

Исследователь ИИ Эмили Венгер из Университета Дьюка, которая не принимала участия в исследовании, на примере иллюстрирует последствия такого краха ИИ: Предположим, что генератор изображений обучен создавать максимально реалистичные изображения собак. В качестве базы данных он использует фотографии различных пород собак из Интернета. Поскольку популярные породы, такие как золотистые ретриверы, уже более распространены, генератор изображений также предпочтет отображать эти породы в качестве прототипичных изображений собак.

Если следующее поколение генераторов изображений будет обучаться на этих сгенерированных ИИ изображениях собак, то некоторые редкие породы уже будут отсутствовать, поскольку предыдущий ИИ их не воспроизводил.

«После достаточного количества циклов модель ИИ забудет, что редкие породы собак вообще существуют, и в какой-то момент будет выдавать только изображения собак с золотистыми ретриверами», — объясняет Венгер.

В итоге база данных становится настолько маленькой, что система искусственного интеллекта уже не может даже правильно представить этих собак — она терпит крах.

«Мы должны отнестись к этой проблеме серьезно»

В эксперименте этот крах ИИ был практически неизбежен, если искусственный интеллект не получал определенный минимальный объем данных, генерируемых человеком, для своего обучения.

«Другими словами, публикация данных, созданных ИИ, в интернете загрязняет сбор данных, необходимых для обучения его преемников», — объясняют Шумайлов и его коллеги. «Поэтому мы должны серьезно отнестись к этой проблеме, если хотим и в будущем использовать интернет в качестве учебного материала для искусственного интеллекта».

По мнению исследователей, эта постепенная дегенерация и последующий коллапс угрожают не только генераторам текстов, но и другим генеративным искусственным интеллектам. Однако они не проверяли, что произойдет, если система искусственного интеллекта будет питаться не собственными продуктами, а продуктами другой модели ИИ.

«Учитывая тот факт, что интернет наводнен данными от различных моделей ИИ, это было бы более реалистично», — говорит Венгер. «Пока неясно, неминуем ли крах».

Водяные знаки для контента ИИ?

Если сценарий исследователей подтвердится, то возникнет еще одна проблема: теперь практически невозможно распознать, какие данные в интернете принадлежат GPT и co., а какие — человеку. Даже сложные алгоритмы искусственного интеллекта регулярно не могут распознать тексты или фотографии, созданные ИИ. Если компании, занимающиеся разработкой ИИ, используют автоматические сборщики данных для получения обучающих данных, то отфильтровать нечеловеческие данные целенаправленно будет сложно.

Но как можно предотвратить фатальный цикл развития ИИ? По мнению Шумайлова и его команды, лучшим решением было бы включение своего рода водяного знака во все тексты, изображения или видео, созданные искусственным интеллектом. Однако для этого потребуются согласованные действия всех производителей систем генеративного ИИ. Конкуренты, такие как OpenAI, Meta, Google и другие, должны будут работать вместе — насколько это реально, пока неясно.

Источник: (Nature, 2024; doi: 10.1038/s41586-024-07566-y)

Наука и техника
Logo