Новый инструмент позволяет художникам добавлять незаметные корректировки в пиксели своих изображений перед загрузкой в Интерне. В последующем, если их вставить в обучающий набор ИИ, это приведет к тому, что полученная модель сломается хаотичным и непредсказуемым образом.
Инструмент под названием Nightshade предназначен для борьбы с компаниями, которые используют работы художников для обучения своих моделей без разрешения. Использование его для «отравления» обучающих данных может повредить будущим итерациям моделей искусственного интеллекта, генерирующих изображения, таких как DALL-E, Midjourney и Stable Diffusion, и некоторые из их результатов станут некорректными: собаки станут кошками, автомобили станут коровами и т. д.
Команда разработчиков Nightshade также разработала Glaze — инструмент, который позволяет художникам «маскировать» свой личный стиль, чтобы предотвратить его кражу генеративными нейросетями. Glaze работает аналогично Nightshade – он изменяет пиксели изображений и манипулирует моделями машинного обучения, чтобы они интерпретировали изображение как нечто отличное от того, что оно на самом деле изображено.
Команда намерена интегрировать Nightshade в Glaze , и художники смогут выбирать, хотят ли они использовать инструмент “отравления” данных или нет. Команда также делает Nightshade с открытым исходным кодом, что позволит другим экспериментировать с ней и создавать свои собственные версии. Наборы данных для больших моделей ИИ могут состоять из миллиардов изображений, поэтому чем больше “отравленных” изображений будет занесено в модель, тем больший ущерб нанесет этот метод.
Как работает Nightshade
Nightshade использует уязвимость безопасности в генеративных моделях искусственного интеллекта, возникающую из-за того, что они обучаются на огромных объемах данных.
Художники, которые загружают свои работы в Интернет, но не хотят, чтобы их изображения были внесены в модели ии, могут загрузить их в Glaze и замаскировать их художественным стилем, отличным от их собственного, либо вообще “отравить их” с помощью Nightshade. Отравленные данные очень сложно удалить, поскольку технологическим компаниям приходится кропотливо находить и удалять каждый поврежденный образец.
Разработчики Nightshade протестировали атаку на последних моделях Stable Diffusion и на модели искусственного интеллекта, которую они обучали с нуля. Когда они “скормили” Stable Diffusion всего 50 “отравленных” изображений собак, а затем предложили ему создать изображения самих собак, результат стал выглядеть странно — существа со слишком большим количеством конечностей и мультяшными мордами. Имея 300 отравленных образцов, злоумышленник может манипулировать Stable Diffusion, чтобы создавать изображения собак, похожих на кошек.
Генеративные модели ИИ превосходно устанавливают связи между словами, что способствует распространению вируса. Nightshade заражает не только слово «собака», но и все подобные промты, такие как «щенок», «хаски», «волк» и тд. Атака также работает со связанными изображениями:
Глупость и жадность на пути прогресса
Nightshade может оказать большое влияние на индустрию генеративного искусственного интеллекта, если заставит начать уважать права художников — например, выплачивать роялти за использование их работ. Компании, занимающиеся искусственным интеллектом, Stability AI и OpenAI, предложили художникам отказаться от использования их изображений для обучения будущих версий моделей. Но художники считают, что этого недостаточно, так как политика и механизмы отказа требуют от художников некоторых усилий и не все хотят это делать.