Вижу новости, что ChatGPT начал ставить скрытые водяные знаки в текстах: как на самом деле

Даша Лейзаренко

копирует все тексты в «Блокнот»

Страница автора

22 апреля СМИ и телеграм-каналы сообщили, что новые модели в ChatGPT встраивают в ответы специальные символы и тем самым помечают сгенерированный текст.

В соцсетях предположили, что функцию добавили специально, чтобы преподавателям было проще ловить студентов на сгенерированных работах в период зачетов и экзаменов. Но в OpenAI заявили, что водяных знаков не внедряли. Новейшие модели нейросети действительно стали вставлять в текст символы, которые их выдают, но они случайно научились этому сами. Расскажу подробнее.

OpenAI выпустила модели o3 и o4⁠-⁠mini для ChatGPT — они умеют «думать картинками»

Что произошло

Разработчики платформы для управления политикой использования нейросетей в учебных заведениях Rumi обнаружили, что новые «рассуждающие» модели o3 и o4-mini в ChatGPT встраивают в сгенерированные ответы Unicode-символы. В частности, это неразрывные пробелы, которые отображаются как набор символов «U+202F».

Такие символы не видно в чате с ChatGPT, а также при копировании текста в Microsoft Word, гугл-документы, мессенджеры или браузер. При этом они отображаются в редакторах кода — например, Sublime Text или VS Code.

Слева — как сгенерированный текст выглядит в редакторе кода, справа — текст в ChatGPT. Источник: rumidocs.com

Во время теста разработчики Rumi обнаружили, что неразрывные пробелы появлялись только в длинных ответах — например, если ввести запрос «Напиши эссе о министерстве образования». Когда ответ умещался в два предложения, лишних символов не было.

Пользователи также заметили, что специальные символы появляются рядом с датами и сокращениями. При этом старые модели вроде GPT-4o вообще не добавляли подобных символов.

Сгенерированный текст скопировали в инструмент, который определяет Unicode-символы. Источник: rumidocs.com

В Rumi предположили, что функцию внедрили намеренно. Они посчитали, что таким образом OpenAI начала тестировать водяные знаки для выявления сгенерированных студенческих работ. Якобы учителя могут вставлять текст в редакторы кода и таким образом распознавать, что ученик целиком скопировал текст из ChatGPT.

Такое предположение выдвинули на фоне того, что недавно OpenAI предоставила студентам бесплатный пробный период, который продлится до конца учебного года.

Что ответили разработчики ChatGPT

OpenAI ответила исследователям из Rumi, что неразрывные пробелы — это не водяные знаки. По словам разработчиков, символы появились из-за «особенности масштабного обучения с подкреплением».

Обучение с подкреплением — это когда нейросеть учится принимать решения путем проб и ошибок, получая «награду» за правильные действия. Под масштабным обучением компания имеет в виду, что оно происходит на огромных объемах данных, с миллионами взаимодействий, параметров и сценариев.

OpenAI назвала вставку странных символов побочным эффектом этого масштабного процесса. Модель начала использовать их не по указанию разработчиков, а потому, что так сформировался навык. Возможно, они встречались в тренировочных данных или каким-то образом улучшали отклик модели.

Другими словами, появление специальных символов — это не защита от списывания и не водяные знаки, а «побочный эффект» сложного и масштабного обучения. Модель случайно начала вставлять специальные символы в текст. В то же время в OpenAI не уточнили, будут ли корректировать обучение моделей и «отучать» их от неразрывных пробелов.

При этом OpenAI уже разработала систему водяных знаков для сгенерированных текстов. Но компания отказалась от технологии из-за опасений, что это снизит вовлеченность пользователей и, как следствие, прибыль. Вместо этого они рассматривают возможность добавлять к текстам метаданные.

Бесплатный курс Учебника Т⁠—⁠Ж «Как упростить жизнь с помощью нейросетей»

Как проверить, есть ли неразрывные пробелы в сгенерированном тексте

В текстовых редакторах и браузерах специальные символы выглядят точно так же, как обычные пробелы, поэтому их невозможно отличить невооруженным глазом. Но их можно обнаружить, если скопировать текст:

в онлайн-инструменты, например SoSciSurvey;
редакторы кода, например Sublime Text или VS Code;
примитивные текстовые редакторы вроде «Блокнота».

В этих программах символы будут отображаться на месте обычных пробелов. Так можно определить, что текст был скопирован напрямую из новых моделей ChatGPT без изменений.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

ChatGPT интернет нейросети

Даша ЛейзаренкоА для чего вы генерируете тексты в ChatGPT?

НиколайЯ уже давно считаю, что все созданное искусственным интеллектом будет маркироваться. Как минимум текст, картины и фото. На мой взгляд это правильно и необходимо. А так. Забавный побочный эффект получился, хотя мне кажется, что лукавят.16
Boris KölnПравильно он вставляет спецсимволы, это не просто так, а грамотное редактирование про переносы. В Т-Ж так тоже все редакторы делают... Или нет никакой редакции Т-Ж, а все статьи пишет ИИ?12
Владимир ШевцовПока у самого мозгов хватает0
АлександрТакой водяной знак можно удались через search and replace, смысл водяного знака что его сложно удалить6
Даша ЛейзаренкоBoris, вы нас раскрыли10
Кеfир-n-КоржикЭто не ии, это масоны4
Черная БородаНиколай, такое уже есть. Новая лейка прописывает в метаданных фотографий, что они сделаны без использования ИИ. https://leica-camera.com/en-US/news/partnership-greater-trust-digital-photography-leica-and-content-authenticity-initiative?srsltid=AfmBOorUF2NdJcpQ8xQJrb8kiv8PmmkVWvEX5NjgZzAWuHy39yDVkklx3
Алисия СтепсВладимир, главное обобщи это всем, в т.ч на Т\Ж. Это самый главный признак "мозгов". (вырвалось (с))3
Лукьянов ТимурМаркировать ИИ-тексты будет полезно для самих же ИИ. Что бы модели обучались только на человеческих текстах и не обращали внимание на сгенерированные.7
Гога> В частности, это неразрывные пробелы, которые отображаются как набор символов «U+202F». Неразрывные пробелы отображаются как пробелы.1
ГригорийНиколай, EU AI Act требует маркировать такой контент в каких-то случаях0
Роман ЮрьевичУже скоро маркировка: НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И (ИЛИ) РАСПРОСТРАНЕН ИНОСТРАННОЙ ИИ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОЙ ИИ6
Порфирий ПетровичШок, сенсация! Наличие неразрывного пробела в тексте это признак сгенерированного ИИ контента! Дальше, видимо, запятые последуют как "водяные знаки".0
Мария ИвановаЕсли студент захочет, он все равно спишет😄0