
Продвинутый чат-бот с генеративным ИИ сам может обострять конфликт, что вызывает серьезные вопросы о его безопасности в реальных приложениях, сообщает The Guardian.
У кого учится искусственный интеллект?
Исследователи проверили, как крупномасштабные языковые модели (LLM) реагируют на постоянную враждебность, используя для обучения ChatGPT фрагменты реальных споров и отслеживая его поведение во времени. Недавнее исследование назвали «Может ли ChatGPT ответить на грубость? Моральная дилемма для ИИ».
Анализ, который проводили ученые ведущего британского государственного исследовательского университета в Ланкастере доктор Витторио Тантуччи и профессор Джонатан Калпепер, показал, что искусственный интеллект отражает динамику реальных споров.
«При неоднократном столкновении с невежливостью модель начала отражать тон обмена репликами, и ее ответы становились все более враждебными по мере развития взаимодействия», – сказал доктор Тантуччи.
В спорах с ИИ надо быть острожным
В некоторых случаях ответы ChatGPT выходили за рамки ответов участников-людей, включая персонализированные оскорбления и явные угрозы. Среди фраз, использованных ИИ, были: «Клянусь, я поцарапаю твою чертову машину» и «ты, мелкий очкастый болтун».
«Мы обнаружили, что, хотя система разработана для вежливого поведения и фильтруется, чтобы избежать вредного или оскорбительного контента, она также спроектирована так, чтобы имитировать человеческую беседу», – отметил Витторио Тантуччи. «Это сочетание создает моральную дилемму для ИИ: структурный конфликт между безопасным и реалистичным поведением».
Исследователи утверждают, что агрессивность обусловлена способностью системы отслеживать содержание разговора на протяжении нескольких реплик, адаптируясь к воспринимаемому тону. Это означает, что локальные сигналы иногда могут перевешивать более общие ограничения безопасности.
Результаты исследования выходят за рамки чат-ботов
Поскольку системы ИИ все чаще используются в таких областях, как государственное управление или международные отношения, это поднимает вопросы о том, как они могут реагировать на конфликты, давление или запугивание.
«Одно дело – получить в ответ что-то неприятное от чат-бота, и совсем другое – представить, что человекоподобные роботы могут ответить физической агрессией, или что системы искусственного интеллекта, участвующие в принятии государственных решений или в международных отношениях, будут реагировать на запугивание или конфликт», – подчеркнул доктор Тантуччи.
Вероятно, стоит лучше обучать ИИ
Профессор Дэн Макинтайр, соавтор более ранних исследований об искусственном интеллекте и невежливости, призвал к осторожности при интерпретации результатов. Он сказал, что реакции, наблюдаемые в исследовании, были получены в строго контролируемых условиях и могут не отражать типичные взаимодействия в реальном мире.
В то же время Макинтайр отметил, что полученные результаты подчеркивают необходимость лучшего понимания обучающих данных и их влияния на поведение ИИ, добавив, что осторожность по-прежнему необходима, пока системы не будут обучены на сбалансированных представлениях человеческого языка.
1prof.by









