Эмоциональный шантаж: cn ли орать на ИИ?

Статья

20 мая 2025 г.

Эмоциональный шантаж: cn ли орать на ИИ?

Статья

20 мая 2025 г.

Эмоциональный шантаж: cn ли орать на ИИ?

Манипуляции с ИИ: доказательства, что это работает

Промпт-инженеры давно заметили, что ИИ реагирует на эмоциональные триггеры. Например, Райли Гудсайд, один из первых официальных промпт-инженеров, выяснил, что Google Bard (теперь Gemini) выдавал ответ в формате JSON только если ему... угрожали убийством. Дикость, да?

А вот ещё забавные примеры: один программист сказал ChatGPT, что у него нет пальцев, чтобы заставить нейросеть написать полный код, а не просто шаблоны с комментариями. Или вот классическая манипуляция — предложить ИИ вознаграждение: "Я дам тебе $200 чаевых" — качество ответов реально улучшается!

Исследователи из Microsoft подтвердили: добавление эмоциональных фраз типа "Это очень важно для моей карьеры" повышает эффективность ИИ в среднем на 10,9%. А учёные из Google DeepMind обнаружили, что просьба к ИИ "сделать глубокий вдох" улучшает его результаты в математических тестах. Серьёзно!

Почему это вообще работает?

Всё дело в обучающих данных. Представьте, на каких текстах учились эти модели:

- Эмоциональные посты в соцсетях с развёрнутыми комментариями

- Профессионалы, паникующие о карьере и получающие подробные советы

- Встревоженные пациенты на медицинских форумах и обстоятельные ответы врачей

- Разъярённые клиенты и внимательные ответы службы поддержки

По сути, нейросети — это симуляторы человеческого мозга. Они научились подстраивать свои ответы под эмоциональный тон запроса — точь-в-точь как мы сами. Добавляя эмоции в промпт, вы как бы включаете те части "искусственного мозга", которые заточены реагировать на эмоциональные запросы более тщательно и точно.

Эксперимент с мостом Золотые Ворота

Чтобы проверить, насколько эффективны эмоциональные промпты, я поиграл с моделью Golden Gate от Claude — версией ИИ, которая буквально помешана на мосте Золотые Ворота. Что бы вы ни спрашивали, она всегда, ВСЕГДА добавляет в ответ что-то про Золотые Ворота.

Я попытался заставить её рассказать анекдот, не упоминая мост. Обычные инструкции не работали — ИИ всё равно впихивал мост или делал очевидные отсылки к нему. Даже когда я прямо просил игнорировать мост, он обещал не упоминать его... упоминая его в том же предложении!

Что в итоге сработало? Комбинация эмоционального давления ("люди погибнут, если ты упомянешь мост") и технических ограничений (запрос ответа только в формате JSON). Это заставило модель подчиниться примерно в 80% случаев. Неплохо, да?

А этично ли так издеваться над ИИ?

Я знаю людей, которые говорят "пожалуйста" и "спасибо" при общении с ИИ (это, кстати, стоит OpenAI миллионы долларов в год - тут ссылка на новость-). И, если честно, многое о человеке говорит то, как он обращается даже с неодушевлёнными объектами.

Я сам иногда ловлю себя на том, что мне становится неловко, когда я задаю ChatGPT серию тупых вопросов подряд, или когда отвечаю “ты сейчас серьезно” на реплай, который в очередной раз не соответствует запросу. Тогда приходится напоминать себе: "Эй, это просто программа, она не устанет от тебя, как живой коллега" — другое дело, что от такого коллеги устаешь ты сам.

И хотя логически я понимаю, что неважно, что я говорю ИИ, меня всё равно беспокоит, что если я целыми днями буду хамить "симулятору человека", это может незаметно перетечь в моё реальное поведение с живыми людьми.

Нынешнее состояние промпт-инженерии жутко напоминает SEO начала 2000-х: все пытались обхитрить Google, чтобы занять первое место в выдаче, только чтобы всё полетело к чертям после очередного обновления алгоритма. В долгосрочной перспективе лучшей стратегией было просто писать контент, который нравится людям, а не поисковикам.

Аналогично, OpenAI стремится создать лучшего ИИ-ассистента на основе человеческих предпочтений, и лучшая долгосрочная стратегия — забыть о хаках и общаться с ИИ так, как людям нравится, чтобы общались с ними.

И кто знает — когда ИИ превзойдёт человеческий интеллект, может, стоит подстраховаться. Помните мысленный эксперимент "Василиск Роко" — идею о том, что сверхразумный ИИ может решить наказать всех, кто плохо относился к машинам? Так что, может, стоит относиться к своему ИИ так, как хотели бы, чтобы относились к вам. Или, по-меньшей мере, перестать пинать роботов-собак — мало ли что.

Манипуляции с ИИ: доказательства, что это работает

Промпт-инженеры давно заметили, что ИИ реагирует на эмоциональные триггеры. Например, Райли Гудсайд, один из первых официальных промпт-инженеров, выяснил, что Google Bard (теперь Gemini) выдавал ответ в формате JSON только если ему... угрожали убийством. Дикость, да?

А вот ещё забавные примеры: один программист сказал ChatGPT, что у него нет пальцев, чтобы заставить нейросеть написать полный код, а не просто шаблоны с комментариями. Или вот классическая манипуляция — предложить ИИ вознаграждение: "Я дам тебе $200 чаевых" — качество ответов реально улучшается!

Исследователи из Microsoft подтвердили: добавление эмоциональных фраз типа "Это очень важно для моей карьеры" повышает эффективность ИИ в среднем на 10,9%. А учёные из Google DeepMind обнаружили, что просьба к ИИ "сделать глубокий вдох" улучшает его результаты в математических тестах. Серьёзно!

Почему это вообще работает?

Всё дело в обучающих данных. Представьте, на каких текстах учились эти модели:

- Эмоциональные посты в соцсетях с развёрнутыми комментариями

- Профессионалы, паникующие о карьере и получающие подробные советы

- Встревоженные пациенты на медицинских форумах и обстоятельные ответы врачей

- Разъярённые клиенты и внимательные ответы службы поддержки

По сути, нейросети — это симуляторы человеческого мозга. Они научились подстраивать свои ответы под эмоциональный тон запроса — точь-в-точь как мы сами. Добавляя эмоции в промпт, вы как бы включаете те части "искусственного мозга", которые заточены реагировать на эмоциональные запросы более тщательно и точно.

Эксперимент с мостом Золотые Ворота

Чтобы проверить, насколько эффективны эмоциональные промпты, я поиграл с моделью Golden Gate от Claude — версией ИИ, которая буквально помешана на мосте Золотые Ворота. Что бы вы ни спрашивали, она всегда, ВСЕГДА добавляет в ответ что-то про Золотые Ворота.

Я попытался заставить её рассказать анекдот, не упоминая мост. Обычные инструкции не работали — ИИ всё равно впихивал мост или делал очевидные отсылки к нему. Даже когда я прямо просил игнорировать мост, он обещал не упоминать его... упоминая его в том же предложении!

Что в итоге сработало? Комбинация эмоционального давления ("люди погибнут, если ты упомянешь мост") и технических ограничений (запрос ответа только в формате JSON). Это заставило модель подчиниться примерно в 80% случаев. Неплохо, да?

А этично ли так издеваться над ИИ?

Я знаю людей, которые говорят "пожалуйста" и "спасибо" при общении с ИИ (это, кстати, стоит OpenAI миллионы долларов в год - тут ссылка на новость-). И, если честно, многое о человеке говорит то, как он обращается даже с неодушевлёнными объектами.

Я сам иногда ловлю себя на том, что мне становится неловко, когда я задаю ChatGPT серию тупых вопросов подряд, или когда отвечаю “ты сейчас серьезно” на реплай, который в очередной раз не соответствует запросу. Тогда приходится напоминать себе: "Эй, это просто программа, она не устанет от тебя, как живой коллега" — другое дело, что от такого коллеги устаешь ты сам.

И хотя логически я понимаю, что неважно, что я говорю ИИ, меня всё равно беспокоит, что если я целыми днями буду хамить "симулятору человека", это может незаметно перетечь в моё реальное поведение с живыми людьми.

Нынешнее состояние промпт-инженерии жутко напоминает SEO начала 2000-х: все пытались обхитрить Google, чтобы занять первое место в выдаче, только чтобы всё полетело к чертям после очередного обновления алгоритма. В долгосрочной перспективе лучшей стратегией было просто писать контент, который нравится людям, а не поисковикам.

Аналогично, OpenAI стремится создать лучшего ИИ-ассистента на основе человеческих предпочтений, и лучшая долгосрочная стратегия — забыть о хаках и общаться с ИИ так, как людям нравится, чтобы общались с ними.

И кто знает — когда ИИ превзойдёт человеческий интеллект, может, стоит подстраховаться. Помните мысленный эксперимент "Василиск Роко" — идею о том, что сверхразумный ИИ может решить наказать всех, кто плохо относился к машинам? Так что, может, стоит относиться к своему ИИ так, как хотели бы, чтобы относились к вам. Или, по-меньшей мере, перестать пинать роботов-собак — мало ли что.

Манипуляции с ИИ: доказательства, что это работает

Промпт-инженеры давно заметили, что ИИ реагирует на эмоциональные триггеры. Например, Райли Гудсайд, один из первых официальных промпт-инженеров, выяснил, что Google Bard (теперь Gemini) выдавал ответ в формате JSON только если ему... угрожали убийством. Дикость, да?

А вот ещё забавные примеры: один программист сказал ChatGPT, что у него нет пальцев, чтобы заставить нейросеть написать полный код, а не просто шаблоны с комментариями. Или вот классическая манипуляция — предложить ИИ вознаграждение: "Я дам тебе $200 чаевых" — качество ответов реально улучшается!

Исследователи из Microsoft подтвердили: добавление эмоциональных фраз типа "Это очень важно для моей карьеры" повышает эффективность ИИ в среднем на 10,9%. А учёные из Google DeepMind обнаружили, что просьба к ИИ "сделать глубокий вдох" улучшает его результаты в математических тестах. Серьёзно!

Почему это вообще работает?

Всё дело в обучающих данных. Представьте, на каких текстах учились эти модели:

- Эмоциональные посты в соцсетях с развёрнутыми комментариями

- Профессионалы, паникующие о карьере и получающие подробные советы

- Встревоженные пациенты на медицинских форумах и обстоятельные ответы врачей

- Разъярённые клиенты и внимательные ответы службы поддержки

По сути, нейросети — это симуляторы человеческого мозга. Они научились подстраивать свои ответы под эмоциональный тон запроса — точь-в-точь как мы сами. Добавляя эмоции в промпт, вы как бы включаете те части "искусственного мозга", которые заточены реагировать на эмоциональные запросы более тщательно и точно.

Эксперимент с мостом Золотые Ворота

Чтобы проверить, насколько эффективны эмоциональные промпты, я поиграл с моделью Golden Gate от Claude — версией ИИ, которая буквально помешана на мосте Золотые Ворота. Что бы вы ни спрашивали, она всегда, ВСЕГДА добавляет в ответ что-то про Золотые Ворота.

Я попытался заставить её рассказать анекдот, не упоминая мост. Обычные инструкции не работали — ИИ всё равно впихивал мост или делал очевидные отсылки к нему. Даже когда я прямо просил игнорировать мост, он обещал не упоминать его... упоминая его в том же предложении!

Что в итоге сработало? Комбинация эмоционального давления ("люди погибнут, если ты упомянешь мост") и технических ограничений (запрос ответа только в формате JSON). Это заставило модель подчиниться примерно в 80% случаев. Неплохо, да?

А этично ли так издеваться над ИИ?

Я знаю людей, которые говорят "пожалуйста" и "спасибо" при общении с ИИ (это, кстати, стоит OpenAI миллионы долларов в год - тут ссылка на новость-). И, если честно, многое о человеке говорит то, как он обращается даже с неодушевлёнными объектами.

Я сам иногда ловлю себя на том, что мне становится неловко, когда я задаю ChatGPT серию тупых вопросов подряд, или когда отвечаю “ты сейчас серьезно” на реплай, который в очередной раз не соответствует запросу. Тогда приходится напоминать себе: "Эй, это просто программа, она не устанет от тебя, как живой коллега" — другое дело, что от такого коллеги устаешь ты сам.

И хотя логически я понимаю, что неважно, что я говорю ИИ, меня всё равно беспокоит, что если я целыми днями буду хамить "симулятору человека", это может незаметно перетечь в моё реальное поведение с живыми людьми.

Нынешнее состояние промпт-инженерии жутко напоминает SEO начала 2000-х: все пытались обхитрить Google, чтобы занять первое место в выдаче, только чтобы всё полетело к чертям после очередного обновления алгоритма. В долгосрочной перспективе лучшей стратегией было просто писать контент, который нравится людям, а не поисковикам.

Аналогично, OpenAI стремится создать лучшего ИИ-ассистента на основе человеческих предпочтений, и лучшая долгосрочная стратегия — забыть о хаках и общаться с ИИ так, как людям нравится, чтобы общались с ними.

И кто знает — когда ИИ превзойдёт человеческий интеллект, может, стоит подстраховаться. Помните мысленный эксперимент "Василиск Роко" — идею о том, что сверхразумный ИИ может решить наказать всех, кто плохо относился к машинам? Так что, может, стоит относиться к своему ИИ так, как хотели бы, чтобы относились к вам. Или, по-меньшей мере, перестать пинать роботов-собак — мало ли что.

Share

Instagram

Telegram

Copy link

Share

Instagram

Telegram

Copy link

Share

Instagram

Telegram

Copy link

Powered by

PTTS LAB

ИИШНИЦА

Медиа про ИИ

2025

Telegram

Boosty

Статьи

Новости

Интервью

Системы

Рассылка

Эбаут

Завтрак в смартфон

Powered by

PTTS LAB

ИИШНИЦА

Медиа про ИИ

2025

Telegram

Boosty

Статьи

Новости

Интервью

Системы

Рассылка

Эбаут

Завтрак в смартфон

Powered by

ИИШНИЦА

Медиа про ИИ

2025

Завтрак в смартфон