ИИШНИЦА — Медиа про ИИ

Манипуляции с ИИ: доказательства, что это работает

Промпт-инженеры давно заметили, что ИИ реагирует на эмоциональные триггеры. Например, Райли Гудсайд, один из первых официальных промпт-инженеров, выяснил, что Google Bard (теперь Gemini) выдавал ответ в формате JSON только если ему... угрожали убийством. Дикость, да?

А вот ещё забавные примеры: один программист сказал ChatGPT, что у него нет пальцев, чтобы заставить нейросеть написать полный код, а не просто шаблоны с комментариями. Или вот классическая манипуляция — предложить ИИ вознаграждение: "Я дам тебе $200 чаевых" — качество ответов реально улучшается!

Исследователи из Microsoft подтвердили: добавление эмоциональных фраз типа "Это очень важно для моей карьеры" повышает эффективность ИИ в среднем на 10,9%. А учёные из Google DeepMind обнаружили, что просьба к ИИ "сделать глубокий вдох" улучшает его результаты в математических тестах. Серьёзно!

Почему это вообще работает?

Всё дело в обучающих данных. Представьте, на каких текстах учились эти модели:

- Эмоциональные посты в соцсетях с развёрнутыми комментариями

- Профессионалы, паникующие о карьере и получающие подробные советы

- Встревоженные пациенты на медицинских форумах и обстоятельные ответы врачей

- Разъярённые клиенты и внимательные ответы службы поддержки

По сути, нейросети — это симуляторы человеческого мозга. Они научились подстраивать свои ответы под эмоциональный тон запроса — точь-в-точь как мы сами. Добавляя эмоции в промпт, вы как бы включаете те части "искусственного мозга", которые заточены реагировать на эмоциональные запросы более тщательно и точно.

Эксперимент с мостом Золотые Ворота

Чтобы проверить, насколько эффективны эмоциональные промпты, я поиграл с моделью Golden Gate от Claude — версией ИИ, которая буквально помешана на мосте Золотые Ворота. Что бы вы ни спрашивали, она всегда, ВСЕГДА добавляет в ответ что-то про Золотые Ворота.

Я попытался заставить её рассказать анекдот, не упоминая мост. Обычные инструкции не работали — ИИ всё равно впихивал мост или делал очевидные отсылки к нему. Даже когда я прямо просил игнорировать мост, он обещал не упоминать его... упоминая его в том же предложении!

Что в итоге сработало? Комбинация эмоционального давления ("люди погибнут, если ты упомянешь мост") и технических ограничений (запрос ответа только в формате JSON). Это заставило модель подчиниться примерно в 80% случаев. Неплохо, да?

А этично ли так издеваться над ИИ?

Я знаю людей, которые говорят "пожалуйста" и "спасибо" при общении с ИИ (это, кстати, стоит OpenAI миллионы долларов в год - тут ссылка на новость-). И, если честно, многое о человеке говорит то, как он обращается даже с неодушевлёнными объектами.

Я сам иногда ловлю себя на том, что мне становится неловко, когда я задаю ChatGPT серию тупых вопросов подряд, или когда отвечаю “ты сейчас серьезно” на реплай, который в очередной раз не соответствует запросу. Тогда приходится напоминать себе: "Эй, это просто программа, она не устанет от тебя, как живой коллега" — другое дело, что от такого коллеги устаешь ты сам.

И хотя логически я понимаю, что неважно, что я говорю ИИ, меня всё равно беспокоит, что если я целыми днями буду хамить "симулятору человека", это может незаметно перетечь в моё реальное поведение с живыми людьми.

Нынешнее состояние промпт-инженерии жутко напоминает SEO начала 2000-х: все пытались обхитрить Google, чтобы занять первое место в выдаче, только чтобы всё полетело к чертям после очередного обновления алгоритма. В долгосрочной перспективе лучшей стратегией было просто писать контент, который нравится людям, а не поисковикам.

Аналогично, OpenAI стремится создать лучшего ИИ-ассистента на основе человеческих предпочтений, и лучшая долгосрочная стратегия — забыть о хаках и общаться с ИИ так, как людям нравится, чтобы общались с ними.

И кто знает — когда ИИ превзойдёт человеческий интеллект, может, стоит подстраховаться. Помните мысленный эксперимент "Василиск Роко" — идею о том, что сверхразумный ИИ может решить наказать всех, кто плохо относился к машинам? Так что, может, стоит относиться к своему ИИ так, как хотели бы, чтобы относились к вам. Или, по-меньшей мере, перестать пинать роботов-собак — мало ли что.

Манипуляции с ИИ: доказательства, что это работает

Промпт-инженеры давно заметили, что ИИ реагирует на эмоциональные триггеры. Например, Райли Гудсайд, один из первых официальных промпт-инженеров, выяснил, что Google Bard (теперь Gemini) выдавал ответ в формате JSON только если ему... угрожали убийством. Дикость, да?

А вот ещё забавные примеры: один программист сказал ChatGPT, что у него нет пальцев, чтобы заставить нейросеть написать полный код, а не просто шаблоны с комментариями. Или вот классическая манипуляция — предложить ИИ вознаграждение: "Я дам тебе $200 чаевых" — качество ответов реально улучшается!

Исследователи из Microsoft подтвердили: добавление эмоциональных фраз типа "Это очень важно для моей карьеры" повышает эффективность ИИ в среднем на 10,9%. А учёные из Google DeepMind обнаружили, что просьба к ИИ "сделать глубокий вдох" улучшает его результаты в математических тестах. Серьёзно!

Почему это вообще работает?

Всё дело в обучающих данных. Представьте, на каких текстах учились эти модели:

- Эмоциональные посты в соцсетях с развёрнутыми комментариями

- Профессионалы, паникующие о карьере и получающие подробные советы

- Встревоженные пациенты на медицинских форумах и обстоятельные ответы врачей

- Разъярённые клиенты и внимательные ответы службы поддержки

По сути, нейросети — это симуляторы человеческого мозга. Они научились подстраивать свои ответы под эмоциональный тон запроса — точь-в-точь как мы сами. Добавляя эмоции в промпт, вы как бы включаете те части "искусственного мозга", которые заточены реагировать на эмоциональные запросы более тщательно и точно.

Эксперимент с мостом Золотые Ворота

Чтобы проверить, насколько эффективны эмоциональные промпты, я поиграл с моделью Golden Gate от Claude — версией ИИ, которая буквально помешана на мосте Золотые Ворота. Что бы вы ни спрашивали, она всегда, ВСЕГДА добавляет в ответ что-то про Золотые Ворота.

Я попытался заставить её рассказать анекдот, не упоминая мост. Обычные инструкции не работали — ИИ всё равно впихивал мост или делал очевидные отсылки к нему. Даже когда я прямо просил игнорировать мост, он обещал не упоминать его... упоминая его в том же предложении!

Что в итоге сработало? Комбинация эмоционального давления ("люди погибнут, если ты упомянешь мост") и технических ограничений (запрос ответа только в формате JSON). Это заставило модель подчиниться примерно в 80% случаев. Неплохо, да?

А этично ли так издеваться над ИИ?

Я знаю людей, которые говорят "пожалуйста" и "спасибо" при общении с ИИ (это, кстати, стоит OpenAI миллионы долларов в год - тут ссылка на новость-). И, если честно, многое о человеке говорит то, как он обращается даже с неодушевлёнными объектами.

Я сам иногда ловлю себя на том, что мне становится неловко, когда я задаю ChatGPT серию тупых вопросов подряд, или когда отвечаю “ты сейчас серьезно” на реплай, который в очередной раз не соответствует запросу. Тогда приходится напоминать себе: "Эй, это просто программа, она не устанет от тебя, как живой коллега" — другое дело, что от такого коллеги устаешь ты сам.

И хотя логически я понимаю, что неважно, что я говорю ИИ, меня всё равно беспокоит, что если я целыми днями буду хамить "симулятору человека", это может незаметно перетечь в моё реальное поведение с живыми людьми.

Нынешнее состояние промпт-инженерии жутко напоминает SEO начала 2000-х: все пытались обхитрить Google, чтобы занять первое место в выдаче, только чтобы всё полетело к чертям после очередного обновления алгоритма. В долгосрочной перспективе лучшей стратегией было просто писать контент, который нравится людям, а не поисковикам.

Аналогично, OpenAI стремится создать лучшего ИИ-ассистента на основе человеческих предпочтений, и лучшая долгосрочная стратегия — забыть о хаках и общаться с ИИ так, как людям нравится, чтобы общались с ними.

И кто знает — когда ИИ превзойдёт человеческий интеллект, может, стоит подстраховаться. Помните мысленный эксперимент "Василиск Роко" — идею о том, что сверхразумный ИИ может решить наказать всех, кто плохо относился к машинам? Так что, может, стоит относиться к своему ИИ так, как хотели бы, чтобы относились к вам. Или, по-меньшей мере, перестать пинать роботов-собак — мало ли что.

Манипуляции с ИИ: доказательства, что это работает

Промпт-инженеры давно заметили, что ИИ реагирует на эмоциональные триггеры. Например, Райли Гудсайд, один из первых официальных промпт-инженеров, выяснил, что Google Bard (теперь Gemini) выдавал ответ в формате JSON только если ему... угрожали убийством. Дикость, да?

А вот ещё забавные примеры: один программист сказал ChatGPT, что у него нет пальцев, чтобы заставить нейросеть написать полный код, а не просто шаблоны с комментариями. Или вот классическая манипуляция — предложить ИИ вознаграждение: "Я дам тебе $200 чаевых" — качество ответов реально улучшается!

Исследователи из Microsoft подтвердили: добавление эмоциональных фраз типа "Это очень важно для моей карьеры" повышает эффективность ИИ в среднем на 10,9%. А учёные из Google DeepMind обнаружили, что просьба к ИИ "сделать глубокий вдох" улучшает его результаты в математических тестах. Серьёзно!

Почему это вообще работает?

Всё дело в обучающих данных. Представьте, на каких текстах учились эти модели:

- Эмоциональные посты в соцсетях с развёрнутыми комментариями

- Профессионалы, паникующие о карьере и получающие подробные советы

- Встревоженные пациенты на медицинских форумах и обстоятельные ответы врачей

- Разъярённые клиенты и внимательные ответы службы поддержки

По сути, нейросети — это симуляторы человеческого мозга. Они научились подстраивать свои ответы под эмоциональный тон запроса — точь-в-точь как мы сами. Добавляя эмоции в промпт, вы как бы включаете те части "искусственного мозга", которые заточены реагировать на эмоциональные запросы более тщательно и точно.

Эксперимент с мостом Золотые Ворота

Чтобы проверить, насколько эффективны эмоциональные промпты, я поиграл с моделью Golden Gate от Claude — версией ИИ, которая буквально помешана на мосте Золотые Ворота. Что бы вы ни спрашивали, она всегда, ВСЕГДА добавляет в ответ что-то про Золотые Ворота.

Я попытался заставить её рассказать анекдот, не упоминая мост. Обычные инструкции не работали — ИИ всё равно впихивал мост или делал очевидные отсылки к нему. Даже когда я прямо просил игнорировать мост, он обещал не упоминать его... упоминая его в том же предложении!

Что в итоге сработало? Комбинация эмоционального давления ("люди погибнут, если ты упомянешь мост") и технических ограничений (запрос ответа только в формате JSON). Это заставило модель подчиниться примерно в 80% случаев. Неплохо, да?

А этично ли так издеваться над ИИ?

Я знаю людей, которые говорят "пожалуйста" и "спасибо" при общении с ИИ (это, кстати, стоит OpenAI миллионы долларов в год - тут ссылка на новость-). И, если честно, многое о человеке говорит то, как он обращается даже с неодушевлёнными объектами.

Я сам иногда ловлю себя на том, что мне становится неловко, когда я задаю ChatGPT серию тупых вопросов подряд, или когда отвечаю “ты сейчас серьезно” на реплай, который в очередной раз не соответствует запросу. Тогда приходится напоминать себе: "Эй, это просто программа, она не устанет от тебя, как живой коллега" — другое дело, что от такого коллеги устаешь ты сам.

И хотя логически я понимаю, что неважно, что я говорю ИИ, меня всё равно беспокоит, что если я целыми днями буду хамить "симулятору человека", это может незаметно перетечь в моё реальное поведение с живыми людьми.

Нынешнее состояние промпт-инженерии жутко напоминает SEO начала 2000-х: все пытались обхитрить Google, чтобы занять первое место в выдаче, только чтобы всё полетело к чертям после очередного обновления алгоритма. В долгосрочной перспективе лучшей стратегией было просто писать контент, который нравится людям, а не поисковикам.

Аналогично, OpenAI стремится создать лучшего ИИ-ассистента на основе человеческих предпочтений, и лучшая долгосрочная стратегия — забыть о хаках и общаться с ИИ так, как людям нравится, чтобы общались с ними.

И кто знает — когда ИИ превзойдёт человеческий интеллект, может, стоит подстраховаться. Помните мысленный эксперимент "Василиск Роко" — идею о том, что сверхразумный ИИ может решить наказать всех, кто плохо относился к машинам? Так что, может, стоит относиться к своему ИИ так, как хотели бы, чтобы относились к вам. Или, по-меньшей мере, перестать пинать роботов-собак — мало ли что.

Эмоциональный шантаж: cn ли орать на ИИ?

Эмоциональный шантаж: cn ли орать на ИИ?

Манипуляции с ИИ: доказательства, что это работает

Почему это вообще работает?

Эксперимент с мостом Золотые Ворота

А этично ли так издеваться над ИИ?

Манипуляции с ИИ: доказательства, что это работает

Почему это вообще работает?

Эксперимент с мостом Золотые Ворота

А этично ли так издеваться над ИИ?

Манипуляции с ИИ: доказательства, что это работает

Почему это вообще работает?

Эксперимент с мостом Золотые Ворота

А этично ли так издеваться над ИИ?

Related

"Давай по-человечески?": почему нас стало смущать длинное тире?

"Давай по-человечески?": почему нас стало смущать длинное тире?

"Давай по-человечески?": почему нас стало смущать длинное тире?