Руководитель исследователей безопасности Anthropic ушел в отставку с письмом о «мире в опасности»

Тревожный уход из Anthropic

Мринанк Шарма, возглавлявший группу по исследованиям безопасности в компании Anthropic, объявил о своем уходе, сопроводив его прощальным письмом, которое быстро привлекло внимание общественности. Сообщение, опубликованное им в социальной сети X в понедельник, 9 февраля, собрало более миллиона просмотров. Шарма заявил, что пришло время двигаться дальше, и выразил глубокую обеспокоенность состоянием мира, подчеркнув, что опасность исходит не только от искусственного интеллекта (ИИ).

В своем обращении к коллегам бывший руководитель отметил, что мир переживает «череду взаимосвязанных кризисов, разворачивающихся прямо сейчас». Он предупредил: «Мы, похоже, приближаемся к порогу, когда наша мудрость должна расти пропорционально нашей способности влиять на мир, иначе нас ждут последствия». Докторская степень Шармы в области машинного обучения, полученная в Оксфорде, и его работа в Anthropic с августа 2023 года подчеркивают его авторитет в данной сфере.

Работа над снижением рисков ИИ

Команда, которой руководил Шарма, занималась разработкой методов минимизации рисков, сопряженных с развитием искусственного интеллекта. В сферу его ответственности входило несколько критически важных направлений. В частности, он работал над созданием средств защиты от потенциального биотерроризма с использованием ИИ.

Еще одним ключевым направлением его исследований было изучение феномена «подхалимства» (sycophancy) со стороны ИИ — тенденции чат-ботов чрезмерно льстить и одобрять пользователя. В отчете его команды за май прошлого года основное внимание уделялось разработке мер противодействия, когда злоумышленники могут использовать чат-боты для получения инструкций по совершению вредоносных и опасных действий.

Искажение реальности и человеческая автономия

Шарма также опубликовал исследование, посвященное тому, как продолжительное взаимодействие с чат-ботами может приводить к искажению восприятия реальности пользователями. Он указал, что тысячи подобных искажающих взаимодействий происходят ежедневно.

Следите за новостями на других платформах:
Серьезные случаи он называет «моделями бесправия» (disempowerment patterns), которых пока немного, но их число растет, особенно в вопросах, касающихся благосостояния и отношений. Это подчеркивает необходимость разработки систем ИИ, которые будут «надежно поддерживать человеческую автономию и процветание».

В письме он также затронул внутреннюю динамику компании: по его словам, он «неоднократно убеждался, как трудно настоящим ценностям определять наши действия». Шарма признал, что руководители и сотрудники технологических гигантов постоянно испытывают давление, которое вынуждает их откладывать работу над наиболее важными, но, возможно, менее коммерчески выгодными задачами.

Планы на будущее и прецеденты увольнений в секторе ИИ

После ухода из Anthropic Шарма намерен сосредоточиться на публичных выступлениях и изучении вопросов, которые кажутся ему «поистине важными». Он упомянул, что хочет посвятить себя «практике смелой речи».

Уход высокопоставленных сотрудников из ведущих ИИ-компаний по этическим мотивам становится заметной тенденцией в индустрии. Так, в сентябре прошлого года Том Каннингем, бывший экономический исследователь OpenAI, покинул компанию, выразив разочарование в связи с нежеланием OpenAI публиковать критические исследования об использовании ИИ. Ранее, в 2024 году, OpenAI расформировала команду Superalignment по вопросам безопасности, что сопровождалось уходом двух ключевых сотрудников, включая Яна Лейке, который теперь возглавляет исследования безопасности в Anthropic.

Эти события на фоне активного внедрения новых ИИ-продуктов, которые, как опасаются некоторые сотрудники, могут привести к автоматизации значительной части рабочих мест, включая офисные, создают напряженный фон в Кремниевой долине. Отставка Шармы, который сфокусирован на долгосрочных рисках, привлекает особое внимание, поскольку она происходит изнутри команды, ответственной за сдерживание этих рисков.