искусственный интеллект

Ученые из МФТИ научили ИИ грамотно «увиливать» от неприятных тем

Специалисты в области ИИ много рассуждают о том, как сделать работу больших языковых моделей более прозрачной. Исследователи из МФТИ с коллегами из Т-Технологий разработали метод, позволяющий следить за процессом «мышления» ИИ и обучать его «навыкам» избегания неудобных тем.

ИИ и безопасность, МФТИ
Credit: Freepik

Ученые из разных стран пытаются создать надежный и безопасный ИИ: модели, которые не галлюцинируют и не приносят прямого вреда пользователям. Как добиться такого результата?

Один из способов — использование «словарей-дешифраторов». С их помощью можно извлекать из сложной нейронной сети понятные человеку концепции. Однако ранее специалисты не понимали, как отследить «судьбу» одного понятия по мере его продвижения через «слои» модели ИИ.

Российские ученые создали некую «бесшовную» карту, связывающую разрозненные «слои» и показывающую, как информация трансформируется в процессе обработки.

«Мы создали своего рода “генеалогическое древо” для “мыслей” нейронной сети. Наш метод позволяет проследить всю “родословную” конкретной идеи внутри модели, — объяснил Никита Балаганский, соавтор исследования. — Мы можем увидеть, как из простых признаков, отвечающих за отдельные слова на ранних слоях, рождаются более сложные семантические конструкции на средних, и как они в итоге собираются в абстрактные темы на финальных этапах. Это похоже на то, как ручейки сливаются в реки, а реки — в океан».

С помощью нового подхода можно эффективно управлять генерацией текста и обучать ИИ «увиливанию» от неприятных тем и провокационных вопросов. В будущем ученые планируют использовать метод для анализа самых крупных современных языковых моделей.

Ранее мы рассказывали про пловцов, которые чуть не погибли из-за чат-бота с ИИ, назвавшего им неверное время отлива.