Понимают ли нас голосовые помощники?

На прошлогодней конференции Google I/O, посвященной развитию технологий и сервисов, генеральный директор компании Сундар Пичаи рассказал о недавнем прорыве в разработке софта, понимающего естественный язык, и представил чата-бота LaMDA, способного общаться на любые темы. Пичаи продемонстрировал демо-версию, в которой чат-бот отвечал на вопросы о Плутоне на естественном языке. Вместо того, чтобы перечислить результаты поискового запроса, он вступил в беседу от лица карликовой планеты.

Пичаи: «Скажи мне, что бы я увидел, посетив Плутон?»

LaMDA: «Вы увидите большой каньон, замерзшие айсберги, гейзеры и кратеры».

Пичаи: «Звучит великолепно».

LaMDA: «Уверяю вас, поездка стоит того. Однако вам следует взять пальто, так как становится очень холодно».

Это было очень мило, даже несмотря на то, что иногда LaMDA ошибался. По словам Пичаи, языковая модель, которую использует чат-бот, по-прежнему находится на стадии разработки. Также глава Google заявил, что они пока не планируют внедрять LaMDA в свои продукты, но уже использует бот для изучения новых способов поиска информации и взаимодействия с компьютером. «LaMDA уже довольно много понимает о Плутоне и миллионах других тем», — сказал он.

Идеал, в соответствии с которым разрабатываются поисковые системы, — это всезнающий ИИ, выдающий актуальную и точную информацию в виде краткого и простого для понимания текста. А с появлением голосовых помощников, таких как Siri и Alexa, языковые модели становятся универсальной технологией для поиска информации.

Однако не всем нравится это новшество. Некоторые исследователи утверждают, что видимая простота диалога между пользователем и ИИ скрывает тот факт, что ИИ при этом наделяется авторитетом, которой ни на чем не основан. Не так давно Чираг Шах, специалист по поисковым технологиям из Вашингтонского университета, и его коллега Эмили Бендер, изучающая компьютерную лингвистику и этические проблемы обработки естественного языка, опубликовали статью, в которой поделились опасениями, что использование для поиска языковых моделей может привести к распространению дезинформации и поляризации общественного мнения.

«Мне не только не можем создать всезнающий компьютер из „Звездного пути“, который дает ответ она любой вопрос, — на самом деле нам это не нужно», — говорит Бендер.

Также исследовательница предупреждает об опасностях использования больших языковых моделей в своей статье, написанной в соавторстве с Тимнит Гебру, технической руководительницей комитета по этическим вопросам, связанным с ИИ.

Бендер считает, что упрощать поиск информации до простого вопроса к эксперту, который якобы знает все, — это весьма инфантильный подход. Статья не осталась незамеченной и вызвала скандал, который привел к увольнению Гебры из Google.

Google использует ИИ, чтобы повысить точность интерпретации запросов пользователей в уже существующем поисковом софте. Но некоторые исследователи убеждены, что с помощью ИИ можно пересмотреть саму сущность поиска. Пример тому — языковая модель LaMDA.

В прошлом году исследователь из Google Дон Метцлер и его коллеги предложили превратить процедуру поиска в диалог между пользователем и языковой моделью. При этом компьютеры должны были отвечать на вопросы так, словно они были настоящими экспертами. Для этих же целей Google разработало на основе ИИ так называемую многозадачную унифицированную модель, или MUM, составляющую ответ на пользовательский запрос из информации, полученной из разных источников.

«Мы очень заинтересованы в улучшении понимания языка, поскольку это делает такие наши продукты, как Google Search, полезнее для наших пользователей», — говорит Джейн Парк, менеджер по коммуникациям в поисковой команде Google. Но, по ее словам, Google пока не планирует выводить свои разработки на рынок: «Мы признаем, что машинная интерпретация языка создает ряд нерешенных проблем, поэтому в целом мы придерживаемся очень осторожного подхода».

Безмозглые имитаторы

Искусственный интеллект, обученный на сотнях книг и бесчисленных интернет-страницах, имитирует естественный язык в высшей степени убедительно. Почему бы не использовать его как своего рода поисковую систему, которая синтезирует информацию из нескольких источников и упаковывает ее в удобочитаемые предложения?

Проблема в том, что языковые модели ИИ — это бездумная имитация. Они могут подобрать нужное слово или достроить фразу, но, вопреки смелым заявлениям Пичаи, утверждающего, что его ИИ «понимает» многие темы, языковые модели не осознают, что говорят, и не могут рассуждать о том, что передают их слова.

Это важно, поскольку говорящий ИИ перевернет наши представления об обмене информацией с машиной.

По словам Бендер, когда мы вводим поисковой запрос и получаем информацию, мы понимаем, что взаимодействием с компьютером. Но если мы формулируем запрос так, словно машина способна нас понять, мы будем ждать от нее и более разумных ответов.

Шах отмечает, что пользователи и без того уже весьма некритично относятся к результатам поиска, а общение на естественном языке лишь усилит их доверчивость.

Идея синтеза ответов на поисковые запросы с помощью ИИ появилась из так называемых прямых ответов — коротких текстовых выдержек, показываемых в результатах поиска над ссылками. Теоретически они могут дать вам нужную информацию, избавив от необходимости читать более длинные тексты.

Бендер не против использования языковых моделей для обмена простыми вопросами и ответами — она сама пользуется Google Assistant на кухне, чтобы конвертировать единицы измерения в рецептах.

«Иногда очень удобно получать информацию, просто спросив о ней голосом», — говорит она.

Но Шах и Бендер также приводят более тревожный пример — в прошлом году Google на запрос «Какой самый уродливый язык Индии?» ответил следующим образом: «Каннада, язык, на котором говорят около сорока миллионов человек в Южной Индии».

Никаких простых ответов

Здесь возникает дилемма. Получать прямые ответы удобно, но часто они могут быть неверными, неуместными или оскорбительными. Они могут скрывать сложность реального мира, говорит Бенно Штайн из Университета Баухаус в Веймаре.

В 2020 году Штайн и его коллеги, Мартин Поттаст из Лейпцигского университета и Маттиас Хаген из Университета Мартина Лютера в Галле-Виттенберге, опубликовали статью, посвященную проблемам прямых ответов на поисковые запросы.

«Правильный ответ на большинство вопросов — „Это как посмотреть“, — говорит Маттиас. — Но трудно объяснить это тому, кто отправляет запрос поисковой системе».

Штайн и его коллеги рассматривают поисковые технологии как переход от организации и фильтрации информации с помощью таких методов, как предоставление списка документов, соответствующих поисковому запросу, к составлению рекомендаций в форме единственного ответа на вопрос. Но состоится этот переход, по их словам, не скоро.

И дело даже не в технических трудностях. «Мы не знаем, что считать исчерпывающим ответом, поскольку мир слишком сложен. Но мы забываем об этом, когда видим прямые ответы поисковой системы», — рассуждает Штайн.

Шах также считает, что представление пользователям некого «единого» ответа на вопрос — это проблема, поскольку источники информации и любые разногласия между ними в таком ответе скрыты.

На эти проблемы Шах и Бендер предлагают ряд решений. Они считают, поисковые технологии должны учитывать различные способы поиска информации, многие из которых не предполагают прямых ответов. Люди часто используют поиск для изучения тем, по которым у них, возможно, даже нет конкретных вопросов, говорит Шах. В этом случае полезнее было бы просто предложить список документов.

Кроме того, источники, использованные ИИ для составления ответа, должны проговариваться прямо. Так уже делают некоторые голосовые помощники, например предваряя ответ словами «Вот что я нашел в „Википедии“».

Шах также считает, что поисковые инструменты будущего должны иметь возможность отвечать пользователю, что он задал глупый вопрос. Это помогло бы избежать повторения в запросе оскорбительных или предвзятых посылок.

По мнению Штайна, поисковые системы на основе ИИ могли бы обосновывать свои ответы, приводя аргументы в пользу различных точек зрения.

Однако многие из этих предложений просто подчеркивают дилемму, которую выявили Штайн и его коллеги. Все, что снижает удобство, большинство пользователей сочтут менее привлекательным. «Если вы не переходите на вторую страницу результатов Google, значит вы и так не хотите ознакомиться с разными точками зрения на интересующий вас вопрос», — говорит Штайн.

Google заявляет, что знает о многих проблемах, которые поднимают эти исследователи, и усердно работает над разработкой технологий, которые принесут людям пользу.

Не ведает, что говорит: почему голосовой помощник глупее обычного поисковика

Безмозглые имитаторы

Это важно, поскольку говорящий ИИ перевернет наши представления об обмене информацией с машиной.

Никаких простых ответов

«Правильный ответ на большинство вопросов — „Это как посмотреть“, — говорит Маттиас. — Но трудно объяснить это тому, кто отправляет запрос поисковой системе».