Незабвенные лица в data-массиве. Почему ИИ-алгоритмы не умеют забывать персональные данные

Самые разные сервисы используют машинное обучение, чтобы изучать предпочтения людей, распознавать лица и т. д. Алгоритмы обучаются на массивах пользовательских данных — фотографиях, постах и многом другом, и удалить оттуда информацию о конкретном человеке, не повредив ИИ-систему, нельзя. О том, как ученые пытаются заставить машины «выкинуть из головы» ненужное — журнал Wired.

Новая отрасль информатики, названная «машинным разучением», занимается разработкой методов избирательного забвения для программного обеспечения на основе ИИ. Это необходимо, чтобы устранять все данные об определенном человеке или явлении из системы машинного обучения, не ухудшая ее функционирование.

Если замысел удастся воплотить в жизнь, это предоставит пользователям бóльшую степень контроля над своими данными и выгодой, извлекаемой из них третьими лицами. Несмотря на то, что пользователи уже сейчас могут требовать у некоторых компаний удалить их личные данные, они, как правило, не знают о том, для обучения каких алгоритмов эти данные были использованы.

Машинное разучение позволит человеку устранить как сами данные, так и возможность их использования для машинного обучения.

Искусственная амнезия подразумевает некоторые новые для информатики идеи. Компании тратят миллионы долларов, обучая алгоритмы распознавать лица или ранжировать посты, потому что ИИ часто справляется с задачей быстрее, чем люди. Но после того, как процесс обучения завершен, систему трудно не только изменить, но и понять. На данный момент устранение той или иной информации требует создания системы заново, что обходится очень дорого.

«Цель нашего исследования — сделать возможным компромисс: удалить любое упоминание чьих-либо данных, если поступит такое требование, и избежать при этом расходов, связанных с обучением системы с нуля», — говорит Аарон Рот из Пенсильванского университета.

Отчасти новое исследование продиктовано растущей озабоченностью нарушением конфедициальности со стороны ИИ. Органы по защите данных во всем мире давно имеют право требовать от компаний удалить полученную незаконным способом информацию. Жители определенных регионов, например ЕС и Калифорнии, даже могут потребовать удалить предоставленную ими же информацию, если они вдруг передумали ей делиться. А недавно американские и европейские регулирующие органы объявили, что владельцы ИИ-систем должны удалять алгоритмы, обученные на уязвимых данных.

Читайте также

Война за данные: почему нельзя просто взять и «стереть» свой цифровой след

В прошлом году британский орган по защите данных предупредил компании о том, что к некоторому программному обеспечению на основе ИИ может быть применен Общий регламент по защите данных, поскольку ИИ-системы могут содержать персональные данные. Исследования показали, что алгоритмы можно заставить выдать уязвимые данные, использованные в процессе их обучения. В этом году Федеральная торговая комиссия США заставила стартап Paravision, разработавший систему распознавания лиц, удалить незаконно полученные фотографии лиц и обученные с их помощью алгоритмы. Комиссар ФТК Рохит Чопра приветствовал этот шаг как способ призвать к ответу компании, нарушающие законы о защите данных.

Исследователям удалось при определенных условиях заставить алгоритмы забыть желаемую информацию, но пока этот метод еще не готов к полноценному использованию. «Как это часто бывает с новыми технологиями, есть некоторое несоответствие между тем, чего мы хотим достичь, и тем, что мы умеем на данный момент», — говорит Рот.

В 2019 году исследователи из Университета Торонто и Висконсинского университета в Мадисоне предложили разделять исходные данные для новой ИИ-системы на многочисленные фрагменты. Каждый фрагмент должен обрабатываться по отдельности, а полученные результаты соединяются в единую модель. Если определенные данные позже нужно будет удалить, заново обрабатывать придется только часть исходных данных. Эффективность этого способа была доказана на примере данных об онлайн-покупках и коллекции из более чем миллиона фотографий.

Рот и его коллеги из Пенсильванского университета, Гарварда и Стэнфорда недавно нашли изъян в этом методе, показав, что система выйдет из строя, если запросы на удаление информации ввести в определенной последовательности. Они также продемонстрировали, как можно устранить проблему.

Гаутам Камат из Университета Уотерлу, который также занимается машинным разучением, говорит, что упомянутая проблема — лишь один из многих вопросов, которые предстоит решить перед внедрением системы. Его исследовательская группа пытается установить, насколько поочередное удаление нескольких единиц данных снижает эффективность системы.

Камат также хочет найти способ, при помощи которого компания сможет доказать — а регулирующий орган удостовериться, — что определенные данные действительно были забыты.

Со временем поводов для исследования машинного разучения будет становиться все больше. Рубен Биннз из Оксфордского университета, который занимается защитой данных, говорит, что за последние годы в США и Европе значительно возросло количество людей, считающих, что граждане должны иметь право влиять на то, как используются их данные.

Предстоит проделать еще много работы, прежде чем технологические компании смогут воплотить в жизнь машинное разучение и предоставить людям бóльшую степень контроля над использованием своих данных. Но далеко не факт, что это существенно изменит ситуацию с угрозой конфиденциальности в век ИИ.

В качестве примера можно привести дифференциальную приватность — метод, позволяющий ограничить количество данных, которые система может выдать. Apple, Google и Microsoft хоть и владеют технологией, но используют ее довольно редко, вследствие чего угрозы нашей конфиденциальности остаются высокими.

По словам Биннза, «компании часто используют дифференциальную приватность просто чтобы показать, что они занимаются инновациями». Он опасается, что машинное разучение также станет скорее средством демонстрации технологических возможностей, чем реальным сдвигом в вопросе защиты данных. Даже если машины научатся забывать, людям по-прежнему нужно будет думать о том, кому они предоставляют свои данные.