Мастер игры в го. Как нейросеть решила проблему сворачивания белка

Чтобы понять феномен жизни, нужно понять, как работают белки. Эти цепочки молекул, состоящие из двадцати видов аминокислот, играют важнейшую роль в организме человека. Ферменты катализируют химические реакции, которые обеспечивают его правильное функционирование. Белки мышц актин и миозин заставляют тело двигаться. Кератин отвечает за состояние кожи и волос. Гемоглобин переносит кислород. Инсулин регулирует обмен веществ. А шиповидные белки позволяют коронавирусу прикрепляться к клеткам человека и проникать в них.

Аппаратура, которая определяет, какие аминокислоты входят в состав белка, существует давно. Но этого недостаточно, чтобы понять, как работают белки. Функция белка и механизм ее выполнения также зависят от того, какую форму белок приобретает после сворачивания.

На сегодняшний день для изучения белков преимущественно используется рентгеноструктурный анализ — очень кропотливый и трудоемкий метод. Но, возможно, в скором времени всё изменится.

Нейросеть для определения формы белка

В конце прошлого года исследователи из лаборатории изучения искусственного интеллекта DeepMind, принадлежащей Alphabet (материнской компании Google), заявили о том, что им удалось предсказать форму белка на основе входящих в его состав аминокислот.

Это выдающееся достижение, которое позволит сократить процесс определения структуры белка с нескольких месяцев до нескольких часов. Благодаря ему можно будет ускорить разработку новых препаратов и, возможно, даже победить болезнь Альцгеймера, возникновение которой, как считается, связано с неправильным сворачиванием белковых структур.

Поначалу технология машинного обучения, которая использовалась для решения проблемы белка, применялись в основном в камерах с функцией распознавания лиц и голосовых помощниках. В 2010 году Демис Хассабис основал компанию DeepMind, чтобы поставить машинное обучение на службу научного прогресса. Впервые идея предсказывать форму белков при помощи компьютера возникла еще полвека назад. Но, по словам Юэна Бирни, заместителя директора Европейской молекулярно-биологической лаборатории, успехов на этом пути до сих пор было мало, а ошибок много.

Для оценки методов предсказания формы белков начиная с 1994 года каждые два года проводится соревнование CASP, которое в шутку прозвали «Олимпиадой по сворачиванию белка». До самого конца этого соревнования ни организаторы, ни эксперты, ни участники не знают, какова структура тестируемых белков.

В 2018 году DeepMind впервые приняла участие в CASP со своим алгоритмом AlphaFold, который по точности и скорости вычислений превзошел все остальные существующие на тот момент алгоритмы. Новой версии алгоритма AlphaFold 2 удалось улучшить этот результат (см. график). Один из критериев оценки на CASP — это «тест глобального расстояния», в котором предсказания о расположении атомов в структуре молекулы сравниваются с их расположением в реальности. Средний показатель AlphaFold 2 по этому тесту составил 92,4%. По словам Джона Моулта, основателя CASP и биолога из Мэрилендского университета, точность вычислений AlphaFold 2 сопоставима с точностью рентгеноструктурного анализа.

Чем белок похож на игру в го

До недавнего времени DeepMind была известна в основном своим успехом в обучении компьютеров игре в го. В 2016 году программа AlphaGo победила Ли Седоля, одного из ведущих игроков в мире.

По словам Хассабиса, у го и фолдинга белка есть много общего.

Количество возможных комбинаций в го составляет примерно 10¹⁷⁰ — это намного больше количества атомов в наблюдаемой Вселенной. Такие числа выходят за пределы возможностей любого компьютера. Белки еще сложнее, чем го. По некоторым подсчетам, белок может принимать одну из 10³⁰⁰ возможных форм. Окончательная форма зависит от различных сил, действующих внутри составляющих его аминокислот, между этими аминокислотами, а также между аминокислотами и окружающими молекулами, в первую очередь молекулами воды. Измерить эти факторы очень трудно. Следовательно, как и в случае с го, единственный способ предсказать сворачивание белка — анализировать локальную ситуацию.

Есть и еще одна вещь, которая роднит сворачивание белка с игрой в го. Как в го, так и в FoldIt, онлайн-головоломке о фолдинге белка, ходы продиктованы скорее интуицией, чем логикой.

Здесь на помощь приходит машинное обучение. Обучаясь на огромном количестве примеров, компьютеры идентифицируют закономерности, которые люди не в состоянии распознать. Иногда компьютеры находят решения, которые поражают даже экспертов.

«Костяк белка, который удерживает аминокислоты вместе, имеет очень сложную структуру, — говорит Моулт. — AlphaFold 2 установила, что если какая-то из деталей неправильная, то и весь белок не будет функционировать».

AlphaFold 2 — не единичный пример такого рода программы. Многие исследователи с успехом применяли машинное обучение для решения проблемы белка. Не совсем понятно, почему именно DeepMind захватила лидерство. Возможно, дело в том, что компания пообещала опубликовать статью, объясняющую технические детали процесса.

Глава проекта Джон Джампер отмечает, что его команда отказалась от системы, использовавшейся при создании AlphaFold в 2018 году, после того, как стало понятно, что предел ее возможностей достигнут. Новая версия, по словам Джампера, имеет больший потенциал. Более того, считает он, точность программы можно повысить. В то же время есть вопросы, найти ответы на которые она пока не может — например, как соединяются структуры, составленные из нескольких белков.

Однако, как отмечает в своей недавней обзорной статье биолог Кен Дилл из Университета Стоуни-Брук в штате Нью-Йорк, AlphaFold 2, другие аналогичные программы и рентгеноструктурный анализ позволяют определить лишь статические структуры и не учитывают то, как молекулы взаимодействуют друг с другом.

«Представьте, что вас спросили, как работает машина, — объясняет он. — А вы в ответ поднимаете капот, делаете фото и говорите: „Вот как это работает!“». Другими словами, это интересно, но не слишком практично.

И всё же возможность быстро моделировать структуру белка может существенно помочь науке. На сегодняшний день известно около 180 миллионов последовательностей аминокислот. Однако определена структура только 170 тысяч из них. Моулт считает, что, увеличив это число, можно будет ускорить процесс испытания новых препаратов, а также заново изучить уже существующие лекарства, чтобы определить, какую еще пользу они могут принести. Кроме того, это поможет приблизиться к созданию искусственных белков.

Определенные успехи в этом направлении уже есть. Например, AlphaFold 2 удалось предсказать несколько структур белков нового коронавируса, в том числе шиповидную. «Когда я увидел эти результаты, я чуть не упал со стула», — признается Бирни.