Геном нестандартный, геном искусственный. Как функционирует генетический код вирусов, бактерий и митохондрий
В древнейшие времена предположение Демокрита о существовании какого-то неделимого кирпичика, из которого строится всё живое, включая человеческую душу, — атома — было чем-то сродни магии и в сознании обывателя мало чем отличалось от наличия на ближайшей горе пары-тройки божеств. Научно-технический прогресс позволил нам по-настоящему заглянуть внутрь клетки, в святая святых жизни: мы обнаружили атомы и молекулы, молекулярные фабрики и машины — целый мир, действующий по своим законам. А еще оказалось, что всё в этом мире подчиняется инструкции, прописанной в огромной базе данных обо всех процессах в организме, — ДНК. О том, как она работает, рассказывает Зоя Чернова.
Что такое геном и генетический код
Попытаемся объять необъятное и обрисовать понятную картину в общих чертах. Геномом называют совокупность генетической информации, заключенной в нашей ДНК, грубо говоря, геном — это огромная книга, в которой «все ходы записаны». В ней есть информация о том, как должны выглядеть наши клетки, как они функционируют, как синтезируются белки, как реагировать на внешние стимулы и многое, многое другое. Эта информация определяет все аспекты нашего биологического существования, включая рост, развитие и даже предрасположенность к определенным заболеваниям.
У человека геном содержит около 20 000–25 000 генов и состоит примерно из 3 миллиардов пар оснований. Однако в этом и есть проблема: из-за того, что библиотека огромна, просто так ее «прочитать» не получится. И что делать?
Тут на помощь приходит специальный медиатор — РНК (рибонуклеиновая кислота) — своеобразный посредник между ДНК и «итоговым продуктом», белком. Сначала информация из ДНК копируется в молекулу РНК в процессе, называемом транскрипцией. ДНК и РНК очень похожи, разница буквально в деталях — но и дьявол, как известно, тоже в них. В структуру ДНК и РНК входят нуклеотиды — аденин, цитозин и гуанин характерны для обеих «сестер», но вот четвертый нуклеотид отличается. У ДНК это тимин, а у РНК урацил. Еще одно важное отличие ДНК от РНК в том, что ДНК — это двуцепочечная структура (так гораздо легче избежать ошибок при транскрипции, ведь всегда остается вторая нить), а вот РНК одноцепочечная — ведь она копия только одной-единственной стороны ДНК.
Ну хорошо, с введением в молекулярную биологию разобрались, а генетический код — это тогда что? Генетический код — это система правил, по которым информация, заложенная в ДНК и РНК, «переводится» в белки, необходимые для жизни и функционирования организма.
Генетический код основан на триплетах — комбинациях из трех нуклеотидов РНК. Каждый триплет называется кодоном и кодирует определенную аминокислоту, из которых, как из кирпичиков, и строятся белки. Например, последовательность из трех нуклеотидов АUG кодирует аминокислоту метионин, которая также служит «стартовым сигналом» для синтеза белка — старт-кодоном. А вот UUG — это уже лейцин, совсем другая аминокислота, хотя разница в кодонах всего-то в одном нуклеотиде. Аминокислот, участвующих в синтезе белка, всего 20, хотя некоторые организмы могут «расширять» арсенал — мы поговорим об этом позже.
Итак, представьте, что вы человек (рибосома), увлекающийся лего, и вы точно знаете, что в крупнейшей библиотеке города (ядро) есть книжка с инструкцией (ДНК) о том, как из простых кусочков собрать Хогвартс (то есть белок). Сформулируем основные шаги в «создании» такого Хогвартса:
Код без багов, но с фичами
Возможно, вы со школы помните свойства генетического кода. «Вырожденный, триплетный, полярный, неперекрываемый и универсальный!» — звучит как описание какого-то суперпродукта из «Магазина на диване», но на самом деле за странными словами скрываются важные характеристики.
С триплетностью мы уже разобрались — генетический код состоит из триплетов, то есть каждая аминокислота кодируется сочетанием трех нуклеотидов. Код вырожденный, потому что часть аминокислот кодируется более чем одним триплетом. Например, аминокислота лейцин, чемпион по количеству кодонов, может быть закодирована аж шестью разными триплетами (CUU, CUC, CUA, CUG, UUA, UUG), фенилаланин — двумя, а глицин — четырьмя. Это похоже на то, как вы говорите «киса», «кошечка» и «кисонька», но всё равно описываете одну и ту же кошку. Почему так? Вырожденность делает систему устойчивой к ошибкам — небольшие мутации не всегда приводят к изменению аминокислоты, а это значит, что белок останется функциональным в случае ошибки. В генетическом коде всего 64 возможных триплета, а кодируемых аминокислот, как мы помним, всего 20. Из всех кодонов 61 кодирует аминокислоты, а 3 приходятся на так называемые стоп-кодоны, те нуклеотидные последовательности, на которых синтез белка останавливается, то есть происходит его терминация. Это кодоны UAG, UAA и UGA, или, в более романтичном прочтении, янтарь, опал и охра (amber, opal и ochre соответственно). Название «янтарь» предложил один из исследователей, изучавших мутации и стоп-кодоны, в честь своего друга Харриса Бернштейна (Бернштейн с немецкого — янтарь), а там уже и остальные подтянулись.
Неперекрываемость — это как «социальная дистанция» генетического кода. Каждый триплет читается один за другим, не налезая на соседние. Представьте себе поезд, у которого каждое окно — это отдельный триплет.
Наконец, код полярный в том смысле, что цепь может считываться только в одном направлении, поменяться оно не может.
Ладно, с большинством характеристик понятно, теперь перейдем к универсальности.
Дело в том, что очень-очень много миллионов лет назад на земле жил последний общий предок всего живого на планете, его так и называют — LUCA (last universal common ancestor). Он был простенько устроенной маленькой клеткой и вряд ли задумывался о том, чтобы войти в историю — однако вошел.
Мы, все виды, живущие на земле, так или иначе наследовали его генетический код, и потому в подавляющем большинстве организмов одни и те же кодоны кодируют одни и те же аминокислоты. Когда генетический код был только-только обнаружен, предполагалось, что в любом организме, от вашей домашней кошки до бактерии в утреннем йогурте, кодон AUG означает «метионин» и начало синтеза белка, а кодоны UAG, UAA и UGA говорят: «Стоп, тут конец, белок завершен!»
Однако жизнь не была бы жизнью, если бы не нашлись те, кто решил пойти своим путем.
Мы тут не для того, чтобы соответствовать вашим ожиданиям
Кто перестал пользоваться единой инструкцией для считывания нуклеиновой кислоты? Ну, во-первых, вирусы — этим ребятам «закон» вообще оказался не писан. Вирусы настолько сильно отличаются от всех остальных существующих на земле организмов, что до сих пор не очень-то понятно, живые они или нет.
Помимо ДНК, их нуклеиновая кислота может быть представлена РНК; она может быть одноцепочечной или двуцепочечной, большой или маленькой по размерам и количеству закодированных генов… Но из всех правил генетического кода вирусы «любят» нарушать правило неперекрываемости.
Как мы уже говорили, генетический код четко указывает начало считывания гена. По идее в таком случае гены кодируются строго друг за другом: один начинается со старт-кодона и заканчивается стоп-кодоном, и только потом начинается следующий. Такая система называется рамкой считывания. Вирусы могут сдвигать рамку считывания, и именно это позволяет им кодировать как можно больше белков в довольно компактной нуклеиновой кислоте (в капсид много не запихнешь!).
Рамка, в которой нет стоп-кодонов, называется открытой рамкой считывания (ORF, open reading frame), и у вирусов такие рамки встречаются достаточно часто. Если сдвинуть рамку вперед или назад, то получится совершенно другой набор кодонов. Некоторые вирусы заставляют клетку — точнее, ферментный аппарат клетки, который они заимствуют для собственного размножения, — сдвинуться на одну-две «буквы» вперед или назад и читать с нового места. Таким образом, вирус из одного и того же набора «букв» создает разные белки!
Один из самых известных примеров — это ВИЧ, который использует сдвиг рамки считывания для синтеза необходимого количества белков. Геном ВИЧ-1 представляет собой не ДНК, а кодирующую РНК (ВИЧ относится к семейству ретровирусов) и содержит девять открытых рамок считывания, которые все вместе производят 15 белков. Когда рибосома доходит до определенного участка РНК, она сдвигается и начинает считывать генетическую информацию в новой рамке, чтобы произвести необходимые ферменты.
Коронавирусы тоже используют сдвиг рамки считывания для производства белков, необходимых для своего размножения.
У SARS-CoV, например, есть ORF1a/ORF1b, в которых кодируются важные для воспроизведения вирусных частиц ферменты. Для производства всех необходимых белков рибосома должна «споткнуться» на определенном месте и сдвинуться на −1 позицию, чтобы дочитать оставшуюся часть в новой рамке.
Сдвиг рамки считывания на самом деле встречается достаточно редко: эукариоты больше «любят» альтернативный сплайсинг, ситуацию, при которой из одного большого куска РНК вырезаются отличные друг от друга кусочки поменьше — и они уже идут на рибосому, формируя каждый совершенно разные белки.
Когда-то мы были бактериями
«Другой» геном и у тех, кто живет с нами бок о бок, — митохондрий и их растительных собратьев по несчастью — пластид. Они действительно во многом следуют универсальной инструкции генетического кода, но в ряде моментов от него отошли. Случилось это потому, что и митохондрии, и пластиды на самом деле когда-то очень давно были свободноживущими бактериями и водорослями. Гипотеза их возникновения из бактерий и водорослей носит название гипотезы эндосимбиоза (она впервые наиболее полно была сформулирована в ставшей уже классической статье On the Origin of Mitosing Cells Линн Маргулис) и объясняет довольно много особенностей этих органелл — от дополнительной мембраны до, собственно, независимой от ядра ДНК. Независимость эта на самом деле достаточно условна — клетка плотно держит в плену свои энергетические станции, но вот от единого генетического кода и митохондрии, и пластиды позволяют себе отходить.
Митохондрии, например, используют UGA как кодон триптофана, а не как стоп-кодон терминации. Кроме того, есть предположение, что кодон AUA может на самом деле быть кодоном метионина, а не изолейцина, как в обычном генетическом коде.
Не отстают от митохондрий и пластиды — фотосинтезирующие органеллы растений, образовавшиеся тем же эндосимбиотическим путем. Исследования, проведенные в 2018 году, показали, что у паразитарных растений рода Balanophora, которым пластиды не сильно-то нужны, геном этих органелл меняется и резко сокращается. Мало того что в геноме этих пластид осталось 19 генов, так еще и в нуклеотидной последовательности практически перестали встречаться гуанин и цитозин, а стоп-кодон UAG стал кодировать триптофан. Чего только не сделаешь во имя оптимизации!
Не думай о микробах свысока!
Не ушли в сторону от своих родственников и более везучие бактерии. Бактерии — огромное царство, и нет ничего удивительного, что среди них встречаются те, кто решил отойти не только от общего генетического кода, но и в целом от принципа построения ДНК. Самой нашумевшей из таких отщепенцев стала бактерия Halomonas sp., или GFAJ-1, про которую ученые, обнаружившие ее, заявили: вместо фосфора она включает в ДНК… мышьяк! Говорили о другом пути эволюции, даже о возможной инопланетности бактерии. Но первый восторг прошел, и новые исследования опустили научное сообщество с небес на землю. Увы, но нет, это самая обыкновенная бактерия с самым обыкновенным фосфором в ДНК.
Чаще всего бактерии «модифицируют» стоп-кодоны, прописывая им новое значение. Например, у простейших рода Blastocrithidia традиционные стоп-кодоны стали «подрабатывать не по специальности» — в дополнение к основной функции они кодируют аминокислоты. Впрочем, основную функцию сохранили только два кодона из трех: UAG и UAA, кодирующие глутамат, могут останавливать синтез белка, то есть совмещают обе деятельности. А вот UGA, кодирующий триптофан, возможность терминировать синтез потерял совсем. Похожая ситуация у инфузории Condylostoma magnum — ее стоп-кодоны тоже могут кодировать аминокислоты. Причем и аминокислоты похожи: UAA и UAG кодируют глутамин, а UGA тот же самый триптофан. Влияет на то, будет ли кодон стоп-кодоном или кодирующим, его положение на мРНК и близость к началу или к концу цепи — довольно изящный способ регуляции.
Есть среди бактерий и те, кто умеет переключаться с «нормального» кода на необычный. Маленькая бактерия Acetohalobium arabaticum может переключаться со стандартного генетического кода на нестандартный в зависимости от того, присутствует ли во внешней среде вещество под названием пировиноградная кислота. Присутствует? Тогда генетический код расширяется до 21 аминокислоты и стоп-кодон UAG начинает кодировать аминокислоту пирролизин. Пирролизин встречается у разных бактерий и архей, но его кодирование в коде — огромная редкость. Чуть позже мы поговорим о нем подробнее.
Мы сами с усами
Удивительно, но генетический код иногда перестает работать… и в наших собственных клетках. Наши стоп-кодоны обычно исправно несут службу, но иногда, с вероятностью 0,1%, может случиться сбой и вместо стопа произойдет включение в растущую полипептидную цепь аминокислоты. А вот при трансляции мРНК фермента малатдегидрогеназы вероятность сбоя возрастает аж до 4%.
Такие сверхспособности можно использовать на благо организма. Например, совсем недавно, в 2020 году, группа ученых из США научила человеческие клетки красного костного мозга не только кодировать неклассические аминокислоты, но еще и встраивать их в состав белков! И такая редактура кода может быть крайне полезна: мы можем научить клетки получать белки, которые вообще никогда в организме получать не предполагалось.
Подобно тому как стоп-кодон UAG у бактерий и архей может кодировать аминокислоту пирролизин, модифицированные кроветворные клетки начали делать то же самое!
Обучали клетки воспринимать новую аминокислоту, встраивая в их ДНК… вирусную ДНК, содержащую необходимые гены-инструкции. Это, кстати, весьма распространенная методика в современной биологии! «Обученные» таким образом клетки начали отлично включать в белок новую аминокислоту, однако, будучи подсаженными в модельный организм, живую мышь, приживались довольно плохо — но всё же приживались и работали положенным образом!
Будущее не за горами
Есть еще немало примеров бактериальной и клеточной самостоятельности. Однако что насчет жизни искусственной? Последние годы в инфополе активно обсуждается тема искусственного интеллекта: нейронные сети, подобные человеческому мозгу, становятся с каждым днем всё изощреннее и «умнее». Но и ученые, занимающиеся «мокрой» биологией, не отстают. Чем глубже мы погружаемся в тайны мироздания, тем ближе тот момент, когда жизнь с ее собственным генетическим кодом будут делать в лабораториях. И первые шаги в этом направлении давно совершены.
Наиболее известной из искусственных клеток стала, наверное, микоплазма лабораторная (Mycoplasma laboratorium) — первый в мире организм с полностью искусственным геномом, и ее более поздние и продвинутые «родственники».
Создатели лабораторной микоплазмы, Крейг Вентер и его лаборатория, «сделали» ее на основе бактерии Mycoplasma genitalium, причем геном, собранный с нуля, был невообразимо мал. Проект так и назывался — «Минимальный геном»: ученые хотели проверить, сколько на самом деле нужно для жизни.
Затем фокус немного сместился, и за канву для искусственной клетки стали брать Mycoplasma mycoides. В 2010 году группа заявила о создании новой бактерии, причем ДНК тоже синтезировали самостоятельно, а потом полученную хромосому просто ввели внутрь пустой клетки (ею выступила бактерия Mycoplasma capricolum, из которой была удалена ДНК). Бактерию назвали Синтия (Synthia).
В 2019 году в Science опубликовали статью, посвященную созданию… Hachimoji-ДНК. Hachimoji (от японского «восемь букв») — это ДНК, состоящая не из 4, как обычная ДНК, а из 8 букв, причем 4 из них абсолютно искусственны, но при этом могут быть транскрибированы. Новые пары нуклеотидов, Z-P и S-B, по свойствам не отличаются от стандартной четверки, формируют те же связи и не меняют свойства ДНК как носителя информации. Хачимоджи-ДНК может «работать» как нормальная ДНК, и на ее матрице абсолютно естественным путем формировалась хачимоджи-РНК.
Можно сделать и кишечную палочку с синтетической и измененной ДНК. В том же 2019 году одна из групп ученых синтезировала с нуля геном кишечной палочки, еще и отредактировав его при этом. Отредактировали не сильно — всего лишь убрали два кодона, ответственных за серин, — но вот всё остальное синтезировали самостоятельно.
Ученые из США пошли еще дальше и полностью переписали весь генетический код кишечной палочки. Новый геном состоит из 57 кодонов вместо 64: эксперименты позволили удалить стоп-кодон UAG и по два «лишних» кодона аргинина, лейцина и серина. Да, ничего нового бактерия кодировать не стала, но сам эксперимент показал, что менять код под свои нужды вполне возможно. А еще такая «отредактированная» бактерия полностью устойчива к вирусам: они просто не смогут синтезировать в ней свои стандартные белки. Если вам уже почудились отзвуки будущего апокалипсиса, то нет: ничего полезного из окружающего мира (например, плазмиды устойчивости к антибиотикам) такая бактерия тоже приобрести не может и полностью зависит от «помощи» своих создателей.
Можно попробовать зайти с другой стороны и переделать рибосому. В 2010 году был проведен амбициозный эксперимент, в котором рибосому модифицировали так, чтобы она воспринимала не триплеты, а квадруплеты, то есть 4 нуклеотида вместо 3. Это расширяет генетический код с 64 до 256 значений! Потенциально это путь к практически бесконечным возможностям для создания организмов, способных кодировать всё, что нам только придет в голову.
Генетический код — это не когда-то кем-то заданная система для создания организмов. Он эволюционировал и формировался так, чтобы передача генетической информации и синтез белков были максимально эффективны, и только. Но мы уже подобрались к тем временам, когда создание совершенно нового генетического кода для совершенно нового искусственного организма не кажется таким уж невозможным. Куда заведет нас этот режим демиурга — пока непонятно, хотя и крайне любопытно.