Есть проблема Попыткам разобраться в структуре белков исполнилось 50 лет

Полвека назад, в 1962 году, Макс Перутц и Джон Кендрю получили Нобелевскую премию по химии за открытие первой трехмерной структуры белка. Структура миоглобина оказалась неожиданно сложной и совершенно непохожей на правильное устройство кристаллов. С тех пор биология стала фактически совершенно новой наукой, но проблема структуры белка осталась ее, наверное, самым крепким орешком.

Технологический разрыв

Проблема белка - из тех научных задач, сформулировать которые гораздо проще, чем подступиться к их решению (чем сильно напоминает математические "проблемы"). Она заключается в том, чтобы по последовательности аминокислот, из которых сделан пептид, определить его структуру. Теоретически, для этого нет никаких препятствий, ведь это постоянно происходит в каждой живой клетке в миллионах рибосом, где синтезируются пептиды. Занимает это микросекунды, и осуществляется прямо по ходу синтеза, но смоделировать этот процесс, оказывается, очень сложно.

Джон Кендрю с моделью миоглобина. Нажмите, чтобы увеличить. Фото Medical Research Council, Laboratory of Molecular Biology, Cambridge
Lenta.ru

Важно понимать, что одной аминокислотной последовательности обычно (за некоторыми важными исключениями, о которых речь пойдет ниже) соответствует только одна трехмерная структура. Она определяет все: то, с чем белок взаимодействует, как реагирует на изменение температуры, как работает. Это означает, что все свойства и особенности каждого индивидуального "винтика" клетки полностью закодированы в его первичной последовательности. А задача ученых - "всего лишь" создать программу, которая научится переводить этот одномерный язык аминокислот в трехмерный язык структуры.

Важность такой задачи трудно переоценить. Нерешенная проблема белка - возможно, самое слабое звено современной молекулярной биологии. Дело в том, что аминокислотная последовательность белков однозначно и достаточно легко выводится из последовательности нуклеотидов гена, который кодирует его синтез. Последовательности же генов за последние 50 лет биологи научились определять с фантастической эффективностью.

На сегодняшний день количество определенных последовательностей ДНК растет экспоненциально и сильно обгоняет закон Мура об удвоении мощности компьютеров каждые 2 года. Об уровне развития технологий в этой области говорит такой пример. Весной 2012 года одна из британских компаний представила портативный секвенатор ДНК, который, по заявлениям разработчиков, способен за 15 минут прочитать индивидуальный геном человека. При этом сам прибор выглядит как небольшой USB-накопитель, а его планируемая стоимость составляет 900 долларов - создатели планируют продавать его и клиническим лабораториям и частным энтузиастам. Даже если разработчики немного приукрашивают достоинства своего детища, этот пример дает некоторое представление о масштабе потока данных, который в будущем хлынет в базы данных.

Очевидно, что лишь ничтожная доля белков, о которых ученые узнают на основе определения последовательности ДНК, будут исследованы напрямую. В мире просто не существует такого количества экспериментаторов, чтобы синтезировать хотя бы тысячную долю этого репертуара. Если бы ученые имели в своем арсенале инструмент, так же эффективно предсказывающий структуру белка по аминокислотной последовательности, как можно предсказать последнюю по последовательности ДНК, это полностью изменило бы современную биологию.

Спирали и листы

Макс Перутц. Фото с сайта Нобелевского комитета
Lenta.ru

Интересно, что силы, благодаря которым белок приобретает свою уникальную структуру, были понятны практически с самого начала. Пептиды синтезируются в рибосомах по одной аминокислоте, которые навешиваются друг на друга, как бусины. Вылезая из канала в рибосоме, аминокислотная нить сразу же начинает взаимодействовать с водной клеточной средой. Это приводит к тому, что жирные аминокислоты прячутся внутрь глобулы, а гидрофильные - выбираются наружу. Положительно заряженные аминокислоты притягиваются к отрицательно заряженным и наоборот. Обделенные электронами остатки водорода образуют контакты с богатыми электронами атомами кислорода и азота. При этом, поскольку распределение водородов вдоль хребта цепи регулярно, они схватываются друг с другом подобно зубчикам застежки-молнии.

В результате, цепь аминокислот образует два базовых элемента структуры - цилиндрическую спираль, в которой контакты скрепляют соседние витки, или плоский лист, в котором аминокислоты выложены "змейкой". То, какая последовательность образует спираль, а какая - лист, определяется последовательностью аминокислот довольно явно: если, например, каждая третья аминокислота будет обладать объемным хвостом, она просто не сложится в спираль - крупные заместители будут мешать друг другу. Если это будет каждая четвертая аминокислота, то хвосты выложатся в шахматном порядке и будут мешать образованию спирали. Вообще, образование таких базовых элементов структуры по последовательности аминокислот биологи научились предсказывать довольно точно. Сложности возникают в тех местах, где спираль или лист заканчивается и полипептидная цепь делает разворот, чтобы образовать новую базовую структуру.

Конструктор нанофранкенштейна

Туннельная структура ландшафта конформаций. Чем ближе к энергетическому минимуму структура, тем уже набор вариантов. Иллюстрация из статьи Ken A. Dill и Justin L. MacCallum, Science, 2012
Lenta.ru

На заре исследования белков ученые надеялись, что им удастся найти некоторые принципы, которые кодируют трехмерную структуру подобно тому, как генетический код кодирует последовательность аминокислот. Считалось, что существует некий набор базовых правил, стоит только найти которые - и трехмерную структуру можно будет легко "расшифровать". Все, однако, оказалось гораздо сложнее - за полвека исследований набор этих правил, к сожалению, отыскать так и не удалось.

Тем не менее, нельзя сказать, что ученым так ничего и не удалось добиться. Вместо поиска мифических универсальных правил, гораздо эффективнее оказался подход, в котором структуру нового белка пытаются собирать на основе данных о гомологе (белке-родственнике).

Для этого ученые используют открытую базу данных готовых структур белков, полученных экспериментально. Сейчас в этой базе присутствуют более 80 тысяч отдельных полипептидов, и каждый день их становится все больше.

В "эмпирическом" подходе последовательность белка дробят на перекрывающиеся фрагменты, а затем ищут похожие участки в последовательностях с известной структурой. Считается, и это не лишено оснований, что близкие по первичной последовательности белки будут иметь близкие трехмерные структуры. Собрав, подобно Франкенштейну, структуру нового белка из фрагментов других полипептидов, ее обычно доводят до ума при помощи молекулярной динамики. Для этого виртуальный белок помещают в виртуальную же пробирку с водой и ионами и симулируют их поведение в течение нескольких миллионных или тысячных долей секунды. За это время структура-франкенштейн разглаживается и приходит к некоему локальному энергетическому минимуму. Доводка не гарантирует, что в реальности белок обладает именно такой структурой, какую показывает молекулярная динамика, но позволяет избежать совсем грубых ляпов.

Конкурс предсказателей

Результаты конкурсов CASP. Красные графики более современные, синие - более старые. Нажмите, чтобы увеличить Иллюстрация из стаьи Ken A. Dill и Justin L. MacCallum, Science, 2012
Lenta.ru

Когда речь идет о предсказаниях, сразу же возникает соблазн создать на их основе тотализатор. Ученые, работающие со структурами белков, не стали отказывать себе в таком удовольствии и создали для этого CASP - конкурс алгоритмов, предсказывающих структуру.

В базу данных белков ежегодно приходят сотни новых экспериментально установленных структур, однако не все они немедленно обнародуются. Жюри CASP из новых поступлений отбирает сотню молекул с ранее неизвестной структурой и публикует их аминокислотную последовательность в виде задания для желающих участвовать в конкурсе. Выигрывает тот, чье предсказание структуры будет иметь меньше всего отличий от экспериментального "ответа".

За время существования конкурса - а уже было проведено девять состязаний - качество алгоритмов хоть и не очень сильно, но заметно выросло. И уж никак не сравнимо с тем, как представляли себе это биохимики в начале шестидесятых. То, как программы справляются с представленными заданиями, прежде всего зависит от сложности белка. Если в его составе менее 100 аминокислот, то с такой последовательностью справится практически любой алгоритм, если существенно больше - скорее всего, ни один из них.

Но в общем, на сегодняшний день можно говорить о том, что существующие алгоритмы хорошо справляются с заданием в каждом десятом случае. И если уж сейчас говорить о "проблеме белка" не как об отдельной отрасли знания, которой она является, а в узком смысле создания алгоритма, то, наверное, можно сказать, что она решена на 10 процентов.

Вместо заключения

Так сложилось, что не достигнув главного, к чему стремились поколения биологов, ученые попутно узнали очень много интересного и важного. Среди этого и открытия в области молекулярной динамики, и создание алгоритма проверки лекарств на компьютере, и разработка новых алгоритмов вычислений и даже создание новой инфраструктуры исследований, в которых принимают участие не только профессиональные ученые, но и любители - достаточно вспомнить такие проекты, как Rosetta@Home и FoldIt.

О том, как продвинулись биологи, решая упрямую проблему белка, говорит хотя бы тот факт, что недавно удалось решить обратную задачу и это не стало особой сенсацией. Исследователи из университета Вашингтона научились предсказывать последовательность по структуре - то есть рассчитывать, какую именно аминокислотную последовательность нужно создать, чтобы белок свернулся в нужную трехмерную структуру. Причем исходная трехмерная структура была совершенно новой и не имела никакого отношения к тем, что реально существуют в живой природе.

Кажется, такие новости должны были бы утешить Кендрю и Перутца, которые так и не дожили до решения проблемы белка.