Доктор химических наук Николай Иванов, сотрудник центра исследований и разработок компании «Филип Моррис Интернэшнл» (ФМИ) в Швейцарии, приехал в Москву, чтобы рассказать на научной конференции в МГУ и на совместном образовательном курсе Роснано и «Сколтеха» о системной биологии, исследующей организмы как целое, как сложную систему, с применением высокопроизводительных методов генерации и обработки больших данных. Ученый рассказал «Ленте.ру» о том, как современные IT и совместная работа с открытыми данными способны на годы сократить время на внедрение лекарств и оценку влияния токсичных веществ.
В организме человека десятки тысяч генов производят десятки тысяч белков, причем каждый в большом количестве. Современное исследовательское оборудование достаточно точно их отслеживает, а при компьютерном моделировании приходится оперировать с большими массивами цифр. Технологии, позволяющие исследовать закономерности в массивах значительного объема данных, называются Big Data. По словам Иванова, в центре, где он работает, за год получают порядка петабайта данных (10 в 15-й степени байт, примерно 100 самых емких жестких дисков на данный момент).
Вычисления всем миром
«Лента.ру»: К компьютерам в научных исследованиях мы уже привыкли, а каковы современные особенности применения IT?
Николай Иванов: Мы обрели возможность обрабатывать петабайтные объемы данных. Не только благодаря повышению мощности компьютеров, но и за счет новых технологий — различных «омик», а также новых методов расшифровки ДНК и измерения активности генов. Например, современные приборы для протеомики точно измеряют концентрацию пептидов и белков. Есть и алгоритмы для обработки таких сложных данных.
Один из таких методов, например, позволяет количественно измерить воздействие токсичных веществ, образующихся при курении, на клетку. Используя биологические сети клетки, мы можем изучить эти процессы на уровне тканей, органа и дальше — целого организма. Биологические сети моделируют цепь реакций, протекающие в клетке, ткани или органе.
Какие применяются способы повышения точности компьютерного моделирования, помимо использования более быстрых вычислительных систем?
Это вопрос не только вычислительной мощности. В 2012 году мы разработали уникальный алгоритм моделирования биологических сетей, а в прошлом году опубликовали улучшенную версию этого алгоритма. Наши расчеты биологических сетей позволяют понять, как различные токсические вещества действуют на конкретную клетку. Кроме того, можно просчитать, как клетка общается с другими клетками посредством сигнальных процессов, и создать модель влияния токсичного вещества на группу клеток или ткань.
Поэтому основная проблема — конструкция правильной модели биологических сетей, над чем мы и работаем. Модель должна соответствовать биологической реальности. Это самое сложное, и у нас на это уходят большие ресурсы.
Мы построили биологические сети некоторых процессов на основе известных данных, опубликовали результаты в научных журналах. У нас есть несколько публикаций по воспалению тканей легких, оксидативному стрессу, разрушению ДНК — многие исследования биологии человека можно провести, построив соответствующие биологические сети, связанные с токсикологией. Мы публикуем свои модели на специальном веб-сайте как часть проекта SBV Improver, находящегося в открытом доступе. Для привлечения ученых со всего мира мы уже четвертый раз проводим конкурс на проверку наших биологических сетей, их уточнению и дополнению новыми данными.
Открытые данные и совместная работа — одна из важных тенденций современной науки. Повышение вычислительных мощностей компьютеров не просто ускорило расчеты, но сделало современные научные исследования персональными — каждый может взять ноутбук и просчитать имеющуюся модель или поделиться с другими.
Значит, ваши данные используются не только внутри компании, но и представлены как обычные научные работы?
У нас те же принципы, как в любом другом научно-исследовательском институте. Если тема подходит журналу Nature, то мы подаем статью туда: у нас есть публикации в Nature Biotechnology и в Nature Communications. Наши исследования по токсикологии издаются лучшими профильными журналами — Food and Chemical Toxicology, Chemical Research in Toxicology, работы по растениям — в авторитетном Plant Journal.
Нами разработаны алгоритмы расчета воздействия токсичных веществ на биологические сети — мы называем такой процесс возмущением биологических сетей. Результаты опубликованы в Bioinformatics, одном из лучших журналов по биоинформатике.
А как же коммерческий интерес, конкурентное преимущество?
Перед публикацией мы патентуем наши разработки, новые алгоритмы. Как я уже упоминал, смоделированные нами биологические сети доступны любому, кто подключен к интернету.
Коммерческие компании заинтересованы в наших алгоритмах, потому что они позволяют предсказать воздействие на организм косметических продуктов, пищи, напитков, бытовой химии. В США методы системной биологии используются для оценки состояния окружающей среды соответствующим агентством (U.S. Environmental Protection Agency). Отдельно отмечу фармацевтические компании, тратящие миллиарды долларов на разработку и апробацию новых лекарств. Компьютерное моделирование позволяет им сразу отказаться от бесперспективных химических формул.
Умный подсчет
А в высокопроизводительных системах какие изменения произошли?
Лет пять назад в рабочие станции и серверы внедрили графические ускорители. Оказалось, что они подходят не только для вывода картинки в играх, но и для геномики — обработке генетических данных, изучения состава ДНК. Разработаны соответствующие программные приложения. Например, BLAST (Basic Local Alignment Search Tool, основной инструмент для локального сравнения — прим. «Ленты.ру»). Это самое главное приложение в биоинформатике, позволяющее взять новую последовательность ДНК и искать ее в базе данных всех секвенированных геномов. Благодаря алгоритму BLAST графические процессоры стали очень популярны — благодаря им процесс поиска новых молекул ДНК в базе данных ускорился в десятки раз.
Вы упоминали, что тоже разработали алгоритм. Расскажите об этом.
Это проект «Филип Моррис Интернэшнл». Алгоритм называется NPA (Network Perturbation Amplitude, амплитуда возмущения сети). В 2012 году мы его опубликовали, в прошлом году — улучшили. Он позволяет измерить возмущения или пертурбации в конкретных биологических сетях, например, воспаление ткани из-за токсичных веществ, таких как загрязнение воздуха или алкоголь. Либо положительное воздействие — фармацевтических средств.
Конечно, основная идея наших новых продуктов — уменьшить риск для совершеннолетних курильщиков и предложить им продукт, гораздо менее вредный для здоровья, чем обычные сигареты. Проблема в том, чтобы доказать это научно. В классических исследованиях применяются методы эпидемиологии. То есть, 20-30 лет люди курят сигареты, и в течении этого периода изучается, заболели они или нет. А системная биология сразу показывает, какое воздействие наши продукты оказывают.
Сроки исследования воздействия токсикологических веществ сокращаются в десять раз! То, на что требовалось 20-30 лет, сейчас биологи могут сделать за 2-3 года по результатам компьютерного симулирования и биологических опытов. Исследования могут проводиться на клеточных культурах, на животных, а наибольший интерес сейчас представляют органотипические трехмерные модели тканей. Они не только точно воспроизводят ткани, представляющие собой «слоеный пирог» из клеток, но и минимизируют необходимость экспериментов на животных.
Как создаются органотипические трехмерные модели тканей, в биореакторах?
Достаточно нанести два первых слоя клеток. Они сами дифференцируются в присутствии определенных веществ, и из них вырастает ткань.
Тогда вы должны задать какой-то сигнал, чтобы они знали, как им дифференцироваться?
Правильно. Например, при создании органотипической модели эпителия дыхательных путей берутся клетки двух типов: фибробласты (клетки, отвечающие за структуру ткани) и базальныe клетки, которым свойственна предрасположенность превращаться в другие клетки. Последние берутся из бронхов донора, ротовой полости или из носа. Мы используем эти три вида органотипических тканей. Сравниваем воздействие наших новых продуктов с воздействием обычных сигарет или просто окружающего очищенного воздуха.
Наша задача — сделать продукт таким, чтобы его потенциальный риск был близок к отказу от курения. Но точно так же органотипические ткани можно создавать из клеток кожи для тестирования косметики, избегая таким образом тестирования на животных.
Трехмерные ткани бронхов также используются для исследований астмы и других заболеваний легких. Сейчас это очень популярное направление. Методами системной биологии мы можем видеть все компоненты, которые изменяются внутри ткани, определять, какие происходят возмущения биологических сетей, используя алгоритмы NPA (амплитуды возмущения биологических сетей).
После опытов на трехмерных тканях мы проводим только самые необходимые опыты на животных согласно протоколам OECD и короткие (2-3 года) клинические исследования, требуемые для одобрения продукта. Хотя их все равно не избежать, раньше, когда методы системной биологии не были доступны, требовалось получить данные многолетних эпидемиологических исследований на людях, доказать, что результаты многообещающие. Сейчас все сильно ускорилось.
Blue Gene не помог
Вы пользуетесь собственными вычислительными комплексами или облачными сервисами с доступом к высоким вычислительным мощностям?
Предпочитаем серверы наших центров, потому что для некоторых вычислений системной биологии требуются достаточно серьезные ресурсы — такие объемы памяти, которые непросто найти в облачных системах. Тенденция по переходу на облачные расчеты есть, но многие проекты мы продолжаем рассчитывать у себя, поскольку у нас достаточно мощный вычислительный кластер, около ста серверов. На некоторых по два терабайта оперативной памяти.
Используете платформу x86, применяемую и в домашних ПК, или суперкомпьютеры с фирменной архитектурой IBM или Fujitsu?
IBM Blue Gene мы попытались использовать, но он нам не совсем подошел, потому что наши данные должны обрабатываться в едином пространстве памяти. Если распараллелить, придется довольствоваться приблизительными результатами.
Мы хотим рассчитывать точно. Наши приоритеты — точные и надежные расчеты. Для системной биологии лучше использовать сервера с единой доступной памятью.
Новые биологические методы
Какими биологическими методами обогатился арсенал ученых за последние годы?
В системной биологии разрабатываются инструменты для измерения всех белков человека (протеомика). Новые приборы масс-спектрометрии, способные измерять одновременно все белки человека в динамике. Словно делается мгновенная фотография всех протеинов. Потом из этих фотографий можно смонтировать фильм, показать динамику. Это самое интересное, поскольку многие нарушения, развитие заболеваний требуют определенного времени. Это может быть короткий период обострения или заболевание более хронического характера.
Также развиваются методы измерения экспрессии генов, такие как qRT-PCR (quantitative reverse transcription polymerase chain reaction, количественная полимерная цепная реакция с обратной транскрипцией, ОТ ПЦР). Уже 20 лет назад применялся метод qPCR (Quantitative PCR, количественная ПЦР), точно измеряющий концентрацию только одного гена. Потом появились чипы, на которые наложили олигомеры, связывающиеся с определенными нуклеотидными последовательностями. Они позволили мониторить присутствие в исследуемом веществе многих генов одновременно, но не очень точно.
Неточности возникали из-за того, что на чипе, во-первых, делается непрямое измерение. Реакция идет с олигомерной подложкой, а у нее не стопроцентная избирательность. Другая проблема — в динамическом диапазоне. Каждая ячейка соответствует определенной молекуле — если она есть в растворе, то окрасит соответствующую ячейку, например, красным. Но и десять, и тысяча молекул дадут тот же красный цвет — на чипах трудно измерить точную концентрацию.
Получалось, что сперва измеряли на чипе приблизительно по наличию нужных генов, а потом с помощью qRT-PCR уточняли их концентрацию.
Современный метод высокопроизводительной полимеразной цепной реакции (high performance qRT-PCR) — это фактически проведение qPCR одновременно на всех генах. Реакции разбиваются на части. Вместо пробирок, применяемых в qPCR, берется лента, на ячейках которой происходит реакция обратной транскрипции. В каждой ячейке можно измерить порядка 100 генов (благодаря мультиплексированию, то есть одновременному измерению). Скажем, если на ленте 300 ячеек и в каждой происходит 100 реакций одновременно, можно измерить порядка 30 тысяч генов одновременно.
Это сравнимо с общим количеством генов в организме человека.
Активных генов около 10 тысяч, а всего их около 30 тысяч. Следует уточнить, что исследователи по-разному трактуют это понятие. Одни называют геном последовательность нуклеотидных оснований на ДНК, способную закодировать белок. Другие считают по количеству РНК, которые могут транскрибироваться из этой нуклеотидной последовательности — часто два или даже три транскрипта РНК, соответствующих одному гену, если учитывать альтернативный сплайсинг. Кто-то вообще считает белки, синтезируемые данным участком ДНК. Поэтому разные числа. Сказывается и различие методов. Один метод даст 5 тысяч белков, другой — 30 тысяч.
Поэтому важны современные методы масс-спектрометрии в протеомике — Hyper Reaction Monitoring позволяет одновременно измерить все белки и, наконец, понять всю картину их работы. Этот метод одновременно точный и высокопродуктивный.
Из жизни — в компьютерную симуляцию
А как данные биологических экспериментов вводятся в модель?
Если есть биологическая сеть, учитывающая связь различных генов, то вы накладываете на нее измерения РНК или белка после воздействия вещества и обнаруживаете, что в одном и том же узле изменение составило 100 условных единиц, когда эксперимент проводился с сигаретным дымом, и только 10 — с воздухом: его дают вдохнуть мыши или человеку. Все другие изменения также вносятся в модель, оценивается действие исследуемого токсина или медицинского препарата (сравнивается с плацебо). Так по экспрессии генов мы оцениваем уровень влияния вещества.
Нам важно, как количественные результаты экспериментов сравниваются с моделями: если есть расхождение, то оно учитывается, и модель совершенствуется.
Вы говорили, что биологические сети — общепринятый метод. А в чем суть вашего фирменного алгоритма NPA?
Суть в разработке взвешенного показателя амплитуды возмущения биологической сети под действием вещества. Сеть состоит примерно из тысячи узлов: если определить действие вещества на каждый из них, то это приведет к тысяче показателей, значение которых будет сложно интерпретировать. Мы берем данные по всем узлам из компьютерного моделирования и, используя метод NPA, переводим их в один показатель. Мы учитываем причинно-следственные взаимосвязи в сети, то есть если во взаимосвязанных узлах изменение — 100 единиц, мы считаем их как один сигнал мощностью сто, а не 300. Итоговый расчет показывает, есть ли воздействие и какой силы.
Вот мы говорим: компьютеры становятся быстрее, быстрее, быстрее, а почему это важно? Раньше было можно обсчитать один ген на компьютере, который в 1000 раз медленнее, а теперь надо обсчитать матрицу из 30 тысячи генов. Значит, считать мы будем в итоге в 30 раз медленнее, и надо идти на суперкомпьютер.
Особенно это будет заметно, если считать 30 тысяч на 30 тысяч, взаимодействие всех генов со всеми. Но на практике биологическая система представляет собой разреженную матрицу, только отдельные группы генов взаимодействуют между собой. Остается посчитать матрицы в этих островах взаимодействующих генов.
Если моделирование так хорошо развито, во что упирается скорость исследований? Нужно ускорение вычислений? Их удешевление? В чем ждать нового прорыва?
Прорыв с графическими процессорами был мощным, и со скоростью вычислений сейчас нет затруднений. Самая главная проблема — правильно построить биологические сети, чтобы они точно отражали реальность. И не только статическую биологию, но и динамические процессы.
Для решения этой задачи перспективно использовать краудсорсинг, когда одновременно тысячи людей проверяют биологические сети. И в статике, и в динамике.
И компьютеры никак не смогут помочь в уточнении моделей?
Лучше всего это удается людям, но существуют алгоритмы так называемой обратной инженерии, когда на основе биологических данных (экспрессии генов, протеомики) воссоздается биологическая сеть. И можно проводить определенные эксперименты, воссоздавать биологические сети, соответствующие данным эксперимента, и потом сравнивать с существующими моделями биологических сетей.
К сожалению, компьютеры уступают людям в понимании связей между биологическими компонентами сетей. Живые системы слишком сложны для компьютера. Но уже есть направление по созданию специальных языков, например, BEL language (Biological Expression Language, язык биологических выражений), одновременно дающий описание биологической сети и обсчитывающий его на компьютере.