Генетически все люди одинаковы более чем на 99 %. Крошечной разницы в 1 % достаточно, чтобы кто-то родился курчавым пигмеем, а кто-то — голубоглазой блондинкой. Это же, казалось бы, ничтожное число определяет наши физические возможности, предрасположенность к болезням и реакцию на лекарства. Чтобы изучить этот процент, учёные проводят масштабные исследования.
Сначала короткий ликбез для тех, кто ещё не знает или уже забыл, что означают некоторые слова из трёх букв: ДНК и ген. Строение и форма организмов, в том числе человека, определяются белками, структура которых зашифрована в дезоксирибонуклеиновой кислоте (ДНК). Она представляет собой спираль из двух переплетённых цепей. Каждая цепь состоит из четырёх видов звеньев-нуклеотидов, обозначаемых буквами: А, Т, Г, Ц. Последовательность нуклеотидов определяет свойства кодируемого белка. Участок ДНК, кодирующий структуру одного вида белка, называется «ген», а совокупность наследственного материала организма — «геном».
Одним из величайших прорывов XX века стал вывод, что ДНК можно прочитать, словно это текст, и понять индивидуальные особенности организма. А если прочитать ДНК разных организмов, можно понять, насколько близки этносы, как люди расселялись по планете и чем обусловлены наследственные заболевания.
Над первой в истории расшифровкой человеческого генома учёные бились больше десяти лет. В 2003-м эта задача была решена. Дальше процесс пошёл быстрее благодаря совершенствованию технологии секвенирования (от англ. sequence — последовательность), то есть определения порядка нуклеотидов ДНК.
Современная геномика — область, где данных чрезвычайно много. Особенно сейчас, когда учёные пытаются сделать медицину персонализированной, основанной на информации о клеточном строении каждого отдельного человека. Лаборатории по всему миру ежегодно собирают терабайты и петабайты информации, а данные биобанков удваиваются каждые семь месяцев.
— Если в одном и том же участке гена у одного человека стоит буква А, а у другого Ц, это патогенная мутация или норма? Единственная возможность ответить на этот вопрос — исследовать как можно больше людей, посмотреть частоту данной мутации в популяции, выяснить, больны или здоровы её носители. Некоторые мутации встречаются часто, и их легко идентифицировать, но есть и очень редкие — одна на миллион. Именно поэтому в мире сейчас активно накапливают генетическую информацию, — рассказывает Андрей Афанасьев, гендиректор компании iBinom, старший научный сотрудник лаборатории функционального анализа генома МФТИ, на конференции «Яндекса» «Data & Science: биоинформатика».
В 2008 году учёные из Азии, Европы, Африки, США и Латинской Америки включились в беспрецедентное по масштабам исследование «1 000 геномов». Целью проекта было создание максимально подробной карты генетических вариаций человека. Исследователи планировали секвенировать геномы по крайней мере тысячи анонимных участников — представителей разных этнических групп. Проект завершился в 2015 году с перевыполнением плана: секвенировали 2,5 тыс. геномов представителей 26 популяций из 5 регионов мира; описали свыше 88 млн генетических вариаций.
Наша страна в проект «1 000 геномов» не попала и теперь навёрстывает упущенное. В 2015 году сотрудники Центра геномной биоинформатики им. Ф. Г. Добржанского Санкт-Петербургского госуниверситета запустили исследование «Российские геномы», чтобы создать открытую базу данных по полногеномным последовательностям более 2 тыс. человек — представителей разных этнических и региональных групп России.
Астрономия | YouTube | Геномика | ||
Сбор | 25 зетабайт в год | 0,5–15 млрд твитов в год | 500–900 млн часов в год | Зетабайт в год |
Хранение | Эксабайт в год | 1–17 петабайт в год | 1–2 эксабайта в год | 2–40 эксабайт в год |
Посёлок Борисовка, Белгородская область. В центральной районной больнице в восемь утра теснее, чем обычно. Местные жители приходят семьями и, сверяясь со стрелочками на стенах, направляются в процедурный кабинет. Заходят сразу по трое, что не смущает ни врачей, ни тех, кто в очереди. Выходят с ватой в сгибе локтя и сувенирными футболками с эмблемой «Российские геномы» — только что они стали участниками этого проекта.
— Жена сказала, вот я и пришёл, — пожимает плечами мужчина средних лет, не совсем понимая, зачем серьёзным людям в белом вдруг понадобилась его кровь.
К участию в проекте привлекали группы из трёх человек: родителей и ребёнка старше 18 лет. Перед сдачей крови каждый заполнял анкету. Главный вопрос: «Ваши бабушка и дедушка родились в этой местности?» Именно благодаря коренным жителям исследователи смогут построить геномную картину региона. Кровь уже сдали в Архангельской, Псковской, Новгородской областях, Приморском и Хабаровском крае, в Твери, Нижнем Новгороде, Красноярске.
В базе данных «Российских геномов» каждому образцу ДНК присваивают шифр, чтобы сохранить анонимность, поэтому исследователи знают только пол, год рождения и этническую или региональную группу, к которой относится донор. Данные хранятся в «облаках»: любой исследователь в любой точке мира должен иметь к ним доступ.
— Первое, что мы хотим понять: как шло расселение древнего человека, как поселения контактировали между собой и обменивались генетической информацией. Следы этих процессов можно увидеть в геномах современных людей, — рассказывает генетик Андрей Шевченко из центра им. Ф. Г. Добржанского. — Другая сторона исследования медицинская: разные народы имеют предрасположенность к разным заболеваниям, и это отчасти определяется генами.
Какие наследственные заболевания характерны для различных групп населения России, как раз предстоит выяснить.
— Сейчас лечение назначают почти вслепую, поэтому одним таблетки помогают, другим нет, — поясняет Шевченко. — Всему есть причина, и она кроется в генетических особенностях, в мутациях, унаследованных от предков, и в среде обитания.
Уточнение важное, потому что гены определяют не всё. Если говорить математическим языком, два умножить на три равно шесть. Чей вклад здесь больше: двойки или тройки? Невозможно сказать. Генетики свою часть задачи решают с помощью секвенирования.
— С каждого генома мы получаем несколько десятков миллионов фрагментов средней длиной 100–150 пар нуклеотидов, они занимают примерно полтерабайта памяти.
У нас хранятся в электронном виде данные 60 обработанных геномов и 42 необработанных, так называемых сырых ридов. После получения сырых ридов в работу включаются биоинформатики, которые контролируют качество материала, проверяют, какова длина и глубина покрытия генома. Нам нужна глубина покрытия не менее 3Х, то есть каждая буква генома должна быть прочитана не менее 30 раз. Длина покрытия — не менее 80 %, — рассказывает главный научный сотрудник Центра геномной биоинформатики им. Ф. Г. Добржанского Владимир Брюхин.
По плану | Уже собрано | |
Северные русские (Архангельская область) | 60 | 36 |
Западные русские (Псковская, Новгородская и Ленинградская области) | 120 | 128 |
Южные русские (Ростовская, Воронежская и Белгородская области, Краснодарский край) | 240 | 206 |
Центральные русские (Ярославская, Владимирская, Тульская, Нижегородская и Тверская области) | 300 | 120 |
Восточные русские (Удмуртия) | 60 | |
Русские Урала (Свердловская область) | 60 | |
Русские Сибири (Новосибирская, Омская и Томская области, Красноярский край) | 240 | |
Русские Дальнего Востока (Хабаровский и Приморский край) | 120 | |
ИТОГО | 1200 | 511 |
Речь идёт о колоссальной работе с непременным контролем качества на каждом этапе. Когда материал подготовлен, учёные сравнивают частоту мутаций в генах, выясняют наличие однонуклеотидных полиморфизмов, влияющих и не влияющих на работу генов. По этим данным можно не только определить предрасположенность к заболеваниям в каждой популяции, но и выяснить их родство, а также пути миграции предков.
Первая расшифровка человеческого генома, завершившаяся в начале 2000-х, стоила миллиарды долларов. За 15 лет цена упала, но по-прежнему остаётся баснословной: в России полногеномное секвенирование стоит около 5 тыс. долларов. За рубежом дешевле, но российские законы запрещают вывозить из страны образцы ДНК.
— В Европе цена секвенирования полного генома человека ниже тысячи долларов, в Японии и Китае — 600–700 долларов. Вдобавок мест, где это можно сделать, совсем немного: Москва, Петербург да Новосибирск. Пока нам удалось получить средства и отсеквенировать чуть более сотни индивидуальных геномов, — резюмирует Владимир Брюхин.
На сегодня в рамках проекта «Российские геномы» собрано свыше 1,5 тыс. образцов крови. Контроль качества прошли около 700 образцов. Всего исследователи планируют собрать их около 3 тысяч.
По плану | Уже собрано | |
Якуты | 60 | 60 |
Коми | 60 | 26 |
Адыгейцы | 60 | 60 |
Чуваши | 60 | 39 |
Тувинцы | 60 | 60 |
Татары (Новосибирск) | 60 | 12 |
Татары (Томск) | 60 | 55 |
Буряты | 60 | 0 |
Ханты | 60 | 37 |
Алтайцы | 60 | 0 |
Хакасы | 60 | 62 |
Башкиры | 60 | 123 |
Татары (Волжский регион) | 60 | 45 |
Калмыки | 60 | 42 |
Чеченцы | 60 | 126 |
Карачаевцы | 60 | 126 |
Балкарцы | 60 | 99 |
Ненцы | 60 | 15 |
Манси | 60 | 0 |
Карелы | 60 | 0 |
Нанайцы | 60 | 0 |
Удегейцы | 60 | 0 |
Ульчи | 60 | 0 |
ВСЕГО | 1 380 | 987 |
Опубликовано в специальном выпуске журнала «Кот Шрёдингера» за октябрь 2017 г.
Подписаться на «Кота Шрёдингера»