Один человек сдал три коммерческих ДНК-теста и получил три разных этнических профиля. Скандал? Мошенничество? Нет — просто три разных ответа на три немного разных вопроса.
История, которая регулярно появляется в интернете: человек сдаёт тест на этническое происхождение в трёх разных компаниях — Ancestry, 23andMe и MyHeritage, — и получает три разных результата. В одном 40% скандинавского происхождения, в другом 22%, в третьем 31%. Или один тест показывает 15% еврейского (ашкеназского) компонента, другой — 8%, третий — 19%. «Это всё обман», — делает вывод возмущённый пользователь. Или: «Тест показал, что мы с сестрой совпали только на 23%, хотя мы родные. Неужели возможно?»
Ни в первом, ни во втором случае нет ни обмана, ни аномалии. Есть несколько фундаментальных особенностей того, как работают ДНК-тесты, о которых производители рассказывают недостаточно подробно — и которые критически важно понимать всем, кто использует ДНК-тестирование для генеалогии, поиска родственников или планирования деторождения.
Современные коммерческие ДНК-тесты (23andMe, Ancestry, MyHeritage, Family Tree DNA и другие) как правило используют метод SNP-генотипирования. SNP (Single Nucleotide Polymorphism — однонуклеотидный полиморфизм) — это позиция в геноме, где у разных людей встречаются разные варианты нуклеотида. Тест не читает весь геном (это было бы дорого) — он «смотрит» на несколько сотен тысяч или несколько миллионов конкретных позиций, заранее выбранных для анализа. Разные компании выбирают несколько разные наборы позиций — это первый источник различий.
Полученный набор данных (ваш SNP-профиль) затем сравнивается с референсными базами данных. Референсная база — это набор образцов от людей, которых компания классифицировала как представителей определённых групп (например, «британцы», «скандинавы», «ашкеназские евреи»). Алгоритм ищет, на какие группы ваш профиль больше всего похож. Разные компании используют разные референсные базы — с разным составом и разным размером. Это второй источник различий.
Допустим, компания A включила в свою «скандинавскую» референсную группу преимущественно людей из Норвегии и Швеции с задокументированными предками на несколько поколений. Компания B включила туда же людей из Дании, Финляндии и части Прибалтики. Это уже другая база — и она будет выдавать немного другие результаты для одного и того же генома.
Кроме того, размер базы имеет значение. Если в референсной группе «польской» популяции всего 300 человек — алгоритм будет работать хуже, чем если там 30 000. Маленькие базы не охватывают реального разнообразия внутри популяции. Это особенно заметно для малых, исторически изолированных или недостаточно представленных в коммерческих базах популяций: евреи-мизрахи, курды, берберы, многие южноазиатские группы — их результаты менее надёжны, чем для западноевропейских популяций, которые в базах представлены хорошо.
Здесь начинается действительно интересная техническая часть. LD (linkage disequilibrium — неравновесное сцепление) — это явление, при котором определённые варианты SNP встречаются вместе чаще, чем ожидалось бы при случайном сочетании. Причина проста: если два SNP физически близко расположены на хромосоме, они передаются по наследству вместе на протяжении многих поколений, и рекомбинация (перемешивание хромосом) их редко разделяет.
Паттерны LD в разных популяциях различаются — потому что разные популяции прошли через разные события (основательские эффекты, бутылочные горлышки, периоды изоляции), которые создали разные паттерны «блоков» ДНК. Это означает, что одна и та же последовательность SNP может быть интерпретирована по-разному в зависимости от того, какую структуру LD алгоритм ожидает увидеть.
Именно поэтому современные академические исследования всё чаще переходят к многоанцестри (multi-ancestry) моделям. Вместо того чтобы присваивать каждому сегменту хромосомы одну «этническую метку», такие модели пытаются учесть, что геном человека — это мозаика компонентов, которые могли прийти из разных источников в разное время, и что граница между компонентами размыта. Это точнее — и это сложнее коммуницировать потребителям, поэтому коммерческие тесты часто продолжают давать простые процентные разбивки.
Это один из самых часто задаваемых вопросов: «Мы с сестрой родные, но тест показал 23% общей ДНК. Это нормально?» Да, абсолютно нормально. И вот почему. Вы с сестрой получили по 50% ДНК от каждого родителя — но не одни и те же 50%. Процесс мейоза (деление клеток при образовании половых клеток) включает рекомбинацию — случайное перемешивание хромосом. Какие именно сегменты перешли от дедушки, а какие от бабушки — в каждом случае определяется случайно.
В результате полные братья и сёстры имеют в среднем 50% общей ДНК — но с довольно широким разбросом. Реальный диапазон для полных сибсов (братьев/сестёр) составляет примерно от 38% до 61% общей аутосомной ДНК. 23% — это уже за нижней границей нормального диапазона для полных сибсов. Если тест показал 23% — это либо значит, что вы полусибсы (один общий родитель), либо ошибка или особенность алгоритма конкретного теста. Это повод перепроверить, а не повод для выводов о «несовпадении».
В контексте выбора донора или со-родителя иногда звучит вопрос о «генетической совместимости». Важно разграничить два принципиально разных понятия. Первое — этническое или популяционное сходство: насколько два человека близки по своим предковым компонентам. Это информация о происхождении, но она не предсказывает состояние здоровья ребёнка и не определяет его черты. Второе — медицинская генетическая совместимость: являются ли оба партнёра носителями патологических рецессивных вариантов одного и того же гена. Если да — ребёнок с вероятностью 25% унаследует два копии варианта и может заболеть.
Тест на носительство (carrier screening) — это реальный, клинически значимый тест. Он исследует конкретные медицински задокументированные варианты: муковисцидоз, спинальная мышечная атрофия, болезнь Тея-Сакса, серповидноклеточная анемия и сотни других. Это то, о чём стоит думать при планировании деторождения — и это несопоставимо важнее «этнического профиля» с точки зрения здоровья ребёнка.
Несколько практических выводов из всего сказанного. Первый: процентные разбивки «этнического происхождения» — это приближённые оценки, основанные на конкретной референсной базе конкретной компании. Они полезны как отправная точка для генеалогического поиска, но не как абсолютные данные о «составе» вашей ДНК. Второй: разные компании дают немного разные результаты — это нормально, не значит, что кто-то ошибается. Третий: для медицинских целей (планирование деторождения, оценка рисков заболеваний) нужен специализированный клинический тест, а не коммерческий потребительский. Четвёртый: совпадение с родственниками по проценту общей ДНК — это диапазон, а не фиксированное число.
ДНК-тесты — замечательный инструмент для генеалогии и понимания собственного происхождения. Они реально работают и дают реальную информацию. Но эта информация имеет конкретную природу и конкретные ограничения. Разные результаты в разных тестах — это не мошенничество и не ошибка. Это отражение того, что разные компании используют разные алгоритмы и разные базы для ответа на похожий, но технически не идентичный вопрос. Понимание этих нюансов не уменьшает ценность тестов — оно позволяет использовать их более осознанно.
SNP (Single Nucleotide Polymorphism) — однонуклеотидный полиморфизм; позиция в геноме, где у разных людей встречаются разные варианты нуклеотида. Основная единица анализа в коммерческих ДНК-тестах.
LD (Linkage Disequilibrium, неравновесное сцепление) — явление, при котором определённые варианты SNP встречаются вместе чаще, чем ожидалось бы случайно. Паттерны LD различаются между популяциями и используются для их идентификации.
Референсная база — набор образцов ДНК от людей, классифицированных как представители определённых популяций. Качество и состав референсной базы напрямую определяют качество результатов теста.
Аутосомная ДНК — ДНК 22 пар несексуальных хромосом (хромосом 1–22). Именно её анализируют коммерческие тесты на этническое происхождение. Отличается от Y-хромосомы (передаётся только по мужской линии) и мтДНК (передаётся только по материнской).
Тест на носительство (carrier screening) — клинический генетический тест, определяющий, является ли человек носителем рецессивного патологического варианта конкретного гена.
Тысячи людей уже строят семьи на своих условиях.
Смотреть анкеты