家系図をビジネスにするGeni.comが21世紀の医学を担う。

(写真:Splash/AFLO)

家系図への関心

ずいぶん昔、奴隷としてアメリカに連れてこられた親子3代の歴史を描いたテレビ番組が大ヒットしたのを覚えておられるでしょうか。様々な国からの移民により社会が形成されているアメリカならではの話だと思いますが、わが国でも、名前や自分の先祖に関するテレビ番組は根強い人気があるようです。もちろんお隣の韓国のように、家系を重視するがゆえに夫婦別姓が原則で、各家庭の系図が頻繁に出版されている国もあります。

もちろん、役所に管理されている戸籍を追跡すれば現在でも家系図をかなりの程度で書くことができるはずです。しかしどの国でも、戸籍は厳重に管理されており、それを科学目的で公開するなど、ご法度だと思います。

ゲノム研究が正確な家系図を必要とする

しかし人間のゲノム(DNAを媒体とした全情報)解析が可能になることで、この家系図の重要性が一段と増してきました。家族関係がわかっていると、ゲノムデータの情報処理が格段に容易になるからです。特に最近、様々な病気や健康に及ぼす遺伝と環境の影響を調べる大規模研究が行われるようになっていますが、家族関係がわかっているデータは大変重宝されます。

一つの例ですが、ゲノム解析のベンチャー企業デコード社はもともと米国で設立されましたが、国民の系統関係がよくわかっているアイスランドに本社を移し、ゲノム解析を行って病気のリスクを調べています。私の想像ですが、韓国のように家系図が出版され利用できる国でも、ゲノムデータの解析精度は、格段に上がるのではないでしょうか。

家系図をビジネスにする

科学が正確な家系図を求めている状況はわかっていましたが、今日紹介するニューヨークゲノムセンターからの論文を読むまで、個人の自己申告による家系を集めて世界規模の人間のつながりをしらべビジネスにしている会社があるとは全く知りませんでした。今日話題にするのはGeni.comという会社ですが、他にもいくつかあるようです。ウェッブで質問に答えてもらう形で、会員の家系図を集めます。集めた個別の家系図を今度はコンピュータを使ってつないでいって、大きなネットワークに仕上げます。すでに一億におよぶ家系に関するプロファイルが集まっているらしく、そのうち半分近くは他のプロフィルと連結されているようです。言ってみれば「世界はみな家族」であることを利用した面白い会社です。ビジネスとしては、会員の親戚やルーツを有料で探すのが中心のようですが、集まったデータを考えると、ポテンシャルはもっともっと高いように思います。

Geni.comのデータを科学データに

今日紹介したい論文は、こうしてGeni.com社に集められた自己申告によるデータから、さらに信頼度の高い新しいデータセットを抽出すると、様々な医学的、社会的課題の科学的解析に使えることを示した研究で、4月13日号の Scienceに掲載されています(Kaplanis et al, Quantitative analysis of population-scale family trees with millions of relatives(何百万人もの親戚が集まっている集団スケールの系統図を定量的に解析する), Science 360:171, 2018:DOI: 10.1126/science.aam9309)。

自己申告をもとに民間が集めているデータなど不正確で役に立たないと言ってしまえば簡単です。しかしこのグループは、ここに集まるデータの価値に気づき、少々問題はあっても、ソフトを改良し信頼できるデータを抽出できれば、多くの用途に使えることに気づいたのです。この研究は、これを思いついた時点でほぼ完成したように思います。

研究の概要

研究では、まず会社(Geni.com)と交渉し、一定の条件でデータと、登録した人たちにアクセスできる許可を得ています。そして、家系図上の矛盾(例えば母親が二人になること)を見つけて排除し、さらに信頼度の高いデータセットを抜き出すソフトウェアを開発し、人間、家族、家系のつながりを、時代を超え、世界規模で調べられるデータベース構築に成功しています。

さらにこの系統図の精度を検証するため、女性の系統を代表するミトコンドリアゲノムと、男性の系統を代表するY染色体のプロフィルを211系統の会員について調べ、自己申告によるデータが、母親の記述についての間違いは0.3%、父親でも1.9%にとどまることを確認しました。こうしてアカデミアの協力を得ることで、Geni.com も自分のデータから十分信頼の置けるデータを抽出できることを示し、おそらくビジネスとしても成功したと思います。驚くのは、このデータが何世紀にもわたる家系をカバーできていることで、世界中の個人個人がネットでつながることで、これまで考えられなかった可能性が生まれることを証明しています。

例えばどんな調査が可能になるのか?

この研究では、こうして仕上げたGeni.comのデータがいかに有効かを示すために、年代別の死亡数を200年にわたって算出し、アメリカで例えば南北戦争、第一次、および第二次世界大戦で若者の死亡率が突然上昇するのがはっきりとわかることを示しています。さらに人が死ぬ場所が世界のどこに集中しているか、世界地図上にプロットして見せています。今生きている私たちが、いつかはこの点としてデータベースに残っていくのだと思うと、不思議な気持ちがします。

もちろん家系図が得られたのですから、遺伝の影響についても調べられます。これを示すため、この論文では寿命はどの程度遺伝的影響を受けるのかを算出しています。要するに長寿家系がどの程度あるのかを調べるわけです。このデータベースに限れば、寿命に対する遺伝的影響は、これまでの研究と比較してそれほど強くないこともわかりました。これはマクロで見た結果で、食生活などの環境条件を揃えてみれば、もちろん遺伝的要因にも左右されると思います。今後、このようなデータベースが、自己申告による環境要因もカバーし始めると、鬼に金棒になるように思います。

面白いところでは、結婚相手がどれほど広い範囲から選ばれるのかについての調査も行っています。予想通り、時代が進むにつれ、相手が選ばれる地域の範囲が広がっていくことがわかります。そしてこのデータベースを用いれば、結婚で移動する距離が長いのはもっぱら女性であることもわかります。それも、17世紀からこのような傾向を算出できるのです。全生物の共通祖先を予言したダーウィンでも、こんな時代が来るとは夢にも思わなかったのではないでしょうか。

コレクティブインテリジェンス

論文に示されたデータは、社会学的にも、医学的にも大変重要なデータだと思います。今後このデータベースは、医学・社会学、あるいは教育学にまで科学的なデータを提供し続ける予感がします。

この論文を読んで2つのことを考えました。一つは、家族の系統というこれまでプライバシーの本丸として行政も公開しないデータベースが、ウェッブを使っていとも簡単に集められることに気づいたGeni.comの創業者たちと、これを科学に使えると考えた著者たちの先を見通す目です。このようなサイトとその科学利用には今後もプライバシー問題が指摘されると思いますが、怯まず前進して欲しいと思っています。

もう一つは、21世紀がコレクティブインテリジェンス、すなわち多くの人が集まって知を形成する時代になるという予感です。上から下への階層社会から、ピア・ツー・ピアネットワークを使った、誰でも科学に参加する時代をこの論文に感じました。