論文不正の告発を受けた東京大学(2) その解析方法の衝撃
前回の記事で、東京大学が今回の告発を受けてどこまで調査をひろげるのかを論点にした。告発された教授の中には10年にわたる7本の論文で疑義が指摘され、常習性が疑われる。東京大学分子細胞生物学研究所の加藤茂明氏(当時は教授)が告発されたときは、指摘された24本だけでなく、東大在籍中の全論文の調査をし、結果、51本の論文に「不適切な図がある」と判定されている。今回も、仮に告発書にあった複数の論文が不正と判定された場合には、同じように全論文調査を検討してほしい。
今回の記事では、告発書に使われていたまったく新しい解析方法について紹介したい。論文に載っている棒グラフや折れ線グラフなどから、もとの観測値を復元しているのだ。この手法を使うと、これまでは見つけることのできなかった不正をあぶり出すことができる。こうした解析方法が存在すること自体が、捏造常習者には脅威となるはずだ。
従来の不正検出方法
前回の記事を書いている間に朝日新聞がまたも東京大学の不正告発のニュースを報道していた。医科学研究所の教授が責任著者になった論文についての告発を10月13日に受理し、予備調査に入るという。記事によれば2011年発表の論文で、すでに撤回を申し出ているらしい。出版済みの論文を公開で議論をするPubPeerで指摘されていた論文のことだろう。きわめて似た写真が図2と図3で使い回しをされているという指摘があったのが7月末。9月になって著者から、手違いで図2にも図3の写真を入れてしまったという説明があった。しかし、ほかの写真からも切り取ったような跡などを次々と指摘され、結局、著者が10月7日に論文の撤回を申し出たことを報告している。
上のPubpeerでの疑義の指摘は、画像の使い回しや写真に見える不自然な直線(切り貼りの痕跡として疑われている)などを挙げている。これは文章のコピペ(コピー&ペースト)の指摘と並んで、以前からよく見られる解析手法だ。
夏に東大に届いた6人の教授による22本の論文に疑義を唱えた告発書でも、こうした画像の不自然さの解析は使われている。しかし、それだけではない。これまでになかった新しい解析法が使われている。論文に載っているグラフから、もとの実験データの数値を復元し、その不自然さを指摘しているのだ。
グラフからデータの数字を復元
例を1つあげよう。告発された論文の中にマウスの生存曲線を示した図がある(下の図は論文そのものの図ではなく、なるべく似せて作ったイメージ図)。肥満や糖尿病にかかわると思われる2つの遺伝子の一方、あるいは両方を欠損したマウスと通常のマウスを使い、マウスの寿命を比べた実験だ。グループごとに50〜29匹でスタートしたこの寿命実験では、300日目あたりから徐々に死亡するマウスが出て、だんだんと数が減っていく。800日を超えるころには通常のマウスはそれでもスタート時の8割弱が生き残っているが、2つの遺伝子が両方とも欠損したマウスでは2割強しか残っていない。
上の文章で、私は「300日目あたり」とか「8割弱」とあいまいな表現を使った。もとの数が最大でも50匹なので、1匹死亡するごとに階段状に下がり、曲線になるわけではない。それでも、誌面では縦・軸がそれぞれ数センチほどしかない。定規を当ててグラフの数字を読み取ろうとしても、限界がある。マウスの死亡日が730日目なのか731日目なのかを判別するのはまず不可能だ──紙に印刷されたグラフ、あるいは上のイメージ図のように「画像データ」になった図では。
現在では、ほとんどの科学論文は紙の冊子だけでなく、PDFファイルとしてダウンロードして読むことができる。そしてPDFに載っているグラフや図には、実は2つの形式がある。1つは「画像データ」で、もう1つは「ベクトルデータ」だ。後者のベクトルデータであれば、もとのデータ(上の例であればマウスが何日目に死んだか)を復元できる。
2つのデータ形式の違いは拡大すれば一目瞭然だ。画像データ(PNGやTIFF,JPEGなど)は拡大すると線がぼやけるがベクトルデータの図ではシャープなままだ。試しに800日のあたりを拡大した画像データの図とベクトルデータの図を載せる(注1)。
なぜベクトルデータでは、拡大しても線がぼやけないか? それは、平面上のどの位置からどの位置に何色を線を引くかなどを計算式として持っているからだ。PDFファイルではその計算式の情報を読み解いて、指示通りに表示しているに過ぎない。
個々のPDFファイルのベクトルデータは、作図ソフトなどで書き出すことができる。そしてこの情報から、グラフの原点の位置と各データの位置(上のグラフならば、階段状にグラフが下がる場所)を読み解けば、個々のマウスが何日目に死亡したのかをほぼ正確に復元できる。
今回の告発では、このようにして論文掲載のグラフから元データを復元している。すると、700日目、710日目……790日目などと末尾がゼロになる日に死亡するマウスが不自然に多いとし、本当に実験に基づいたデータであるかどうかを疑問視している。
これが例えば7日おきに生存マウスが減るのであれば不自然ではない。マウスの寿命を調べる数年にわたる実験なので、毎日マウスを見る必要はなく、曜日を決めてチェックすれば、データとしては7日おきに死亡するようになる。神社の縁日のように末尾が「0」の日を観察日としても良いのかもしれないが、それならば31日まである月をまたぐたびに実際の経過日数はズレていくはずだ。だが、データはそうはなっていない。
今回の告発では、同じ方法でグラフから元データを復元し、さまざまな不自然さを指定している。ある論文では特定の細胞株の増殖曲線が、別の2つの株の平均値と一致していた。また別の論文では、誤差を示すエラーバーの長さがほぼ同じ3種類のどれかになる観測点がほとんどであった。
これらの指摘はいずれも、これだけでは不正と判定することはできない。どれほどあり得なさそうな不自然なことも「偶然が何度も重なって本当に生じる」可能性は常にゼロではないし、グラフが真正のものでなかったとしても、捏造や改ざんではなく、単なるミスかもしれない。
不正かどうかは生データと付き合わせればわかる。東大は調査をすると発表したので、いずれはその結果がわかるだろう。
コロンブスの卵
私は科学雑誌の編集部にいた時代に、パソコン上でレイアウトした誌面をPDFファイルに変換する実務を担当していた。だから、画像データとベクトルデータの違いは知っていたし、ベクトルデータでは誌面上の位置情報をもとに点や線、曲線などを指定していることも知識としては知っていた。だが、今回のようにベクトルデータの情報からグラフの元データを復元できるとは、まったく思いもつかなかった。
この手法はまさに「コロンブスの卵」だ。ゆで卵の底をちょっと凹ませることは誰でもできるし、そうすればゆで卵を立てられることもすぐにわかる。だが、この手法を“知らなければ”なかなか思いつかない。逆に言えば、知ってさえいれば、誰にでもゆで卵を立てることが簡単にできる。
告発対象の論文やベクトルデータの抽出ができるソフトは有償だが誰でも入手できる。研究者ならばこのソフトは持っている人が多いだろう。抽出したデータの解析は私のような素人には無理だが、自分でコードを書いたり、プログラムを組めるレベルの人であれば、おそらく元データの再現ができるだろう。
面倒なデータ解析をしなくても、画面上で告発者の指摘を検証できるものもある。ベクトルデータの図は、Adobe Illustratorなどの作図ソフトで開くと、誌面上では1枚に見えるグラフが、X軸、数字、棒グラフのデータの棒の枠、塗りつぶしにするための黒い長方形、エラーバーを構成する横棒と縦棒など、いくつもの構成要素(オブジェクト)から成り立っていることがわかる。そして、個々のオブジェクトをずらしたり、消したりできるのだ。
告発の対象になった論文で、棒グラフのデータ本体の棒を横にずらしたり削除したりすると、エラーバーがデータの下に埋め込まれていた例が多数あった。また、本来であれば1枚の図であるはずなのに複数のパーツからできていたり、あるパーツを90度回転させると、別の図でのパーツに酷似していたりする。
推理小説のようだと思った例を紹介しよう。エラーバーが奇妙に歪んだ状態であることから「元の図をわずかに回転させた上で、縦方向に拡大した」と推測したグラフだ。論文のグラフのエラーバーは、縦棒と横棒が、X軸・Y軸と平行になっていない上、互いに直交もしていない(下の図の右端。わかりやすいように強調している)。
回転させれば、エラーバーの縦棒と横棒は傾いて水平・垂直ではなくなるが、互いに直交したままのはずだ(図の真ん中)。しかし、そこから縦方向に拡大すると直交ではなくなる。これで論文の歪んだエラーバーと同じ姿になる。
グラフをレイアウトに合わせて縦方向や横方向に拡大・縮小するのはもちろん何の問題もない。グラフを回転させる理由はあまり思いつかないが、X軸やY軸ごとの回転であれば、データの真正さは保たれる。ただ今回の指摘では、X軸・Y軸は水平・垂直になっているのに、エラーバーだけがそうなっていない。データだけがわずかに傾いている可能性が疑われるのだ。
縦軸と横軸の交叉具合から縦方向への拡大と傾けた角度を割り出し、もとの状態に戻すように逆の操作(反時計回りの回転と縮小)をすると、元の姿にもどすことができる。すると、時間の経過とともになだらかに下がっていくように見えるグラフが、ずっと変化していないグラフになる。
このグラフに関しては、そもそもデータを示すはずのグラフ上の点が、個々のデータ点ではなく、折れ線グラフを実線ではなく破線で描いたときの「……」になっていた。このため、破線の太さを変えるなどすると、個々のデータ点がずれるという珍現象が起きる。
キリの良い日だけに死んでいくマウスや、別の2つのデータの平均値とぴったり一致するデータ、繰り返し現れる特定の数値のエラーバー、グラフ全体が破線などは、本当に実験が行われていたのかさえ、疑問が生じてくる。しかし、ベクトルデータでないと解析できず、今回のような手法が使われることがなければ、おそらくその不自然さにまず気づかないだろう。
繰り返すようだが、これらの不自然さが直ちに「不正の証拠」となるわけではない。しかし、これまで見つけ出す方法のなかった不正をあぶりだす新たな解析方法が告発者によって発見されたと言ってよいだろう。
注1:このブログは画像データ形式の図しか載せられないため、私のパソコン上でPDFのベクトルデータを拡大し、そのスクリーンショットの画像データを載せている。
注2:マウスの生存曲線グラフのごく一部(全体のおそらく1/50くらい)の情報を記すと以下のようになっている。誌面を座標として見ていることが読み取れる。
<clipPath id="clip-path-2" transform="translate(-24.49-207)"><rect class="cls-1" x="36.5" y="207" width="575" height="347"/></clipPath><clipPath id="clip-path-7" transform="translate(-24.49-207)"><rect class="cls-1" x="65.5" y="220" width="468" height="306"/></clipPath>
関連記事