読者です 読者をやめる 読者になる 読者になる

ミームの死骸を待ちながら

We are built as gene machines and cultured as meme machines, but we have the power to turn against our creators. We, alone on earth, can rebel against the tyranny of the selfish replicators. - Richard Dawkins "Selfish Gene"

We are built as gene machines and cultured as meme machines, but we have the power to turn against our creators.
We, alone on earth, can rebel against the tyranny of the selfish replicators.
- Richard Dawkins "Selfish Gene"

ライフサイエンス統合DBプロジェクトの中に乗り込んできた

bioinformatics Bio (Informatics) life Science DBCLS


ライフサイエンス統合データベースプロジェクト-統合ホームページ-LSDB


坊農秀雅先生*1が中心になって進めているライフサイエンス統合データベースプロジェクト, a.k.a. DBCLS (Database Center for Life Science)本部(?)の見学に行ってきた。with id:wakuteka。今月頭に生化学若い研究者の会の夏の学校に参加したとき初めてお会いしまして、遊びにおいでよといわれたので本当に押しかけてみた次第。


ライフサイエンス統合データベースプロジェクトって何よ


このエントリのOpen Data Accessの項でも書いたが、実験によって集められたデータはWeb上に保存され、誰でも使うことが出来る。


しかし、現状のデータベース事情にはいろいろと問題がある。僕は有名どころのデータベースをちょろっと使うだけなので意識していなかったのだが、DBCLSのパンフレットと聞いた話からざっと抜き出してみると、

  • DBの所在や利用法がわからない
  • DB構築、維持の人材不足
  • 中長期戦略がない。プロジェクト単位で構築されたDBがなかなか公開されず、プロジェクトが終わると放置。
  • 遺伝子の定義もあいまいなまま
    • 同じ検索してもデータベースごとに違う結果が返ったりする
  • トレーサビリティがひどい。
    • 遺伝子を同定した細かい実験条件がわからないから、DBから取ってきたあと再実験からはじめざるを得ない。牛肉以下。
  • 遺伝子発現など、DBはあるけど活用しきれてないデータがたくさん


などの問題がある。DBCLSはこの現状に対し、

  • 将来の基盤となるシステム・戦略を構築
  • ポータルサイトの構築、放置DBの救出
  • 日本語による情報流通(英語がエライわけじゃない!)
  • ライフサイエンスデータベース構築を担う人材の育成


という戦略をとる5年プロジェクト*2。場所は東大本郷キャンパス、しかし東大の組織ではないというなんとも変わったところ。中は超少人数でした。今年は特に布教に専念しており、id:wakutekaも7月に東大で開かれた講習会に参加し、そのツテで今DBCLSでバイトしてる。いいな。


基盤がきちっと整っていないとその上の発展も望めないため、誰かがやらないといけない仕事だな、という印象を持った。むしろ、土台がこんなにも不安定であることを知らなかったのが恐ろしい。
Wet系の研究者はデータベースの細かい使い方を勉強する人はあまりいなくて、あるものを基本機能だけ使ってる感じだ。そんなWetな人が参加すると幸せになりそうなデータベースの使い方講習会を各地で開催。今年度の秋か冬に、Titechでもやるらしい。楽しみ。


メタデータベースが壮観すぎる


生命科学系データベース カタログ


メインコンテンツのひとつ、データベース一覧がすごい。JavaScriptを使った操作性がまたいい><これだけ集まると壮観。というか、こんなにあったんや、というのが正直なところ。
毎日叩きに行って、使えない場合は

こんな感じにエラー表示。いいな、これ。


Allieが便利すぎる


Allie : Search Top

略語の定義をPubMedの文章から検索してくるサービス。この定義を最初に使ったのは誰かがわかるし、別の語がたまたま同じ略語になっていた場合でも、文脈ごとに分けて集計される。
定義を調べるだけならちょっとがんばってググればいいけど、そのまま定義もとの論文を読みたい僕のような性格の人にはうれしい。


MDシミュレーションがdisられすぎる


僕の研究テーマであるところの分子動力学シミュレーションですが、
ニュートン力学しか考慮していない。せめてフロンティア軌道くらいは考慮して欲しい*3」「前提条件から崩れるかもしれないものをやってどうするの」「実験と一致するよ、としか言えない」
などと突っ込まれた。

最近は(就活充だったので)分野外の人に説明するばかりだった。でも修士テーマとして研究する以上、こういった鋭い突っ込みにも対応できるように理解を深めなきゃならん、ということを思い出した。

Why Sequence?


ゲノム情報は細かい間違いがあるかもしれないけど確固たるデータ。タンパク質の立体構造、遺伝子発現情報などは新しい分野ではあるがまだ理論がしっかりしてない。その点配列情報はただの文字列なので、揺るがない。しかも宝の山。宝の山がゴミで見えなくなるのはもったいない。


統合TVが画期的すぎる


統合TV (togotv)


動画によるデータベースやウェブツールの使い方のコンテンツ。すばらしい。
おなじみのDBCLSの各コンテンツの説明も動画で載っているものが多いし、データベースの使い方講習会の内容もムービーで保存されているし*4。リッチ万歳。


Wet系の実験手順でも動画が公開されてればいいな。たいていwetの実験技術は師弟関係の一子相伝状態か、もしくは内部マニュアルとして紙orデータで保存されている*5。内部資料として実験手順を動画で解説する研究室もあるんだけど、外部から参照できないので、正直もったいない。


坊農先生がフリーダムすぎる


「AJACS講習会、ust中継していいんですか?」「なんでダメなの?」
「PLoS、査読がないので信頼できるのかなと*6」「そういった考えには賛同できない*7
「今日のことブログに書いていいですか?」「むしろ書いて欲しいよ」


研究に何を求めるか。

理想論かもしれないが、フリーダムに、オープンに研究して食ってけるなら、そんな環境が出来ているなら、絶対そのほうが(科学の発展という意味で)時間の無駄にならないし、気苦労がない。


インパクトファクターの高い雑誌に論文を載せて偉く見られたいのか、知識を共有して科学の発展に貢献したいのか。現状として、いいトコに論文出して研究者として評価されないとそもそも研究費もらえないし食ってけないし食わしていけない。


「世界のどこかでやられた研究は即座に共有されるべき」と(身の程知らずにも)思っている僕は、かつて「卒研発表ustしていいですか」と聞いて助教さんにダメ出しされた。まぁこれは馬鹿だったけど、既に科学の世界で食ってける立場になった先輩が自分と似た考えを持っており、実際にプロジェクトを走らせていることを知って、うれしかった。


科学まだだ。まだ終わらんよ。


戯言


研究を取り巻くローカル事情に失望していわゆる文系職に就くのも良いが、凝り固まったサイエンスの世界を下から壊して行く仕事もいいな、と思った。もし僕が行き場をなくしたら拾ってくれるらしい。
幸運なことに、僕を拾ってくれる所がたくさんあって、就活失敗してもぷー太郎にはならないようだ。安心してこれから一年足らずの短い間科学の外の世界を見ていきたい。

そして、僕はオープンかつDryなバイオインフォマティクスが好きだ。科学の道に進むならこの方向だ、とほぼ確信した。


…とりあえず明日も、インターンで英会話がんばります(`・ω・´)シャキーン

*1:先生と呼ばれるのはあまり好きではないらしい

*2:いま3年目

*3:考慮した計算理論は一応あるみたいだが、遅い上、MD複数回やってアンサンブル平均とったほうがまだ正確なくらい

*4:このデータが膨大なので、4TBのHDDが3,4台置いてありました

*5:たまーにwebにテキストを公開してる研究室もあるけど、体系的なマニュアルはあまりない

*6:Publicd Library of Science. 正確には、査読がないのはPLoS ONEで、その他はちゃんと査読されます

*7:発言を端的に書くと厳しい言い方に見えるな><