ミームの死骸を待ちながら

We are built as gene machines and cultured as meme machines, but we have the power to turn against our creators. We, alone on earth, can rebel against the tyranny of the selfish replicators. - Richard Dawkins "Selfish Gene"

We are built as gene machines and cultured as meme machines, but we have the power to turn against our creators.
We, alone on earth, can rebel against the tyranny of the selfish replicators.
- Richard Dawkins "Selfish Gene"

バイオのデータベースを使う人、使われる人、使えるのかどうかわからない人。


去る1月23日、AJACS(All Japan Annotator/Curator/System DB administrator)勉強会に参加してきた。

AJACS7 - MotDB
統合データベース講習会:AJACS長津田 開催 - 統合ぐらし(2009-01-23)


以前坊農さんのラボ(?)に突入したときのレポートは以下。もう半年近く前なのか...。

ライフサイエンス統合DBプロジェクトの中に乗り込んできた - ミームの死骸を待ちながら

内容としては、黒川先生と中村先生のプレゼンを挟みつつ、

ライフサイエンス統合データベースプロジェクト-統合ホームページ-LSDB

ここの使い方を紹介していく形。以下、メモ。


スケジュール

午前:講演+講習 10:30-12:30
時間 講演者 所属 題目
10:30-11:00 坊農秀雅 ライフサイエンス統合データベースセンター 「統合データベースプロジェクトとは?」
11:00-11:30 黒川顕 東京工業大学大学院生命理工学研究科 ゲノム大航海時代
11:30-12:30 河野信 ライフサイエンス統合データベースセンター 「データベースを使いこなすための最低限のコンピュータ使いこなし術」
午後:講習 14:00-17:30(統合データベースプロジェクトで提供しているサービスの使い方実習)
時間 講演者 所属 題目
14:00-15:00 川本祥子 ライフサイエンス統合データベースセンター 生命科学横断検索の利用法」
15:00-15:30 藤枝香 ライフサイエンス統合データベースセンター 「アナトモグラフィー/BodyParts3Dの利用法」
15:30-16:00 休憩
16:00-16:30 仲里猛留 ライフサイエンス統合データベースセンター 自然言語処理技術の活用実例」
16:30-17:00 中村保一 国立遺伝学研究所かずさDNA研究所 「Kazusa Annotation Suiteの活用」
17:00-17:30 小野浩雅 ライフサイエンス統合データベースセンター 「遺伝子発現データの活用実例」

坊農さん 「統合データベースプロジェクトとは?」

前回とかぶる部分もあるのでさらりと。Keynoteのプレゼンかこいい

日本のデータベース、4つの問題点
  • 散在しており、どこになにがあるか分からない
  • 大規模プロジェクトが行われても、成果公開不十分
  • 構築・管理ばらばら=>検索解析応用が困難。統合化されてない
  • 人材の不足
  • 一番の問題は長期的なDB戦略がないこと。
    • そこでDBCLSの出番!
DBCLSの基本的考え方
  • 統合DB構築は完結しないプロセスである
    • 何年で完結、というものではなく常に進化し変化するプロジェクト
  • 研究開発の生産性向上を目指す(一つに統合するだけではない)
    • 統合DB≠決定版・唯一・最終DBを構築する
  • DB化されないものも扱いやすく
    • 論文とか図とか
  • サービス事業である
    • 研究というよりも。

黒川先生 "ゲノム大航海時代"


物理と化学は原理から計算。一方、分子生物学は蓄積データから知識や経験則を見出す。
したがって、データベースが重要なのです。

  • J.Craig Venter Instituteの話。ベンター!!
    • セレラ社の利益で研究所
    • 1000$ゲノムに賞金, High Throughput sequencer
    • 結果として、1回でGiga baseレベルで出てくるシーケンサーが登場
  • 黒川先生の研究: メタゲノム解析
    • # 延長された表現型
  • Venter、世界旅行海からサンプルしてメタゲノム
  • さらにすごいマシンが....PacBio
    • 100Gbp / hr
    • Human geneme 4hr
    • 2010発売予定

化け物か。


大航海時代とはすなわち、何があるか分からなくても、とりあえず出て行ってみる時代。ゲノム解析がより速くより身近なものになると、これからのバイオはゲノム大航海時代に突入するであろう、と。


講習1. "「データベースを使いこなすための最低限のコンピュータ使いこなし術」 "


DBCLSのコンテンツをざっとさらう。特に興味を引かれたものは、

後はPC操作、検索Tipsの本当に基礎の基礎とか、Pubmedの使い方などをやる。

  • 検索してcreate feed*1.
    • Pubmedの検索結果を定点観測する」

川本祥子さん 「生命科学横断検索の利用法」


IT的、とくに検索エンジンの技術的な話。


#H18情報通信白書
#http://mashupaward.jp/
#『Googleを支える技術』

セマンティックウェブとか、ソーシャルブックマークについて。SBM使ってる人挙手=>僕とid:bak_a_mono さんの二人。もはや空気のようになっているはてブについて改めて説明されると変な感じだ


生命科学DB横断検索

正統派。


藤枝香「アナトモグラフィー/BodyParts3Dの利用法」


眠気が爆発した。
すみません。


小休止


眠気を覚ますため、休憩時間を利用してぶらぶら散歩。
と、同じく講習会に参加していた、I先生の研究室に所属する女の子と出くわす。久しぶりに話す。

「そういや研究室移ったのは言ったっけ」
「え、そうなの?今なにしてんの?」
「シミュレーション系の研究」
「じゃあもう実験はしてないんだ」
「一年で実験極めたからね」
「まじで?すご」
「僕が大腸菌いじるとことごとく死ぬから」
「使えねー超使えねー」


ひととおり貶された後は自販機コーナーへ。(あ、違った。順番逆だ)


コーヒーを買っていると研究室の先輩*2に遭遇。就活の話など。昨日も一社コンサルの結果きましたよ、というと

「スゲーのとこ?」
「スゲーのとこです」
「スゲーのとこか」


なんだその代名詞*3


小休止、おわり。


仲里猛留さん「自然言語処理技術の活用実例」

  • PubMedで All[Filter] で登録されているすべての文献が見れる
    • 18599009件。約2000万件。
    • Sort by PubDateで、一番昔は何年の論文かがわかる。
    • 1866年が最古。PubMedは昔のも入れていってる。
    • ちなみに2500年とか2080年の論文があります。未来派だなぁ
  • Gendooの使い方...Gendoo - ヘルプ
    • Gendooは(Gene, desease features ontology-based overview system)の略で*4、遺伝子や疾患について、関連する疾患や薬剤、生命現象、臓器などの情報をキーワードで表示するシステム。

中村保一先生「Kazusa Annotation Suiteの活用」

  • かずさDNA研究所随一の猫好きマカー、catloverこと中村先生。
    • ひそかにファン。
  • 相変わらず高橋メソッドと淡々としたトークとネタを織り込んだ資料
    • おもしろい
  • 問題は。
    • 測定の後の解釈と提供が不十分であること。
    • データベースの「記述」そのものがおかしくね?
      • similar to similar to RNA transferase
      • imilar to とか transferas とか、コピペミス。
    • 人間の手作業に伴うリスク。
  • 作ったぞさあ使え
    • では誰も使ってくれないので、
      • feasibility studyをうちらでやったよ
    • 9人のannotatorが手作業。これは機械では難しい。
      • 逆に人間の作業が機械の正解セットになる


# 以下僕の感想

  • 多量の論文を読んでその結果をまとめるのが大変
    • タグでうまくまとめられないか
    • JabRefで似たようなことを試みてはいる。
  • 僕の場合は残基とかHelix7とか、がタグになろうか。

所感など


今まで坊農さんとは夏学で会ったり見学しにいったりヨコハマで御飯たべたりしていたけど、正規プログラムへの参加は初めて。面白かった。

少し、対象層について疑問があったので書いてみる。ひょっとしたら的外れかもしれない。


DBCLSのサービスで、統合TVというのがある。


統合TV (togotv)


「使う必要が生じてしまった」人は、必要なときに統合TVを眺めれば習得できると思う。言い換えれば、統合TVはアクセスのタイミングが任意である、という点に価値がある。


時期にもよる*5と思うが、受動*6な講習経験であるAJACSにおいて、統合TVでもカバーできる内容を扱っているのは「もったいない」という気がした。でも、認知度を上げる、という効果ならば、かなりありそうだ。


しかし僕としては、

  • もしあなたがこんな研究していたら、こんなDBの使い方もあるよ
  • 手作業になりがちなこんな実験も、DBをこう使えばラクできるよ

という、明日から使える情報が欲しかった。近いもの(メディアマーカー)はあったけど。図にするとこんな感じかな。

まあ自分で使い道考えろ、って話か...><

*1:研究テーマ関連のフィードを作成して購読してた

*2:唯一このブログの存在を知っている。昨年、とある研究室の実体をブログにつづり、後輩が同じ轍を踏むのを防いだ(一部で)伝説のブロガー

*3:参考: [http://d.hatena.ne.jp/Hash/20090109/1231501051:title]

*4:DBCLS関連の略語は得てしてセンスがよいような気がする

*5:研究テーマが固まった夏とかに今回の内容をやるのはよさそう

*6:講座に申し込む、という能動的アクションを含みはするが