バイオのデータベースを使う人、使われる人、使えるのかどうかわからない人。

去る1月23日、AJACS(All Japan Annotator/Curator/System DB administrator)勉強会に参加してきた。

AJACS7 - MotDB
統合データベース講習会：AJACS長津田開催 - 統合ぐらし(2009-01-23)

以前坊農さんのラボ(?)に突入したときのレポートは以下。もう半年近く前なのか...。

ライフサイエンス統合DBプロジェクトの中に乗り込んできた - ミームの死骸を待ちながら

内容としては、黒川先生と中村先生のプレゼンを挟みつつ、

ライフサイエンス統合データベースプロジェクト-統合ホームページ-LSDB

ここの使い方を紹介していく形。以下、メモ。

スケジュール

午前：講演＋講習 10:30-12:30

時間	講演者	所属	題目
10:30-11:00	坊農秀雅	ライフサイエンス統合データベースセンター	「統合データベースプロジェクトとは？」
11:00-11:30	黒川顕	東京工業大学大学院生命理工学研究科	ゲノム大航海時代
11:30-12:30	河野信	ライフサイエンス統合データベースセンター	「データベースを使いこなすための最低限のコンピュータ使いこなし術」

午後：講習 14:00-17:30（統合データベースプロジェクトで提供しているサービスの使い方実習）

時間	講演者	所属	題目
14:00-15:00	川本祥子	ライフサイエンス統合データベースセンター	「生命科学横断検索の利用法」
15:00-15:30	藤枝香	ライフサイエンス統合データベースセンター	「アナトモグラフィー/BodyParts3Dの利用法」
15:30-16:00	休憩
16:00-16:30	仲里猛留	ライフサイエンス統合データベースセンター	「自然言語処理技術の活用実例」
16:30-17:00	中村保一	国立遺伝学研究所・かずさDNA研究所	「Kazusa Annotation Suiteの活用」
17:00-17:30	小野浩雅	ライフサイエンス統合データベースセンター	「遺伝子発現データの活用実例」

坊農さん「統合データベースプロジェクトとは？」

前回とかぶる部分もあるのでさらりと。Keynoteのプレゼンかこいい

日本のデータベース、４つの問題点

散在しており、どこになにがあるか分からない
大規模プロジェクトが行われても、成果公開不十分
構築・管理ばらばら＝＞検索解析応用が困難。統合化されてない
人材の不足

一番の問題は長期的なDB戦略がないこと。
- そこでDBCLSの出番！

DBCLSの基本的考え方

統合DB構築は完結しないプロセスである
- 何年で完結、というものではなく常に進化し変化するプロジェクト
研究開発の生産性向上を目指す（一つに統合するだけではない）
- 統合DB≠決定版･唯一・最終DBを構築する
DB化されないものも扱いやすく
- 論文とか図とか
サービス事業である
- 研究というよりも。

黒川先生 "ゲノム大航海時代"

物理と化学は原理から計算。一方、分子生物学は蓄積データから知識や経験則を見出す。
したがって、データベースが重要なのです。

J.Craig Venter Instituteの話。ベンター！！
- セレラ社の利益で研究所
- 1000$ゲノムに賞金, High Throughput sequencer
- 結果として、1回でGiga baseレベルで出てくるシーケンサーが登場

誰でも手が出せるようになったので
- 完全ゲノム配列＆アノテーションを自動化する必要
- 自動アノテーション: 統合DBでMiGAP

黒川先生の研究: メタゲノム解析
- # 延長された表現型
Venter、世界旅行海からサンプルしてメタゲノム

さらにすごいマシンが....PacBio
- 100Gbp / hr
- Human geneme 4hr
- 2010発売予定

化け物か。

大航海時代とはすなわち、何があるか分からなくても、とりあえず出て行ってみる時代。ゲノム解析がより速くより身近なものになると、これからのバイオはゲノム大航海時代に突入するであろう、と。

講習1. "「データベースを使いこなすための最低限のコンピュータ使いこなし術」 "

DBCLSのコンテンツをざっとさらう。特に興味を引かれたものは、

生物アイコン...
- クリエイティブ・コモンズ・ライセンス。wikipediaから画像取ってこなくていい
Wired-Marker...Wired-Marker :: Add-ons for Firefox
- Firefox addon。ウェブページにマーカーを引く。串刺し検索可能。
Allie...Allie: Abbreviation / Long Form Search in Life Sciences Top
- これは前も取り上げた
- 略語の正式名称を科学論文から持ってくる。略語が定義された最初の論文を読んでみたいときなどに便利

後はPC操作、検索Tipsの本当に基礎の基礎とか、Pubmedの使い方などをやる。

検索してcreate feed*1.
- 「Pubmedの検索結果を定点観測する」

川本祥子さん「生命科学横断検索の利用法」

IT的、とくに検索エンジンの技術的な話。

ClusterMed
- vivisimoというエンジンを用いてPubMedに特化した検索。
iHop
- iHOP - Information Hyperlinked over Proteins
書籍の連想検索。自然言語でフレーズを入れるとそれに関連した本が出てくる
SAGOOL
- チームラボ / teamLab
- だんだんバイオから離れてきたｗｗチームラボktkr
SPYSEE
- あのひと検索スパイシー
- 最近良く見る。これ、勝手にリンクして勝手に写真を掲載するらしい。すげ

#H18情報通信白書
#http://mashupaward.jp/
#『Googleを支える技術』

セマンティックウェブとか、ソーシャルブックマークについて。SBM使ってる人挙手=>僕とid:bak_a_mono さんの二人。もはや空気のようになっているはてブについて改めて説明されると変な感じだ

生命科学DB横断検索

正統派。

藤枝香「アナトモグラフィー/BodyParts3Dの利用法」

眠気が爆発した。
すみません。

小休止

眠気を覚ますため、休憩時間を利用してぶらぶら散歩。
と、同じく講習会に参加していた、I先生の研究室に所属する女の子と出くわす。久しぶりに話す。

「そういや研究室移ったのは言ったっけ」
「え、そうなの？今なにしてんの？」
「シミュレーション系の研究」
「じゃあもう実験はしてないんだ」
「一年で実験極めたからね」
「まじで？すご」
「僕が大腸菌いじるとことごとく死ぬから」
「使えねー超使えねー」

ひととおり貶された後は自販機コーナーへ。（あ、違った。順番逆だ）

コーヒーを買っていると研究室の先輩*2に遭遇。就活の話など。昨日も一社コンサルの結果きましたよ、というと

「スゲーのとこ？」
「スゲーのとこです」
「スゲーのとこか」

なんだその代名詞*3

小休止、おわり。

仲里猛留さん「自然言語処理技術の活用実例」

PubMedで All[Filter] で登録されているすべての文献が見れる
- 18599009件。約2000万件。
- Sort by PubDateで、一番昔は何年の論文かがわかる。
- 1866年が最古。PubMedは昔のも入れていってる。
- ちなみに2500年とか2080年の論文があります。未来派だなぁ

形態素解析、テキストマイニング。文献の中のどの言葉が遺伝子を表しているか。

Gendooの使い方...Gendoo - ヘルプ
- Gendooは(Gene, desease features ontology-based overview system)の略で*4、遺伝子や疾患について、関連する疾患や薬剤、生命現象、臓器などの情報をキーワードで表示するシステム。

中村保一先生「Kazusa Annotation Suiteの活用」

かずさDNA研究所随一の猫好きマカー、catloverこと中村先生。
- ひそかにファン。
相変わらず高橋メソッドと淡々としたトークとネタを織り込んだ資料
- おもしろい

問題は。
- 測定の後の解釈と提供が不十分であること。
- データベースの「記述」そのものがおかしくね？
  - similar to similar to RNA transferase
  - imilar to とか transferas とか、コピペミス。
- 人間の手作業に伴うリスク。

そこでcollective intelligenceですよ。
- 集合知に着目してる人の論文。
  - "Genome re-annotation: a wiki solution?"
  - "A gene wiki for... (メモり損ねる

これらよりもっとオープンなソリューションを！
- ソーシャルブックマーク形式。

アノテーション蓄積ツール。...かずさアノテーション
- 遺伝子=URLへのタグ付け。関連論文とか呼ばれ方とか。

作ったぞさあ使え
- では誰も使ってくれないので、
  - feasibility studyをうちらでやったよ
- 9人のannotatorが手作業。これは機械では難しい。
  - 逆に人間の作業が機械の正解セットになる

# 以下僕の感想

多量の論文を読んでその結果をまとめるのが大変
- タグでうまくまとめられないか
- JabRefで似たようなことを試みてはいる。
僕の場合は残基とかHelix7とか、がタグになろうか。
- 個人的に使うと遺伝子メインのアノテーションを乱してしまう？

所感など

今まで坊農さんとは夏学で会ったり見学しにいったりヨコハマで御飯たべたりしていたけど、正規プログラムへの参加は初めて。面白かった。

少し、対象層について疑問があったので書いてみる。ひょっとしたら的外れかもしれない。

DBCLSのサービスで、統合TVというのがある。

統合TV (togotv)

「使う必要が生じてしまった」人は、必要なときに統合TVを眺めれば習得できると思う。言い換えれば、統合TVはアクセスのタイミングが任意である、という点に価値がある。

時期にもよる*5と思うが、受動的*6な講習経験であるAJACSにおいて、統合TVでもカバーできる内容を扱っているのは「もったいない」という気がした。でも、認知度を上げる、という効果ならば、かなりありそうだ。

しかし僕としては、

もしあなたがこんな研究していたら、こんなDBの使い方もあるよ
手作業になりがちなこんな実験も、DBをこう使えばラクできるよ

という、明日から使える情報が欲しかった。近いもの（メディアマーカー）はあったけど。図にするとこんな感じかな。

まあ自分で使い道考えろ、って話か...＞＜

*1:研究テーマ関連のフィードを作成して購読してた

*2:唯一このブログの存在を知っている。昨年、とある研究室の実体をブログにつづり、後輩が同じ轍を踏むのを防いだ（一部で）伝説のブロガー

*3:参考: [http://d.hatena.ne.jp/Hash/20090109/1231501051:title]

*4:DBCLS関連の略語は得てしてセンスがよいような気がする

*5:研究テーマが固まった夏とかに今回の内容をやるのはよさそう

*6:講座に申し込む、という能動的アクションを含みはするが