バイオのデータベースを使う人、使われる人、使えるのかどうかわからない人。
去る1月23日、AJACS(All Japan Annotator/Curator/System DB administrator)勉強会に参加してきた。
AJACS7 - MotDB
統合データベース講習会:AJACS長津田 開催 - 統合ぐらし(2009-01-23)
以前坊農さんのラボ(?)に突入したときのレポートは以下。もう半年近く前なのか...。
ライフサイエンス統合DBプロジェクトの中に乗り込んできた - ミームの死骸を待ちながら
内容としては、黒川先生と中村先生のプレゼンを挟みつつ、
ライフサイエンス統合データベースプロジェクト-統合ホームページ-LSDB
ここの使い方を紹介していく形。以下、メモ。
スケジュール
午前:講演+講習 10:30-12:30
時間 | 講演者 | 所属 | 題目 |
---|---|---|---|
10:30-11:00 | 坊農秀雅 | ライフサイエンス統合データベースセンター | 「統合データベースプロジェクトとは?」 |
11:00-11:30 | 黒川顕 | 東京工業大学大学院生命理工学研究科 | ゲノム大航海時代 |
11:30-12:30 | 河野信 | ライフサイエンス統合データベースセンター | 「データベースを使いこなすための最低限のコンピュータ使いこなし術」 |
午後:講習 14:00-17:30(統合データベースプロジェクトで提供しているサービスの使い方実習)
時間 | 講演者 | 所属 | 題目 |
---|---|---|---|
14:00-15:00 | 川本祥子 | ライフサイエンス統合データベースセンター | 「生命科学横断検索の利用法」 |
15:00-15:30 | 藤枝香 | ライフサイエンス統合データベースセンター | 「アナトモグラフィー/BodyParts3Dの利用法」 |
15:30-16:00 | 休憩 | ||
16:00-16:30 | 仲里猛留 | ライフサイエンス統合データベースセンター | 「自然言語処理技術の活用実例」 |
16:30-17:00 | 中村保一 | 国立遺伝学研究所・かずさDNA研究所 | 「Kazusa Annotation Suiteの活用」 |
17:00-17:30 | 小野浩雅 | ライフサイエンス統合データベースセンター | 「遺伝子発現データの活用実例」 |
坊農さん 「統合データベースプロジェクトとは?」
前回とかぶる部分もあるのでさらりと。Keynoteのプレゼンかこいい
日本のデータベース、4つの問題点
- 散在しており、どこになにがあるか分からない
- 大規模プロジェクトが行われても、成果公開不十分
- 構築・管理ばらばら=>検索解析応用が困難。統合化されてない
- 人材の不足
- 一番の問題は長期的なDB戦略がないこと。
- そこでDBCLSの出番!
DBCLSの基本的考え方
- 統合DB構築は完結しないプロセスである
- 何年で完結、というものではなく常に進化し変化するプロジェクト
- 研究開発の生産性向上を目指す(一つに統合するだけではない)
- 統合DB≠決定版・唯一・最終DBを構築する
- DB化されないものも扱いやすく
- 論文とか図とか
- サービス事業である
- 研究というよりも。
黒川先生 "ゲノム大航海時代"
物理と化学は原理から計算。一方、分子生物学は蓄積データから知識や経験則を見出す。
したがって、データベースが重要なのです。
- J.Craig Venter Instituteの話。ベンター!!
- セレラ社の利益で研究所
- 1000$ゲノムに賞金, High Throughput sequencer
- 結果として、1回でGiga baseレベルで出てくるシーケンサーが登場
- 黒川先生の研究: メタゲノム解析
- # 延長された表現型
- Venter、世界旅行海からサンプルしてメタゲノム
- さらにすごいマシンが....PacBio
- 100Gbp / hr
- Human geneme 4hr
- 2010発売予定
化け物か。
大航海時代とはすなわち、何があるか分からなくても、とりあえず出て行ってみる時代。ゲノム解析がより速くより身近なものになると、これからのバイオはゲノム大航海時代に突入するであろう、と。
講習1. "「データベースを使いこなすための最低限のコンピュータ使いこなし術」 "
DBCLSのコンテンツをざっとさらう。特に興味を引かれたものは、
- 生物アイコン...
- クリエイティブ・コモンズ・ライセンス。wikipediaから画像取ってこなくていい
- Wired-Marker...Wired-Marker :: Add-ons for Firefox
- Firefox addon。ウェブページにマーカーを引く。串刺し検索可能。
- Allie...Allie: Abbreviation / Long Form Search in Life Sciences Top
- これは前も取り上げた
- 略語の正式名称を科学論文から持ってくる。略語が定義された最初の論文を読んでみたいときなどに便利
後はPC操作、検索Tipsの本当に基礎の基礎とか、Pubmedの使い方などをやる。
川本祥子さん 「生命科学横断検索の利用法」
IT的、とくに検索エンジンの技術的な話。
- ClusterMed
- iHop
- 書籍の連想検索。自然言語でフレーズを入れるとそれに関連した本が出てくる
- SAGOOL
- チームラボ / teamLab
- だんだんバイオから離れてきたwwチームラボktkr
- SPYSEE
- あのひと検索スパイシー
- 最近良く見る。これ、勝手にリンクして勝手に写真を掲載するらしい。すげ
#H18情報通信白書
#http://mashupaward.jp/
#『Googleを支える技術』
セマンティックウェブとか、ソーシャルブックマークについて。SBM使ってる人挙手=>僕とid:bak_a_mono さんの二人。もはや空気のようになっているはてブについて改めて説明されると変な感じだ
藤枝香「アナトモグラフィー/BodyParts3Dの利用法」
眠気が爆発した。
すみません。
小休止
眠気を覚ますため、休憩時間を利用してぶらぶら散歩。
と、同じく講習会に参加していた、I先生の研究室に所属する女の子と出くわす。久しぶりに話す。
「そういや研究室移ったのは言ったっけ」
「え、そうなの?今なにしてんの?」
「シミュレーション系の研究」
「じゃあもう実験はしてないんだ」
「一年で実験極めたからね」
「まじで?すご」
「僕が大腸菌いじるとことごとく死ぬから」
「使えねー超使えねー」
ひととおり貶された後は自販機コーナーへ。(あ、違った。順番逆だ)
コーヒーを買っていると研究室の先輩*2に遭遇。就活の話など。昨日も一社コンサルの結果きましたよ、というと
「スゲーのとこ?」
「スゲーのとこです」
「スゲーのとこか」
なんだその代名詞*3
小休止、おわり。
仲里猛留さん「自然言語処理技術の活用実例」
- PubMedで All[Filter] で登録されているすべての文献が見れる
- 18599009件。約2000万件。
- Sort by PubDateで、一番昔は何年の論文かがわかる。
- 1866年が最古。PubMedは昔のも入れていってる。
- ちなみに2500年とか2080年の論文があります。未来派だなぁ
- Gendooの使い方...Gendoo - ヘルプ
- Gendooは(Gene, desease features ontology-based overview system)の略で*4、遺伝子や疾患について、関連する疾患や薬剤、生命現象、臓器などの情報をキーワードで表示するシステム。
中村保一先生「Kazusa Annotation Suiteの活用」
- 問題は。
- 測定の後の解釈と提供が不十分であること。
- データベースの「記述」そのものがおかしくね?
- similar to similar to RNA transferase
- imilar to とか transferas とか、コピペミス。
- 人間の手作業に伴うリスク。
- そこでcollective intelligenceですよ。
- これらよりもっとオープンなソリューションを!
- ソーシャルブックマーク形式。
- アノテーション蓄積ツール。...かずさアノテーション
- 遺伝子=URLへのタグ付け。関連論文とか呼ばれ方とか。
- 作ったぞさあ使え
- では誰も使ってくれないので、
- feasibility studyをうちらでやったよ
- 9人のannotatorが手作業。これは機械では難しい。
- 逆に人間の作業が機械の正解セットになる
- では誰も使ってくれないので、
# 以下僕の感想
- 多量の論文を読んでその結果をまとめるのが大変
- タグでうまくまとめられないか
- JabRefで似たようなことを試みてはいる。
- 僕の場合は残基とかHelix7とか、がタグになろうか。
- 個人的に使うと遺伝子メインのアノテーションを乱してしまう?
所感など
今まで坊農さんとは夏学で会ったり見学しにいったりヨコハマで御飯たべたりしていたけど、正規プログラムへの参加は初めて。面白かった。
少し、対象層について疑問があったので書いてみる。ひょっとしたら的外れかもしれない。
DBCLSのサービスで、統合TVというのがある。
「使う必要が生じてしまった」人は、必要なときに統合TVを眺めれば習得できると思う。言い換えれば、統合TVはアクセスのタイミングが任意である、という点に価値がある。
時期にもよる*5と思うが、受動的*6な講習経験であるAJACSにおいて、統合TVでもカバーできる内容を扱っているのは「もったいない」という気がした。でも、認知度を上げる、という効果ならば、かなりありそうだ。
しかし僕としては、
- もしあなたがこんな研究していたら、こんなDBの使い方もあるよ
- 手作業になりがちなこんな実験も、DBをこう使えばラクできるよ
という、明日から使える情報が欲しかった。近いもの(メディアマーカー)はあったけど。図にするとこんな感じかな。
まあ自分で使い道考えろ、って話か...><