暇人大学放浪記

モラトリアムを持て余した暇人が日々起こった出来事に対する所感を徒然に書いていきます。

お題目

ドープでイルめな遺伝子解析テクニック

今回はアレもコレもぶち込み過ぎて内容盛りだくさんですけどまとまりありません。(さーせん
いかんせん適当なんで自分。
雰囲気だけでも伝われば良いかなーって思います。

さて、今まで生命情報を読み取った後どうするか?みたいな話しが多くありました。
でも、実際は『遺伝子や細胞からデータを読み取る技術』の存在が不可欠です。

そう言う遺伝子工学的な技術って実は沢山種類があるし、日夜その技術は組み合わせて発展してます。(でも、実際やると恐ろしく成功しないし、泥沼なんだよな…経験談。)

加工技術の大元はMEMSっていう技術です。この技術は(予測ですが)半導体をより小さく作っていこう!って言う流れから生まれた技術だと思ってます。(これマメな)

さて、遺伝技術の解説本は意外と色々あるんですけど、俺はこんなんを読んでみました。

遺伝子工学の原理

遺伝子工学の原理

でも、ココに書いてある技術…実は多分もう少し古いんですよね。

今は、遺伝子配列を読み取る方法も、電気泳動から発展し、試験管内で蛍光を読み取る手法に変わり最後は次世代シーケンサー(NGS)って言う同時に大量の遺伝子配列をPCRと言う遺伝子増幅法と組み合わせて読み取る技術が生まれてるんですね。

発展が早すぎて、もはやイメージも掴みにくい世界なので、パッと理解して、流行に乗るためには動画でパッと理解した方が早いってかんじです。

こう言うのは実はYouTubeに動画がワラワラ落ちてるんで幾つか貼っときます。気になったんだけ幾つか数秒再生すりゃ良いんじゃないかなー。

塩基配列の読み取り方は実はヒトゲノムプロジェクトから端を発していました。ヒトゲノムプロジェクトで大量の遺伝データを読み取る需要が出てきて「誰か効率的に読み取る方法考えろ」ってアメリカさんが金を出して発展したみたいですね。各社個性があったり、対象が変わってたりしてて紛らわしいですが、色とりどりです笑。俺も詳しくは分かんねー。

illumina社

Thermo Fisher Sientific社

Pacific Brosystems社(コレはLZWって手法を使ってて少し違うけど)

また、PCRという手法が出てきました。コレは単純に遺伝子(DNA)を倍倍に増やしていく手法と考えてもらっていい気がします。
少ない遺伝子を測る時に量増やしたいな〜って時に使われます。RNAを図りたい場合は対応するDNAを逆転写してcDNAを作ってからPCRを行います。これをRT-PCR(Reverse Transcription PCR)って言います。
PCRはこんな感じです。(トライの授業が特に分かりやすかった)

PCR

また、PCRの増え方を使って遺伝子の数を数える手法が幾つか考案されてます。

Real Time PCRとかDigital PCRって言われてます。

Real Time PCR

Digital PCR

どっちが良いの?って言うのも議論されてたりします。(場合によりけりみたいですけど)

まぁ、Digital PCRのみたいな検査技術は細胞でもあってこんなんがありますね。

fluidigm社

flow cytometryって言って流しながら解析する奴もあるみたい

俺見かけただけだけどこんな特集もあったしな

こう言うことをすると一回の実験で細胞や遺伝子の情報が数万単位で得られるようになるみたいです。

こうする事で簡単な大量データ解析を実現してるんですねー。やっぱりハードウェアも発展してるんだなー。ってまだそう言うこっですわ。

あと忘れちゃいけないのは、こう言うのができる裏にヤバイほどの失敗がうず高く存在すると言う事かな。

最後になんか蛍光してるもんあるけど何?って言ったら、コレはクラゲから取れる特殊なやつです。詳細はこんな本でも読んだら良いんじゃないかな?笑
下村さんの凄さが分かります。コレは誰にでもオススメできるかな笑。

光るクラゲ 蛍光タンパク質開発物語

光るクラゲ 蛍光タンパク質開発物語

詳細
次世代シーケンサー(NGS)
https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/2014_techsupport_session6.pdf

NGSの詳細な違いを解説してる

Pacbioのsmart seq
一分子リアルタイムDNAシークエンサー PacBio®RS ll/Sequel™ System | トミーデジタルバイオロジー株式会社

PCR
https://www.takara-bio.co.jp/kensa/pdfs/book_1.pdf

Real Time PCR
http://www.takara-bio.co.jp/prt/pdfs/prt2.pdf

DigitalPCR
デジタル PCR | Thermo Fisher Scientific

PCR、リアルタイムPCRに続く次世代のPCR デジタルPCR | バイオ・ラッド ラボラトリーズ株式会社 東京本社 | イプロス医薬食品技術

C1
フリューダイム | 製品機器 | C1

flow cytometry
http://medicine.yale.edu/labmed/cellsorter/start/Introduction_66019_284_10028.pdf

再生医療の実現化プロジェクト FACS Core Laboratory

その他
FISH法
蛍光in situハイブリダイゼーション(FISH) - 放射線影響研究所

https://www.abmgood.com

Cytofとか言うのもあるみたい。(僕もよくわかっていません。笑)
National CyTOF Meeting 2014: Scott Tanner, PhD, Fluidigm Corp - YouTube

技術解説動画
MIT 7.01SC Fundamentals of Biology - YouTube

業界の動向の情報サイト

僕なりストリート人工知能論

人工知能について書くとか言ったので書きます。

この本、ざっと読んだ感じ、割りかしGoogleの出したAlphaGoとか僕らに比較的馴染みのある題材を選んで、人工知能技術ってこんなんだよーって擦り寄ってきてくれる良書なんじゃないかと思ってあげました。詳しく知りたいガチ勢は、今は青色の人工知能解説本とか、黄色本の『パターン認識機械学習』とかあるからそっちを読みましょう。より詳しい解説は詳細の中川研究室の講義スライドとかオススメです。(Slide Shareでも見れる。)後はQiitaなりgithubなり見て調べて貰えば大概誰かアタマの良い方が解説してくれてたり、コード落としたりしてくれてます。

さて、僕が人工知能、ひいてはpythonなどに出会った経緯を語ります。今回は僕もわからないことが多く。断片的な知識を吸収してきた為、多分な憶測とまとまりの無い話の塊だと思います。どうかご容赦を。まぁ、毎回そうか。

僕は研究室でLinuxを押し付けられたのに加えて、今の生物やるのにデータサイエンスの知識がいる事を悟りました。僕はこの時Linuxも今までシッカリ触った事などなく、Windowsで1人でオープンソースソフトウェアをインストールしたことがないくらいにはパソコンについては無知でした。『ディレクトリってファイルの事だろ?』『インストールとダウロードって一緒じゃね?』『パス?は?経路が何?』くらいの知識でした。その為、とりまなんか勉強しようと思いました。

研究室にはその為に有償のMatlabと言う解析ソフトが存在してました。コレが優秀でこれさえあればなんでもできるんですね。でも、僕は思いました。

「金払わないといけないのなんかムカつくな。分かった気もしねーし。タダでなんかイイもんねーかな。」そんな無知のくせに持ってしまった生意気な動機で解析ソフトから探す旅を11月下旬から始めました。

工学部に所属していたこともあり、少しはデータサイエンスかじってるやつとか、人工知能の歴史のあらすじ知ってるやつとかいたんで、なんかそう言うコトか何かが根が深いブームになっているし、今の時代タダでなんか出来んだろってのも薄っすら感じ取っての事でした。

取り敢えず、なんかプログラミングできるものないかな?って本屋行ってよく見たのはpythonという文字。周りもなんかpythonかRとかいうの使ってるみたい。

じゃまぁ、なんかよくわかんねーけどpython入れる練習からしてみよう。

こんな感じでした。誰も知ってるやつがいなかったんで、適当に一冊本を買って家のノーパソ開いてやってみました。

科学技術計算のためのPython入門 ――開発基礎、必須ライブラリ、高速化

科学技術計算のためのPython入門 ――開発基礎、必須ライブラリ、高速化

数時間後ヒシヒシある事に気がつきました。
「この本pythonの使い方書いてあるけど、pythonを使う設定の解説一切ない…。」

なけなしの3500円が無駄になるかどうかギリギリの境界線上に今立たされてる事に気がつきました。

もう腹をくくりGoogle先生に聞きまくりました。オレの問題どーやったら解決するんだ!って。そして気がつきました。

「アレ…?8割くらい問題解決してるの英語だ…。(^_^;)」って事に。腹をくくって英語や日本語のブログを読みあさりました。その中で幾つかある記事を読んでいき気がついたことがあります。

理論の本は世の中多くあったけど、肝心のセットアップについては誰も言及していない。しかし、皆環境を整えている事実に。より詳細に調べているとまたある壁にぶち当たりました。

「アレ…pythonってもしかしてWindowsで使ってる奴いない…??」

そう。本には書いていない言外の意味が多くあったのです。みんなpython使うやつらはMacUbuntuしか使ってない。故にWindowsの解決方法がそもそもない。誰もそれについて直接言及してるやつはいませんでした。ただ一つ。知ってるやつは知ってる。ウェブからヒシヒシと分かる暗黙の了解。そして本には本当に必要なことが書いてないという事に気づきました。

ナンジャコリャ!!

まぁ、そんな感じでなんとか人に少し聞いては1人でセットアップしていきました。

セットアップに数日かかりここまでやったんだから何か凄いことしてやろうと思いまた色々調べて気がつきました。

人工知能ってRやpythonしかも主にpythonでタダで今開発競争している。という事実に。

ナンジャコリャ!!!!

一番衝撃を受けたのはシリコンバレーGPUベンチャーNvidiaがAIについてまとめたこの資料。(決してハイレゾなゲーム作ってるだけの会社じゃなかった…。)

GoogleIBMスタンフォードMicrosoftFacebook

何かが起きてる…(^_^;)

日本で戦えてるのこれ見る限りPrefered Networks社だけ…

終わってる…(^_^;)

そして、なんでGPUでAIなん?そもそもGPUって何?(^_^;)

謎は深まる。(後にパソコンの計算速度上げる為にもうCPUじゃ限界きたから今度は計算マシンの構造とかGPUの性能あげて性能上げようぜってなったってのは後で知りました。)

ドンドン調べていくと、人工知能用ソフトも色々ありました。古参ぶる人工知能ブロガーは、caffeが…tensorflowが…chainerは…etcとか言うpython用の人工知能ソフトについてコメント言うだけ。

呪文の嵐でした。

でも悟りました。pythonの下に数々のITメーカーがフリーソフトの開発でしのぎを削っているのだろうと言う事に。

ただそれでも意味がわからないことがたくさんあります。

コイツラこんなタダ働きみたいなことなのになんで全力出して宣伝活動とか開発競争とかしてるんだ…??
これだけ見たら企業原理の真逆いってんぞ?

色々調べていき薄々ある仮説にたどり着きました。

「もしかしたらGoogle人工知能を含むソフトからハードに至るサービスを掌握しようとしてるんじゃねーか」って事に。他の会社もそれをテコにビジネスを展開しようとしてるんじゃねーかってことに。

特にGoogleは全てを独占すれば一部がフリーでも金は一部だけ払うようにしておけば大丈夫。まさに勝ち組の論理。

具体的には、人工知能ソフト以外にクラウドサービス、クラウド管理ソフト、そして量子コンピュータ(これは実現するか分からないけど。)
ハードからソフトまで見て動いてる事に気がつきました。

tensorflow

Cloud9

kubernets(クラウド管理ソフト、厳密には違うけど俺はそう言う認識)

量子コンピュータ

人工知能の車なんかももうとっくに作ってる…(日本は最近作ろうとか言い出してたけど、トヨタのconcept-愛iとか日産とか…)

Googleが特に目立ちますが、先に書いたようにIBMFacebookAmazonなど、「え?お前らも?」みたいなアプリケーション系の企業までジャンジャンそこ周辺をターゲットに動いてる様です。それが遺伝情報と言うビッグデータや、人工知能診断など医療とも最近は融合しています。

あ、あと今回はGoogleを主に大きく取り上げましたが、個人的にはGoogleは手を出してる幅が広いだけで、クラウドサービスはAWS(Amazon Web Service)、クラウド管理ソフト(ホントーはコンテナソフトとか言われてる。)はdockerなんかがシェアを握ってるイメージを持ってます。一応注意って形です。量子コンピュータもどうなってるか分からないし笑。

バーチャル内の隠れた市場争い。ビビりました。

まぁ、色々語りましたが、そんなこんなで人工知能のセットアップまで最近はこぎつけました。

やってみて分かったんですが、イマイチ人工知能などの理論が理解できてなくてもチュートリアルだけでも十分遊べるんですね。コレが。

理論要らないじゃん。って感じですね。

人工知能系に至っては本では情報が古いからネット(Twitterとかで専門家とか探してフォローする。)でキャッチアップするしかないんですねー。

イヤーオドロキです。

そして、全てがオープン(タダ)こんな首突っ込み得なこともねーぜ!って感じで取り敢えず僕は人工知能系の界隈にのめり込んでったってことですね。全然使いこなせねーけど。


最後にRはもっと色々楽でした。


詳細
中川研究室(昔は勉強会資料など良い資料がフリーであったんですが消されたかも…。)
SlideShare-nakagawa | 中川研究室

pythonの有名な人工知能ライブラリーの解説動画などはこのチャンネルを参照してください。

Nvidiaスライド
https://images.nvidia.com/content/APAC/events/deep-learning-day-2016-jp/NVIDIA-DeepLearning-Intro.pdf

Rの人用

Rはデータサイエンスで使う(機械学習とは毛色が違う)からそれやりたい方は緑本とか読みましょう。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

因みにバイオ系でゲノムデータを扱う場合は今はRが主流の様です。企業がRのパッケージを出してるみたいなんですね。
必要なパッケージはGoogle先生に聞くか、この本を参考にしましょう。
次世代シークエンス解析スタンダード〜NGSのポテンシャルを活かしきるWET&DRY

その他講義動画
Tensorflow and deep learning - without a PhD by Martin Görner - YouTube

Lex Fridman - YouTube

Lecture 1 | Machine Learning (Stanford) - YouTube

データサイエンスと生物と時々ビッグデータ

最近はてなブログでちゃんとした本の貼り方を知りました。笑

はてなブログ優秀ですね。

今回は本とかもちょくちょく紹介しながら内容薄〜く、ぬるぬる〜って進もうとか言うコンセプトで描いてるんですけど、もう挫折しかけてます笑。

薄い本とかにドンドン手が伸びていきます。読んでた本の貯金も既に底をつき始めた笑。不勉強が見え隠れしますね。

っつーか買いだめてたタラレバ娘。も読まないと。って感じです。

 

去年の後半は僕は狂ったようにパソコンを調べたり、機械学習についてのセットアップについて調べていました。

 

僕をよく知る人たちは「何でコイツいきなり生物なのにパソコンやり始めてるの?」って思ったと思います。

 

それは、生物の今の解析がビッグデータの処理になってる事に気がついたからです。

詳細については以下の様な本があります。大分テクニカルな内容が主な中身になっているしオススメ出来るとは言い難いけど。(時間がなくて全然手が回ってないし、理解もあまりできていないんですけど…笑)

 

生命情報処理における機械学習 多重検定と推定量設計 (機械学習プロフェッショナルシリーズ)

生命情報処理における機械学習 多重検定と推定量設計 (機械学習プロフェッショナルシリーズ)

 

ゲノムデータ解析 (統計学One Point 1)

ゲノムデータ解析 (統計学One Point 1)

 

この内容を読んでいけば分かるのですが、最近の生物は検定について色々議論する事に加え、「得られたデータをどう言う風に意味あるカタチに落とし込むか。」と言うことも重要になってきている様に感じます。

その為に、データ解析の手法である人工知能技術などが導入されたり(バイオインフォマティックスとか言う)、まとめ方も多種多様になってきていたりします。イメージとしては下記の様な感じ。(僕もよく読み方わかってるとは言い難い)

 

バイオリンプロット

f:id:kazubon35_2438168:20170215024808p:image

 

qqplot

 f:id:kazubon35_2438168:20170215024811p:image

 

クラスタリング

f:id:kazubon35_2438168:20170215024949j:image

 

こう言うのを見ると、データが読めないよ!解析どーなってんだよ!!って気持ちしか出てきません。

 

 その為に、作り方を学ばないと!って思って僕はパソコンとついに向き合わなくてはイケナクナッタって経緯ですね。

 

いやはや…世の中難しくなり過ぎています。

 

次はそんな動機でデータ処理についてネットサーフィンして、人工知能などの技術にズブズブ溺れていった話でもしようと思います。

 

詳細(適当に貼ってみたかっただけだからいい資料だと言う保証はない。qqplotだけは保証できる。)

バイオリンプロット

 

qqplot

 

クラスタリング

 

その他(こんな感じの処理もあるよーって紹介程度)

 

講義動画

1. Introduction to Computational and Systems Biology - YouTube

 

 

 

遺伝子ってホントに工学して良いのかな?

最近少し遺伝子工学関係の知識が必要になったので、この様な本らを最近流し読みしました。

 

 

ゲノム編集入門: ZFN・TALEN・CRISPR-Cas9

ゲノム編集入門: ZFN・TALEN・CRISPR-Cas9

 

多分普段普通に生活されてる方は「ゲノム編集」などと言う単語を聞いてもあまりピンとこないんじゃないかなーって思います。

因みに僕も最近知りました。本によると2010年代に出てきた技術なんだからそりゃ新し過ぎて知りませんわ。って感じです。

 

端的に纏めると、『DNAやRNAという遺伝子をハサミみたいに狙ったところを狙った分だけチョー簡単に切ったり出来る様になった技術。』みたいです。貼る事も出来ます。イメージとしてはこんな感じ。

 

 

解説(英語)

 

 

科学も俺の知らないところで影で進み過ぎてるんだなって感想を持ちました。読んでて分かるんですけど、ココに登場してくる人達って全員MADな感じを持ってる様に感じたんですよね。

「オレタチハ神ノ技術ヲ手ニ入レタ!」みたいな具合です。

 

実の所僕も高校生の時、生物の資料集を読んでた時に同じ事思いました。「遺伝子ごと操作できれば俺神じゃね?」みたいな。

 

でも、なんか人生生きてて、世の中って思った通り理詰めで動かないな。って思いました。

それを踏まえて最近思うのは、「遺伝子を合理的に操作しようとするのって傲慢じゃね?」って、フワッとした感想です。

 

スタンフォード大学とかシリコンバレー遺伝子工学をやってる人達はその様な事を思わないんだろうか?と言う疑問を最近僕は持ってしょうがありません。

 

やっぱり、技術としては面白いけど、生命活動に人の手が加わるのは僕のポリシーに反するなって感じの感想を最近持ちました。

 

因みにCRISPR-Cas9を発見したダウドナさんのプレゼンがTEDにあったので、貼っときます。

 

 

詳細