データサイエンスお薦め書籍

要約

スマートフォン用の表示で見る。スターをつけました。引用するにはまずログインしてください。読者です。元祖銀座で働くデータサイエンティストです / 道玄坂→銀座→東京→六本木。データサイエンティスト。統計学。機械学習。photo via visual hunt。最近になってまた色々とデータサイエンティストを目指す人向けのお薦め書籍リストとか資料リストとかが出てきてるんですが、個人的には何かと思うところがあるので僕も適当にまとめておきます。*1。初級者向け5冊。続編としてスクラッチから組んでいく本が出るという噂もありますが、それはおいおい。手を動かしながら学ぶ ビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: 技術評論社発売日: メディア: 単行本ソフトカバーこの商品を含むブログ 6件 を見るはい、手前味噌ですが昨年出版した拙著でございます笑。ただの宣伝でごめんなさい。基礎と検定論をメインに扱った赤本線形モデルや一般化線形モデルglmを扱った青本、そして系列相関や不均一分散といった特徴を持つ社会科学データに対するアプローチを扱った緑本、とテーマが綺麗に分かれているので、可能であれば3冊とも揃えておくと良いと思います。実際に階層ベイズを用いてどのような問題に臨むべきかについてなど、細かい事例が詰まった良書です。なお先生のラボでも輪読で用いられたそうです。単に数式を追うだけでなく、その結果としての実装についてもイメージをつかみやすいです。現在主流のdnn、cnn、rnnなど一通りのdeep learningの基礎がコンパクトにまとめられています。ただし実践例については学術書につきあまり詳しくないので、例えばrでの実践例についてはこのブログの関連記事一覧時系列分析 カテゴリーの記事一覧 – 六本木で働くデータサイエンティストのブログなどお読み下されば良いかなと笑。twitterなどで大きな声で騒げばきっと誰かがマサカリを投げつけがてら教えてくれることでしょう。先生本トピックモデルによる統計的潜在意味解析 自然言語処理シリーズを積ん読にしたっきりなもので、その辺はご容赦を。価格を抑えるために紙版だと印刷が粗いのが珠に疵かと汗。岩波データサイエンス:そして僕も刊行委員会に名前を連ねるこのシリーズ。まだ刊行が始まったばかりですが、ひとまず第1期全6巻の刊行は決まっておりますので、ぜひぜひ皆さんお読み下さい。最後に:スキル要件やら定義やらといった話題について。そうそう、何とか協会がデータサイエンティストのスキル定義みたいなものを出してましたが*7、2年以上前の記事で僕は以下のように指摘しています。もう少し大まかな人材像を提示するに留めて、そこに至る道筋の多様性を認める方がよほど有用ではないでしょうか。それこそ上に挙げた本を全部読みこなして大体実践できます、ぐらいでちょうど良いはず。もっと読む。コメントを書く。”gradient boosted feature selection” x。id:tjo。takashi j. ozaki, ph.d.。data scientistenglish: ・見解の表明であり、所属組織の意見・見解を代表しません。改変した事実は明示されることもあれば明示されないこともあります。現在、講演依頼・書籍執筆依頼・メディア出演依頼等は全てお断りしております。業績一覧:google scholar citations。科研費情報:kaken。ご連絡は出来るだけlinkedinメッセージでお願いいたします。人気エントリー。データ分析。異常検知。旅行記。deeplearning実践シリーズ。bugs/stan。最適化計画。状態空間。テキストマイニング。自己紹介。最新記事。ベイズ構造時系列モデルを推定する{bsts}パッケージを試してみた。人工知能に関する断創録。月別アーカイブ。忍者アナライズ。powered by hatena blog。ブログを報告する。

関連書籍

参考記事

データサイエンティストを目指すというかデータ分析を生業にするなら読んでおきたい初級者向け5冊&中級者向け12冊(2015年冬版)

データサイエンス – Wikipedia

要約

データサイエンス – wikipedia。データサイエンス。データサイエンスdata scienceとは、データに関する研究を行う学問である。データの具体的な内容ではなく、異なる内容や形式を持ったデータに共通する性質、またそれらを扱うための手法の開発に着目する点に特色がある。データサイエンスの研究者や実践者はデータサイエンティストと呼ばれる。データサイエンスの応用としては、生物学、医学、工学、社会学、人文科学などが挙げられる。歴史編集。データサイエンスという用語は古くから使われていたが、特に1960年にピーター・ナウアがデータロジーdatalogyという用語と互換な形で計算機科学を代替する言葉として使用したことで注目を集めた。1974年の著書”puter methods”において、ナウアはデータ処理手法とその応用を述べる中でデータサイエンスという表現を使用した。ビッグデータ。データマイニング。インクィジティブ・マインド:data science データサイエンス。title=データサイエンス&oldid=58451189から取得。

元記事

データサイエンス – Wikipedia

関連書籍

//rcm-fe.amazon-adsystem.com/e/cm?lt1=_blank&bc1=000000&IS2=1&bg1=FFFFFF&fc1=000000&lc1=0000FF&t=trubetzkoy-22&o=9&p=8&l=as4&m=amazon&f=ifr&ref=as_ss_li_til&asins=B01KXH8F0G&linkId=183792e3b40e49e3b1603d6ceec2f347

閉じ込められた精神

最近、あるビデオクリップを見た。よく聞いたことのある曲だ。それは、シンガーSiaと天才少女ダンサーMaddie Zieglerとの共演作だ。Siaは顔を一切出さないシンガーソングライターだそうだ。Maddieは少女だがものすごい表現力のあるダンサーだ。どのビデオもメッセージ性が強い。人間の閉じ込められた精神を表しているように思う。そもそも、このようなメッセージ性の強い音楽って時代の空気(閉塞感)を表しているものなのかも。

この年で顔だけでこんな表現できるなんて、この子は天才!

部屋に閉じ込められた創造性

ラストが悲惨。大人は世の中のしがらみから逃れられないのか。考えさせられるビデオです。

Chandelierの日本語訳もあるよ。飲んだくれの歌詞なんだね。シャンデリアにぶら下がるというのは首つりをするという意味だそうだ。ギョッ!

 

MOOCは、書籍の拡張したものであり、学校の拡張したものはこれから現れる

私はMOOCを受講しており、素晴らしい技術だと思っていた。最近、以下のようなMOOCに対する否定的な意見が出ていて、どう反論していいのか分からず、少し考えてみた。

オンライン講義のMOOCが大学に取って代わることができない理由

上記のブログで挙げているのは、MOOCの人気の高止まり感、モチベーションの欠如、収益化困難の3つの問題だ。確かにその3つの点は感情的には何となく同意する。しかし、これらの問題の根本原因については言及されておらず、洞察が浅いのではないかと思った。考えなおしてみると、実は前提条件が間違っているのではないかと感じ始めた。

MOOCは学校の拡張という思い込み

その前提条件とは、MOOCは教育あるいは学校の拡張ではないかという思い込みだ。ここで言う拡張とは、拡張現実(Augmented Reality)という言葉で使う時の拡張と同じ意味だ。ここではデジタル化という風に置き換えて読んでも構わない。話を元に戻そう。MOOCはオンライン教育と呼ばれるので、学校の拡張という思い込みは当然だと思う。実際、私自身もついさっきまでそう思い込んでいた。

MOOCは書籍の拡張概念

それでは、MOOCは何の拡張だろうか。教育に近い概念を思い浮かべてみる。学校でよく使われるものは何だろう。それは教科書だ。MOOCは教科書、つまり書籍の拡張だ。そう考えてみると何だかすっきりした。

読書家はMOOCを好む

MOOCを書籍の拡張と考えると色々な点で合点が行く。私は、Facebook上のCourseraジャパングループを通してMOOCで学ぶ人たちと交流がある。その人達の傾向は、読書好きであることだ。書籍を読むのが好きな人がMOOCを好きになるのは自然の流れではないかと思う。MOOCの集まりも何だか読書好きの人が集まって、あの本がいいだの、この本がいいだのという本の品評会のようになっている気がする。
私自身も読書好きで、MOOCにもハマっている。私は本を読むのも好きだが、最近本を読むよりもMOOCで学ぶ方が学びやすいのではないかと感じ始めた。読書からMOOCに移行しようかなと考え始めた所だった。漠然と本を読むよりもMOOCの方が演習などがあるので内容が身につくからだ。

読書と自学自習の習慣

先程のブログにも指摘があるようにMOOCの欠点に上げられるのがモチベーションの維持である。MOOCの終了率は10%以下であり、その低さが問題点となっている。
MOOC Completion Rates: The Data

本を読むのは意識的に読まないと続かないので、読書が好きな人は、元々自学自習の習慣があるのではないかと思う。読書を続けるノウハウとMOOCを続けるノウハウは通ずる所があるのである。

本を読んでも評価されない

一般に本を幾ら読んでも評価はされない。本を読む場合は、二つある。興味から読む場合と何らの必要性から読む場合がある。後者の場合は読んだことによって仕事や試験に役立つというメリットがあるのが分かった上で読む場合だ。本を読んだだけでは、人の評価を受けることは難しい。褒められるのは小学生のレベルだろう。MOOCが社会的評価で迷走しているように見えるのはこの辺の問題と関連性があるのではないかと思われる。

MOOCは書籍の拡張であるが、デジタル書籍は書籍の拡張ではない

一般に書籍とデジタル書籍が比較され、デジタル書籍が紙の書籍を食いつぶすなどの報道が行われる。しかし、実はデジタル書籍は書籍の拡張でもなく、書籍の子孫でもない。MOOCは書籍を拡張したものなので、書籍にない特徴を色々と備えている。
(1)映像で何度も見ることができる。
(2)ディスカッションルームで質問をしたり、意見を言ったり、他の人の質問に答えることができる。
(3)テストを受けて実力を測ることができる。
(4)演習があるので、実践力を鍛えることができる。
(5)他の学生が自分の評価をしてくれる(ピアレビュー)
これはどれも紙の書籍では行なうことはできない。デジタル書籍もこの全ての機能を持っているものはない。MOOCこそ書籍の正しい後継者なのだ。CourseraやedXで修了証明書の値段が数10ドル(数千円)となっているが、専門書の値段が数千円であることを考えると妥当な値段であると思う。最近では、きちんとした学術的内容のPDFが無料で出回っていることもあり、それを考えると、紙の書籍の内容をただ移しただけのデジタル書籍の値段が紙の書籍とほぼ同じ値段なのは、消費者を馬鹿にしている詐欺行為ではないかと思えてくる。日本でデジタル書籍が普及しにくいのもそんなところに原因があるのかも知れない。

書籍が沢山あっても学校にはならないが、それは革命の始まりではある

書籍が沢山あっても学校にならない。せいぜい、図書館になるだけである。MOOCのコースが沢山あっても学校の拡張にはならないのである。勿論、学校にとって教科書が重要なアイテムであるのと同じく、未来の学校にはMOOCのコースが重要なアイテムとなるであろう。書籍がルネサンスを起こし、産業革命を誘発した。それと同じく、MOOCは偉大な知識革命の始まりの一つなのである。未来の学校にとっては、MOOCだけではなく、人的資源の管理や自学自習の訓練等の他の仕組みが必要となるに違いない。つまり、MOOCを含めた教育改革はまだ始まったばかりでこの先にまだ長い道のりが存在しているのだ。我々はMOOCを元に本当の学校の拡張概念を創り上げる必要がある。だから早まってMOOCは期待はずれ等という言説に惑わされてはいけないのだと思う。

パラグライダーの大会

今日はパラグライダーの大会が開催されていました。

足尾山に登ると、パラグライダーがスタートするためにきれいに並んで上空に集まっていました。

シャッターチャンスを逃してしまったので、あまりはっきりしない画像です。

パラグライダーの大会
パラグライダーの大会

GoProの広角で取ったので、広がってしまいしました。
空の物体は未確認飛行物体ではありません。パラグライダーです。

paragliders in competition
paragliders in competition

上の画像の中心を拡大したもの。

paraglider-02

逆行なので、光ってしまった。

今日は私はハンググライダーで三本飛べました。三本目はリッジソアリングコンディションで約2時間も飛べて、ラッキー。

今年の目標は「感じる」こと

今年の目標は「感じる」ことにしようと思う。もうかなり月日は過ぎてしまったけど...

私はハンググライダーの練習をしている。一所懸命やっているのだが、なかなかうまくなることができない。そこで、うまくなれない理由を考えてみた。いろいろな状況を思い出してみた。すると、いつも問題点を意識することが欠落していることに気づいた。つまり、「感じる」ことが不十分だからではないかということに思い当たった。

ハンググライダーのベースバーは操作するハンドルであるとともに、風の流れを感じるセンサーなのだ。私のような初心者は、つい力を入れて操作してしまう。だが、力を入れれば、入れるほど、風の流れを感じることはできなくなってしまう。

ハンググライダーの世界では、皮肉なことに女性の方がうまくなるという話がある。つまり、女性は、力がないので、無理な操作をしない。男性のようには力任せにコントロールしないので、感じることができる。だから、女性の方が上達が早いのだ。

ハンググライダーに限らず、「感じる」ことができなければ、自分の悪い所を直すことはできない。直せなければ、上達することは難しい。これは、自然の理だ。だから、まずは肩の力を抜いて、風を「感じる」ことが重要だ。「感じれば」、どこが悪いのかを修正するきっかけができる。

ハンググライダーだけではなく、人生においても、「感じる」ことは重要である。「感じる」ことが上達への最初の一歩である。だから、「感じる」ことを今年の目標にして行きたい。

ハンググライダー、自然言語処理、データサイエンスの情報発信していきます