統計学・データサイエンスの勉強法

ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。

教師用の教科書と初心者用の教科書

私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日本語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日本はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、その本だけを読めば分かるようになっていると同じ印象を持ちました。

オンライン教育(MOOC)

アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富なコースが無料で受けることができます。有名なのはCoursera, Udacity, EdXがありますが、私はもっぱらCourseraのファンなのでCourseraのコースを紹介します。

1. Machine Learning by Andrew Ng

Courseraの創設者の一人Andrew NGが講師で、ビジュアル的に板書で説明してくれるので、計算の理屈がよく分かりました。Courseraのコースの中で最も授業が上手だと思います。最近、完全に日本語字幕もついたので、かなり受講しやすいです。

2. Johns Hopkins 大学のData Specialization

これは9つのData Science関連コースが合わさったものですが、中のRoger D. Pengのコースがお勧めです。Rの基礎やデータクレンジング等について丁寧に解説してくれます。しかし、Brian Caffoのコースは説明が下手なので、お勧めしません。

お勧めのコース

R Programming 統計プログラミング言語Rの初歩

Exploratory Data Analysis データ解析の予備的解析やデータ探索

Reproducible Research データ解析手順を再現可能にするための技術(ドキュメント化やパブリッシング)

Getting and Cleaning Data データ解析前のデータの整形や洗浄

3. Social Network by Lada Adamic

ソーシャルネットワークやネットワークグラフに興味のある人は取ってみたら良いとおもいます。

4. Mining Massive Datasets from Stanford大学

私はまだコースを受講していませんが、かなりきっちりとカリキュラムが組まれているようです。

授業内容は書籍が出版されているようで、PDF版は無料で見ることができます。良質の教材を惜しみなく無料提供するというStanford大学の太っ腹さには驚かされます。
http://www.mmds.org/

Khan Academy と CK-12

Courseraとは別に高校や大学教養学部レベルのものであれば、Khan AcademyとCK-12を覗いてみるのもよいでしょう。Courseraでは説明が不十分な基礎的な知識はこちらの二つのサイトの動画を見て学びました。

カーンアカデミー(Khan Academy)は講義の動画がYouTubeに載せてあります。

Khan Academyのprobability and statistics

CK-12はあまり有名ではありませんが、 高校レベルの講義資料や教科書を無料提供しており、高校レベルで教えてくれるのでとても助かります。

CK-12のFlexBookという教科書は、PDFやepubで読むことができ講義画像へのリンクもついています。

CK-12の統計コース一覧

CK-12の統計学初歩の教科書

CK-12には他のレベルの統計学の教科書もあります。

書籍

小島 寛之 完全独習 統計学入門 ダイヤモンド社

統計学の初歩として数式を多用せず、分かりやすいのでお勧めです。

涌井良幸 多変量解析がわかる 技術評論社

著者は高校の先生なので非常に丁寧に説明してくれるので、多変量解析のことがよく分かるようになります。

Sebastian Raschka Python機械学習プログラミング

Pythonで機械学習を学ぶには最適。

斎藤康毅 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

ディープラーニングの基礎はこれで学ぼう。

巣籠悠輔 詳解 ディープラーニング ~TensorFlow・Kerasによる時系列データ処理~

本格的にPythonを使ってディープラーニングをやってみるには良い教科書。

Foster Provost 戦略的データサイエンス入門

過学習等、実際にデータ解析を行う際のノウハウが収録されている。

Steven Bird 入門 自然言語処理

自然言語処理の入門書。Pythonでの自然言語処理方法を収録している。

Dan Jurafsky, Speech and Language Processing: International Edition

英語の本ですが、上記の本では物足りない方への本格的な自然言語処理の教科書。

Richard S. Sutton 強化学習

強化学習の定番の教科書。

勉強会

TokyoR

東京で開催されている統計プログラミング言語Rの勉強会です。

一人で勉強していると周りが見えなくなることもありますので、一緒に学ぶ人を見つけるのがよいでしょう。他にも多くの勉強会があるので、探してみましょう。

英語の教材が多くなってしまいました。統計学やデータサイエンスを学んでいくと、やはり欧米の科学教育に対する層の厚さをひしひしと感じます。英語という障壁はありますが、その障害を補っても余りある学習効果があると思いますので、是非英語の教材にも挑戦してみてください。

“統計学・データサイエンスの勉強法” への 4 件のフィードバック

  1. タイトルがわかりにくいのですが、このCore Data Analysisもオススメです。

    普通のMOOCはビデオとスライドだけですが、カリキュラムがちゃんと構成されていて、「なぜこうなるのか?」がしっかり説明されています。前半は同じデータをつかってなるべく生徒を混乱させないようにしている所も好感が持てます。

    教科書が用意されていて、普通に読んだら時間かかりそうな教科書を著者自身がわかりやすくビデオで解説しているので非常にわかりやすいです。

    大学の分厚い教科書も著者がちゃんとビデオで説明したらこの授業のように生徒の理解度あがるのにと思いました。

    因にMatlabをつかってますが、使うツールはRでもExcelでも紙とペンでも良い、というスタイルです(最終的な答の数値にたどり着けばOK)。

    難点は、テストを作っているのが別の人なので、少しレクチャーと問題にギャップがありました。ただ、フォーラムを見る限りTAがかなり詳しく答えてくれるので分業制という事だと思います。

    因にいまJohns Hopkinsのコースも取っていて、真ん中あたりですが、Brian Caffoは少しわかりづらいですね。「わかりづらくてごめん」的なメールが来ました。

    1. コメントありがとうございます。
      Core Data Analysis、私も取ろうと思ってましたが、なかなか取れませんでした。
      https://class.coursera.org/datan-001
      解析を1D, 2Dに分ける辺り、丁寧なカリキュラムのようです。
      私の記事では、ちょうど伝統的な統計学部分が抜け落ちているので、このコースが0.辺りに入るかもしません。
      受講してみて良かったら、私の記事をアップデートしていきたいと思います。

コメントを残す