カテゴリー別アーカイブ: データマイニング

統計学の興味は個別データではなく、集団に関する情報

以前、データジャーナリズムのイベントでジャーナリストと一緒に仕事をしたが、どうしてもデータに対する考え方の違いがあって、どうにもはっきりしなかった。しかし、量的研究エッセンシャルという記事を見て、自分の中のモヤモヤ感がはっきりした。

簡単に言うと、統計学・データサイエンティストは個別のデータに関心があるのではなく、個別データの背後にある一般的な仕組みや規則に興味がある。一方、ジャーナリストは個々のデータや事件に興味があるのだと思う。それで、両者のデータに関する考え方の違いでどうも通じ合えないのではないだろうか。

記事の内容をまとめてみた。元の記事を見たほうが分かりやすいかもしれないので、是非元記事をみるのをお勧めする。かなり丁寧に書かれた記事であり、更に連載記事なので他の記事も通して読んでみると統計学・データ解析の本質が分かると思う。

(要約)

量的研究での関心事は個別データの背後にある一般的な仕組みや規則を明らかにすることだ。

統計学では個別データは母集団という仮想世界から現実世界へ偶然に生じたものと考える。

データと説明可能なモデルとノイズに分けると確率的考えで変動をうまく説明できる。

量的研究の関心事は個別データではなく、集団に関する情報であり、個性はノイズとみなす。

世の中の現象は多数の要因が絡みあって生じるので予測は確率的にしかできない。

 

統計学・データサイエンスの勉強法

ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。

教師用の教科書と初心者用の教科書

私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日本語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日本はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、その本だけを読めば分かるようになっていると同じ印象を持ちました。

オンライン教育(MOOC)

アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富なコースが無料で受けることができます。有名なのはCoursera, Udacity, EdXがありますが、私はもっぱらCourseraのファンなのでCourseraのコースを紹介します。

1. Machine Learning by Andrew Ng

Courseraの創設者の一人Andrew NGが講師で、ビジュアル的に板書で説明してくれるので、計算の理屈がよく分かりました。Courseraのコースの中で最も授業が上手だと思います。最近、完全に日本語字幕もついたので、かなり受講しやすいです。

2. Johns Hopkins 大学のData Specialization

これは9つのData Science関連コースが合わさったものですが、中のRoger D. Pengのコースがお勧めです。Rの基礎やデータクレンジング等について丁寧に解説してくれます。しかし、Brian Caffoのコースは説明が下手なので、お勧めしません。

お勧めのコース

R Programming 統計プログラミング言語Rの初歩

Exploratory Data Analysis データ解析の予備的解析やデータ探索

Reproducible Research データ解析手順を再現可能にするための技術(ドキュメント化やパブリッシング)

Getting and Cleaning Data データ解析前のデータの整形や洗浄

3. Social Network by Lada Adamic

ソーシャルネットワークやネットワークグラフに興味のある人は取ってみたら良いとおもいます。

4. Mining Massive Datasets from Stanford大学

私はまだコースを受講していませんが、かなりきっちりとカリキュラムが組まれているようです。

授業内容は書籍が出版されているようで、PDF版は無料で見ることができます。良質の教材を惜しみなく無料提供するというStanford大学の太っ腹さには驚かされます。
http://www.mmds.org/

Khan Academy と CK-12

Courseraとは別に高校や大学教養学部レベルのものであれば、Khan AcademyとCK-12を覗いてみるのもよいでしょう。Courseraでは説明が不十分な基礎的な知識はこちらの二つのサイトの動画を見て学びました。

カーンアカデミー(Khan Academy)は講義の動画がYouTubeに載せてあります。

Khan Academyのprobability and statistics

CK-12はあまり有名ではありませんが、 高校レベルの講義資料や教科書を無料提供しており、高校レベルで教えてくれるのでとても助かります。

CK-12のFlexBookという教科書は、PDFやepubで読むことができ講義画像へのリンクもついています。

CK-12の統計コース一覧

CK-12の統計学初歩の教科書

CK-12には他のレベルの統計学の教科書もあります。

書籍

小島 寛之 完全独習 統計学入門 ダイヤモンド社

統計学の初歩として数式を多用せず、分かりやすいのでお勧めです。

涌井良幸 多変量解析がわかる 技術評論社

著者は高校の先生なので非常に丁寧に説明してくれるので、多変量解析のことがよく分かるようになります。

Foster Provost 戦略的データサイエンス入門

過学習等、実際にデータ解析を行う際のノウハウが収録されている。

Steven Bird 入門 自然言語処理

自然言語処理の入門書。Pythonでの自然言語処理方法を収録している。

勉強会

TokyoR

東京で開催されている統計プログラミング言語Rの勉強会です。

一人で勉強していると周りが見えなくなることもありますので、一緒に学ぶ人を見つけるのがよいでしょう。他にも多くの勉強会があるので、探してみましょう。

英語の教材が多くなってしまいました。統計学やデータサイエンスを学んでいくと、やはり欧米の科学教育に対する層の厚さをひしひしと感じます。英語という障壁はありますが、その障害を補っても余りある学習効果があると思いますので、是非英語の教材にも挑戦してみてください。

[問題解説12] 男性と女性の殺人被害者数の関係は?

かなり遅くなってしまいましたが、「男性と女性の殺人被害者数の関係は?」の問題解説をします。

今回の問題は、前回の問題「ヒストグラムと散布図を描いてみよう」の発展問題です。

データとプログラムは下記のGitHubリポジトリーにおいてあります。

問題

世界各国の殺人被害者データを用いて女性被害者数から男性被害者数を予測してみましょう。

UNODC(United Nations Office on Drugs and Crime : 国連薬物犯罪事務所)から公開されている世界176ヶ国の殺人被害者の男女別のデータがあります。女性被害者数から男性被害者数を予測してみましょう。

homicide_log.zipをダウンロードしてください。解凍して、homicide_log.csvを読み込んでください。
男性・女性の殺人被害者数のデータは10を底とする対数化してあります。
元データは下記のページから入手しました。
Global Study on Homicide(殺人に関するグローバル調査)

■課題

1.回帰分析を行ってください。

Rの回帰分析関数 lm() を使用して予測式を求める計算をしてください。

2.予測式の値を答えてください。

男性被害者数をM、女性被害者数をFとすると、以下の予測式が成り立ちます。
M = a * F + b
a, b を小数点3桁まで答えてください。解答方法はプログラムの最終行に以下のように記述してください。
# a = x.xxx
# b = y.yyy
3.散布図を作成し、予測式の直線を表示してください。 X軸は女性被害者、Y軸は男性被害者。2Dの散布図を作成してください。表示範囲はX軸、Y軸ともに[-1,3]とする。 その散布図に重ねて、予測式の直線を青色で表示してください。

■解答方法 R言語のプログラムを作成し、上記1~3の課題に答えてください。プログラムファイル名は predict.txt として、アップロードしてください。 散布図は predict.pdf というファイル名でPDFとして出力するプログラムにしてください。

[問題解説12] 男性と女性の殺人被害者数の関係は? の続きを読む

福岡県は娯楽産業で活性化

福岡県は娯楽産業で税金収入が増加。商業・製造業労働者の増加も福岡県全体の経済を活性化させる。

福岡県は娯楽産業で活性化(スライド資料)

国勢調査データを使って、福岡県のネットワーク分析を行った。

福岡県の経済社会は女性中心の社会と過去の社会の2つに大きく分かれることが分かった。

福岡県の活性化には以下のことが必要。

最も効果的に税金収入を増やす道は、娯楽産業の活性化である。

商業と製造業の促進も、福岡県全体の経済の活性化につながる。

インフラ整備(電気・ガス・熱・水道業)、教育・学習支援業(塾など)、商業地価格も税収増加の要因となっている。

茨城県、医療・福祉で活性化

茨城県の国勢調査データをネットワーク解析したところ、茨城県の隠れた活性化因子がみつかった。それは、医療・福祉の充実化である。

茨城県では税金収入元と納税者が分かれている。

税金収入の多くは都市部生活者から来ている。

しかし、納税者の多数は農村部に存在している。

つまり、都市部に住む少数の納税者が大部分の税金を収めている。

税金収入を増やすためには都市部の活性化が必要。

だが、茨城全体の経済を活性化させるには医療・福祉の充実化が最も良い政策。

データジャーナリズムの作品を完成

先日、参加したデータジャーナリズムキャンプ&アウォード2103でテームを編成し、一ヶ月間かけてオープンデータを解析し、記事を作成しました。

えっ!ごみ排出量と外国人が日本の活性化に重要?データ解析で分かった意外な日本社会の構造と安全の影響因子

チームは、ジャーナリスト、アナリスト、エンジニア、デザイナーの四人です。私はエンジニアとして、参加しましたが、かなりアナリスト寄りの仕事を担当しました。

チーム名はデータ・ギャラクシーで、解析結果の図がまるで、宇宙の銀河のように見えるので、そのように名づけました。

記事の概要は以下の通りです。

日本は国際的にも安全の国と言われているが、実は安全とはどのような要因に影響受けるのか分かっていない。安全性を示す代表的指標として、犯罪率をとり、経済、社会、教育、労働などに属する127項目の要因をとり上げて、要因間の関係性を解析してみた。

犯罪率との高い相関係数を示す要因は「人口密集度」と「分類不能の産業の従事者数」だった。外国人率との相関係数はやや高かった。全要因のネットワーク分析を行ったところ、日本全体ではきれいに都会と地方の要因群に分かれた。

中心部では「ごみ排出量」「商業従事者」「飲食店」が非常に高いbetweenness示し、ハブ(いわば太陽に)として両側の都会と地方を繋ぐパイプ的役割をしていた。しかし、東京の場合、外国人が重要な要因となっていた。

我々は犯罪を調べようとし、日本社会の全体構造の犯罪の位置を特定しようとしたが、図らずも日本社会を活性化させるハブを見つけ出すことができた。

日本全体の社会要因の相互相関係数ネットワーク図

f:id:infoarchitect:20131226143840p:image

東京の市町村の社会要因の相互相関係数ネットワーク図

f:id:infoarchitect:20131226143831p:image

最初から訳が分からないで走り続けたという感じで、まさにハッカッソン(マラソンから由来するITのイベント)でした。ゴールは全く見えない状態で走り続け、最初は筑波山、次に富士山、最後にヒマラヤ(ちょっと言い過ぎ?)に登りつめた感じです。走り詰めたあとには、ヒマラヤの絶景が見えた感じです。野山を駆け巡り、まさにデータ解析のトレイルランです。とにかく、疲れた、途中で病気にもなったし。