カテゴリー別アーカイブ: データマイニング

統計学の興味は個別データではなく、集団に関する情報

以前、データジャーナリズムのイベントでジャーナリストと一緒に仕事をしたが、どうしてもデータに対する考え方の違いがあって、どうにもはっきりしなかった。しかし、量的研究エッセンシャルという記事を見て、自分の中のモヤモヤ感がはっきりした。

簡単に言うと、統計学・データサイエンティストは個別のデータに関心があるのではなく、個別データの背後にある一般的な仕組みや規則に興味がある。一方、ジャーナリストは個々のデータや事件に興味があるのだと思う。それで、両者のデータに関する考え方の違いでどうも通じ合えないのではないだろうか。

記事の内容をまとめてみた。元の記事を見たほうが分かりやすいかもしれないので、是非元記事をみるのをお勧めする。かなり丁寧に書かれた記事であり、更に連載記事なので他の記事も通して読んでみると統計学・データ解析の本質が分かると思う。

(要約)

量的研究での関心事は個別データの背後にある一般的な仕組みや規則を明らかにすることだ。

統計学では個別データは母集団という仮想世界から現実世界へ偶然に生じたものと考える。

データと説明可能なモデルとノイズに分けると確率的考えで変動をうまく説明できる。

量的研究の関心事は個別データではなく、集団に関する情報であり、個性はノイズとみなす。

世の中の現象は多数の要因が絡みあって生じるので予測は確率的にしかできない。

 

広告

統計学・データサイエンスの勉強法

ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。

教師用の教科書と初心者用の教科書

私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日本語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日本はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、その本だけを読めば分かるようになっていると同じ印象を持ちました。

オンライン教育(MOOC)

アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富なコースが無料で受けることができます。有名なのはCoursera, Udacity, EdXがありますが、私はもっぱらCourseraのファンなのでCourseraのコースを紹介します。

1. Machine Learning by Andrew Ng

Courseraの創設者の一人Andrew NGが講師で、ビジュアル的に板書で説明してくれるので、計算の理屈がよく分かりました。Courseraのコースの中で最も授業が上手だと思います。最近、完全に日本語字幕もついたので、かなり受講しやすいです。

2. Johns Hopkins 大学のData Specialization

これは9つのData Science関連コースが合わさったものですが、中のRoger D. Pengのコースがお勧めです。Rの基礎やデータクレンジング等について丁寧に解説してくれます。しかし、Brian Caffoのコースは説明が下手なので、お勧めしません。

お勧めのコース

R Programming 統計プログラミング言語Rの初歩

Exploratory Data Analysis データ解析の予備的解析やデータ探索

Reproducible Research データ解析手順を再現可能にするための技術(ドキュメント化やパブリッシング)

Getting and Cleaning Data データ解析前のデータの整形や洗浄

3. Social Network by Lada Adamic

ソーシャルネットワークやネットワークグラフに興味のある人は取ってみたら良いとおもいます。

4. Mining Massive Datasets from Stanford大学

私はまだコースを受講していませんが、かなりきっちりとカリキュラムが組まれているようです。

授業内容は書籍が出版されているようで、PDF版は無料で見ることができます。良質の教材を惜しみなく無料提供するというStanford大学の太っ腹さには驚かされます。
http://www.mmds.org/

Khan Academy と CK-12

Courseraとは別に高校や大学教養学部レベルのものであれば、Khan AcademyとCK-12を覗いてみるのもよいでしょう。Courseraでは説明が不十分な基礎的な知識はこちらの二つのサイトの動画を見て学びました。

カーンアカデミー(Khan Academy)は講義の動画がYouTubeに載せてあります。

Khan Academyのprobability and statistics

CK-12はあまり有名ではありませんが、 高校レベルの講義資料や教科書を無料提供しており、高校レベルで教えてくれるのでとても助かります。

CK-12のFlexBookという教科書は、PDFやepubで読むことができ講義画像へのリンクもついています。

CK-12の統計コース一覧

CK-12の統計学初歩の教科書

CK-12には他のレベルの統計学の教科書もあります。

書籍

小島 寛之 完全独習 統計学入門 ダイヤモンド社

統計学の初歩として数式を多用せず、分かりやすいのでお勧めです。

涌井良幸 多変量解析がわかる 技術評論社

著者は高校の先生なので非常に丁寧に説明してくれるので、多変量解析のことがよく分かるようになります。

Sebastian Raschka Python機械学習プログラミング

Pythonで機械学習を学ぶには最適。

斎藤康毅 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

ディープラーニングの基礎はこれで学ぼう。

巣籠悠輔 詳解 ディープラーニング ~TensorFlow・Kerasによる時系列データ処理~

本格的にPythonを使ってディープラーニングをやってみるには良い教科書。

Foster Provost 戦略的データサイエンス入門

過学習等、実際にデータ解析を行う際のノウハウが収録されている。

Steven Bird 入門 自然言語処理

自然言語処理の入門書。Pythonでの自然言語処理方法を収録している。

Dan Jurafsky, Speech and Language Processing: International Edition

英語の本ですが、上記の本では物足りない方への本格的な自然言語処理の教科書。

Richard S. Sutton 強化学習

強化学習の定番の教科書。

勉強会

TokyoR

東京で開催されている統計プログラミング言語Rの勉強会です。

一人で勉強していると周りが見えなくなることもありますので、一緒に学ぶ人を見つけるのがよいでしょう。他にも多くの勉強会があるので、探してみましょう。

英語の教材が多くなってしまいました。統計学やデータサイエンスを学んでいくと、やはり欧米の科学教育に対する層の厚さをひしひしと感じます。英語という障壁はありますが、その障害を補っても余りある学習効果があると思いますので、是非英語の教材にも挑戦してみてください。

[問題解説12] 男性と女性の殺人被害者数の関係は?

かなり遅くなってしまいましたが、「男性と女性の殺人被害者数の関係は?」の問題解説をします。

今回の問題は、前回の問題「ヒストグラムと散布図を描いてみよう」の発展問題です。

データとプログラムは下記のGitHubリポジトリーにおいてあります。

問題

世界各国の殺人被害者データを用いて女性被害者数から男性被害者数を予測してみましょう。

UNODC(United Nations Office on Drugs and Crime : 国連薬物犯罪事務所)から公開されている世界176ヶ国の殺人被害者の男女別のデータがあります。女性被害者数から男性被害者数を予測してみましょう。

homicide_log.zipをダウンロードしてください。解凍して、homicide_log.csvを読み込んでください。
男性・女性の殺人被害者数のデータは10を底とする対数化してあります。
元データは下記のページから入手しました。
Global Study on Homicide(殺人に関するグローバル調査)

■課題

1.回帰分析を行ってください。

Rの回帰分析関数 lm() を使用して予測式を求める計算をしてください。

2.予測式の値を答えてください。

男性被害者数をM、女性被害者数をFとすると、以下の予測式が成り立ちます。
M = a * F + b
a, b を小数点3桁まで答えてください。解答方法はプログラムの最終行に以下のように記述してください。
# a = x.xxx
# b = y.yyy
3.散布図を作成し、予測式の直線を表示してください。 X軸は女性被害者、Y軸は男性被害者。2Dの散布図を作成してください。表示範囲はX軸、Y軸ともに[-1,3]とする。 その散布図に重ねて、予測式の直線を青色で表示してください。

■解答方法 R言語のプログラムを作成し、上記1~3の課題に答えてください。プログラムファイル名は predict.txt として、アップロードしてください。 散布図は predict.pdf というファイル名でPDFとして出力するプログラムにしてください。

[問題解説12] 男性と女性の殺人被害者数の関係は? の続きを読む

データジャーナリズムの作品を完成

先日、参加したデータジャーナリズムキャンプ&アウォード2103でテームを編成し、一ヶ月間かけてオープンデータを解析し、記事を作成しました。

えっ!ごみ排出量と外国人が日本の活性化に重要?データ解析で分かった意外な日本社会の構造と安全の影響因子

チームは、ジャーナリスト、アナリスト、エンジニア、デザイナーの四人です。私はエンジニアとして、参加しましたが、かなりアナリスト寄りの仕事を担当しました。

チーム名はデータ・ギャラクシーで、解析結果の図がまるで、宇宙の銀河のように見えるので、そのように名づけました。

記事の概要は以下の通りです。

日本は国際的にも安全の国と言われているが、実は安全とはどのような要因に影響受けるのか分かっていない。安全性を示す代表的指標として、犯罪率をとり、経済、社会、教育、労働などに属する127項目の要因をとり上げて、要因間の関係性を解析してみた。

犯罪率との高い相関係数を示す要因は「人口密集度」と「分類不能の産業の従事者数」だった。外国人率との相関係数はやや高かった。全要因のネットワーク分析を行ったところ、日本全体ではきれいに都会と地方の要因群に分かれた。

中心部では「ごみ排出量」「商業従事者」「飲食店」が非常に高いbetweenness示し、ハブ(いわば太陽に)として両側の都会と地方を繋ぐパイプ的役割をしていた。しかし、東京の場合、外国人が重要な要因となっていた。

我々は犯罪を調べようとし、日本社会の全体構造の犯罪の位置を特定しようとしたが、図らずも日本社会を活性化させるハブを見つけ出すことができた。

日本全体の社会要因の相互相関係数ネットワーク図

f:id:infoarchitect:20131226143840p:image

東京の市町村の社会要因の相互相関係数ネットワーク図

f:id:infoarchitect:20131226143831p:image

最初から訳が分からないで走り続けたという感じで、まさにハッカッソン(マラソンから由来するITのイベント)でした。ゴールは全く見えない状態で走り続け、最初は筑波山、次に富士山、最後にヒマラヤ(ちょっと言い過ぎ?)に登りつめた感じです。走り詰めたあとには、ヒマラヤの絶景が見えた感じです。野山を駆け巡り、まさにデータ解析のトレイルランです。とにかく、疲れた、途中で病気にもなったし。

都知事選解析:舛添、伊豆諸島、東京都東部で人気。田母神を支持する中心部の保守層。

都知事選の選挙結果を解析したところ、舛添氏は伊豆諸島、東京都東部で人気があった。宇都宮氏と田母神氏は対立。宇都宮氏は北部で、田母神氏は中心部で人気。浮動票は細川氏に流れた。

Data Analysis of Tokyo gubematorial election in 2014 revealed that Masuzoe was popular in Izu islands and eastern Tokyo. Utsunomiya was opposed to Tamogami each other. Utsunomiya is popular in the north, although Tamogami is in the center of Tokyo. Floating votes were going into Hosokawa.

先日の都知事選の投票結果は、舛添要一氏が当選し、以下のような順位になった。

1. 舛添要一

2. 宇都宮健児

3. 細川護煕

4. 田母神俊雄

5. 家入一真

6. ドクター・中松

さて、これらの候補者はどの市区町村で得票数を上げたのであろうか。この選挙結果から何か面白いことはわからないだろうか。そこで、私は選挙結果のデータから主成分分析をすることにした。

するど、固有ベクトルは次のようになった。

f:id:infoarchitect:20140214204403p:image:w640

要因1~3の3つの寄与率はそれぞれ86.1%, 9.0%, 4.0%で、累積寄与率99.5%となった。つまり、この3つの要因で、選挙結果の99.5%を説明できるという事だ。要因でプラスに働くものを緑、マイナスを黄色で塗った。

要因1~3の累積寄与率が99.5%なので、上位4位の候補者での票争いとなっている。

要因1は、当選した舛添氏支持者を表しているようだ。この要因1のグループは宇都宮氏と細川氏に反対しているが、積極的に舛添氏を指示しているの舛添派と言える。

要因2は、宇都宮氏は好きだが、田母神氏は嫌いという人々だ。逆にこの値がマイナスだと田母神氏は好きだが、宇都宮氏は嫌いということだ。この要因2のグループは、親宇都宮・反田母神と呼ぼう。

要因3は、舛添氏と宇都宮氏のことは好きだが、細川氏は嫌いというグループだ。細川氏を嫌いという動機で、舛添、宇都宮票を増やしている浮動票の層と言える。したがって、反細川と呼ぼう。

候補者と支持者の相互の関係が分かりにくいので、関係図を書いてみる。

f:id:infoarchitect:20140214204404p:image:w640

全体としては舛添氏の圧勝だ。宇都宮氏と田母神氏が対立している。細川氏は、これと言った特徴も無いので、三者のどれにも投票したくない浮動票を獲得しているようだ。

東京都の市区町村の投票傾向を調べるために、要因1と2のスコアで散布図を書いてみると面白いことが分かってきた。x軸は要因1の舛添派で、右に行くほど舛添支持である。y軸は親宇都宮・反田母神で、上に行けば宇都宮支持、下に行けば田母神支持となっている。

f:id:infoarchitect:20140214204405p:image:w640

図を見ると、舛添氏は伊豆諸島に人気で、江戸川区、墨田区、江東区、葛飾区等の東部でも人気である。東京都の東部とは江戸から続く歴史のある地区で人気という事だ。宇都宮氏は、清瀬市、東久留米市等の北部で人気だ。面白いのは、田母神氏は東京の経済中心地の千代田区、中央区、港区等の支持が強い。

舛添氏は伊豆諸島、東京都東部で人気があり、圧倒的勝利を収めた。田母神氏は得票数が四位であったが、東京都の中心部の千代田区、中央区、港区等で人気であった。東京都の中央部は経済の中心でもあり、富裕層が集中しているが、それらの層が保守化しているのが気になるところである。

Male homicide victims are 3.534 times more than famales

男性の殺人被害者は女性被害者の3.534倍!

Analysis of UNODC Homicide Statistics revealed that male homicide victims are over 3 times more than female victims according to all the countries.

I was motivated by one twipic which suggest male homicide victims looks more than female ones.

https://twitter.com/tmaita77/status/419449210363068416/photo/1

Then I reanalyzed the data from UNODC Homicide Statistics.

http://www.unodc.org/unodc/en/data-and-analysis/homicide.html

When we plot the homicide victims in two axes of male and female victims per 100,000. However, the countries of lower homicide concentrated in left bottom region of the graph.

f:id:infoarchitect:20140121161641p:image

When we show the homicide victims in the logarithmic scale, the country plot are arranged in a blue diagonal line which is calculated in least square method.

f:id:infoarchitect:20140121161642p:image

The least square values tells us that male victims are 3.534 times larger than female with exponential rate of 1.094 as in the following formula of the predicted model.

Male = 3.534 * Female ^ 1.094

On the contrary of our impression that women are frequently homicide victims, however the homicide analysis in the world revealed the opposite result that male victims are 3 times more.

横浜は中学生、中学教師が活性化の鍵。保育園・幼稚園の増加が老人問題解決に

ネットワーク解析で探る横浜市の経済構造

横浜市の国勢調査データのネットワーク解析から以下のことが分かった。

中学生、中学校教師、大型小売店、百貨店の増加が商業を活性化させる。

・交通事故が他にも影響を与えてしまう重要な課題

保育園・幼稚園の増加が老人問題や生活者の問題を解決する

・製造業一般の発展が必要。

Network Analysis of Yokohama City

Junior high school students and teachers, and big stores and department stores will activate the commerce in Yokohama.

The traffic accidents is a critical problem since it affects all aspects of Yokohama economy.

The increase of number of kindergartens will solve the problem of aged people or daily life.

Manufacturing is important for Yokohama.