カテゴリー別アーカイブ: データマイニング

統計学の興味は個別データではなく、集団に関する情報

以前、データジャーナリズムのイベントでジャーナリストと一緒に仕事をしたが、どうしてもデータに対する考え方の違いがあって、どうにもはっきりしなかった。しかし、量的研究エッセンシャルという記事を見て、自分の中のモヤモヤ感がはっきりした。

簡単に言うと、統計学・データサイエンティストは個別のデータに関心があるのではなく、個別データの背後にある一般的な仕組みや規則に興味がある。一方、ジャーナリストは個々のデータや事件に興味があるのだと思う。それで、両者のデータに関する考え方の違いでどうも通じ合えないのではないだろうか。

記事の内容をまとめてみた。元の記事を見たほうが分かりやすいかもしれないので、是非元記事をみるのをお勧めする。かなり丁寧に書かれた記事であり、更に連載記事なので他の記事も通して読んでみると統計学・データ解析の本質が分かると思う。

(要約)

量的研究での関心事は個別データの背後にある一般的な仕組みや規則を明らかにすることだ。

統計学では個別データは母集団という仮想世界から現実世界へ偶然に生じたものと考える。

データと説明可能なモデルとノイズに分けると確率的考えで変動をうまく説明できる。

量的研究の関心事は個別データではなく、集団に関する情報であり、個性はノイズとみなす。

世の中の現象は多数の要因が絡みあって生じるので予測は確率的にしかできない。

 

広告

統計学・データサイエンスの勉強法

ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。

教師用の教科書と初心者用の教科書

私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日本語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日本はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、その本だけを読めば分かるようになっていると同じ印象を持ちました。

オンライン教育(MOOC)

アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富なコースが無料で受けることができます。有名なのはCoursera, Udacity, EdXがありますが、私はもっぱらCourseraのファンなのでCourseraのコースを紹介します。

1. Machine Learning by Andrew Ng

Courseraの創設者の一人Andrew NGが講師で、ビジュアル的に板書で説明してくれるので、計算の理屈がよく分かりました。Courseraのコースの中で最も授業が上手だと思います。最近、完全に日本語字幕もついたので、かなり受講しやすいです。

2. Johns Hopkins 大学のData Specialization

これは9つのData Science関連コースが合わさったものですが、中のRoger D. Pengのコースがお勧めです。Rの基礎やデータクレンジング等について丁寧に解説してくれます。しかし、Brian Caffoのコースは説明が下手なので、お勧めしません。

お勧めのコース

R Programming 統計プログラミング言語Rの初歩

Exploratory Data Analysis データ解析の予備的解析やデータ探索

Reproducible Research データ解析手順を再現可能にするための技術(ドキュメント化やパブリッシング)

Getting and Cleaning Data データ解析前のデータの整形や洗浄

3. Social Network by Lada Adamic

ソーシャルネットワークやネットワークグラフに興味のある人は取ってみたら良いとおもいます。

4. Mining Massive Datasets from Stanford大学

私はまだコースを受講していませんが、かなりきっちりとカリキュラムが組まれているようです。

授業内容は書籍が出版されているようで、PDF版は無料で見ることができます。良質の教材を惜しみなく無料提供するというStanford大学の太っ腹さには驚かされます。
http://www.mmds.org/

Khan Academy と CK-12

Courseraとは別に高校や大学教養学部レベルのものであれば、Khan AcademyとCK-12を覗いてみるのもよいでしょう。Courseraでは説明が不十分な基礎的な知識はこちらの二つのサイトの動画を見て学びました。

カーンアカデミー(Khan Academy)は講義の動画がYouTubeに載せてあります。

Khan Academyのprobability and statistics

CK-12はあまり有名ではありませんが、 高校レベルの講義資料や教科書を無料提供しており、高校レベルで教えてくれるのでとても助かります。

CK-12のFlexBookという教科書は、PDFやepubで読むことができ講義画像へのリンクもついています。

CK-12の統計コース一覧

CK-12の統計学初歩の教科書

CK-12には他のレベルの統計学の教科書もあります。

書籍

小島 寛之 完全独習 統計学入門 ダイヤモンド社

統計学の初歩として数式を多用せず、分かりやすいのでお勧めです。

涌井良幸 多変量解析がわかる 技術評論社

著者は高校の先生なので非常に丁寧に説明してくれるので、多変量解析のことがよく分かるようになります。

Foster Provost 戦略的データサイエンス入門

過学習等、実際にデータ解析を行う際のノウハウが収録されている。

Steven Bird 入門 自然言語処理

自然言語処理の入門書。Pythonでの自然言語処理方法を収録している。

勉強会

TokyoR

東京で開催されている統計プログラミング言語Rの勉強会です。

一人で勉強していると周りが見えなくなることもありますので、一緒に学ぶ人を見つけるのがよいでしょう。他にも多くの勉強会があるので、探してみましょう。

英語の教材が多くなってしまいました。統計学やデータサイエンスを学んでいくと、やはり欧米の科学教育に対する層の厚さをひしひしと感じます。英語という障壁はありますが、その障害を補っても余りある学習効果があると思いますので、是非英語の教材にも挑戦してみてください。

[問題解説12] 男性と女性の殺人被害者数の関係は?

かなり遅くなってしまいましたが、「男性と女性の殺人被害者数の関係は?」の問題解説をします。

今回の問題は、前回の問題「ヒストグラムと散布図を描いてみよう」の発展問題です。

データとプログラムは下記のGitHubリポジトリーにおいてあります。

問題

世界各国の殺人被害者データを用いて女性被害者数から男性被害者数を予測してみましょう。

UNODC(United Nations Office on Drugs and Crime : 国連薬物犯罪事務所)から公開されている世界176ヶ国の殺人被害者の男女別のデータがあります。女性被害者数から男性被害者数を予測してみましょう。

homicide_log.zipをダウンロードしてください。解凍して、homicide_log.csvを読み込んでください。
男性・女性の殺人被害者数のデータは10を底とする対数化してあります。
元データは下記のページから入手しました。
Global Study on Homicide(殺人に関するグローバル調査)

■課題

1.回帰分析を行ってください。

Rの回帰分析関数 lm() を使用して予測式を求める計算をしてください。

2.予測式の値を答えてください。

男性被害者数をM、女性被害者数をFとすると、以下の予測式が成り立ちます。
M = a * F + b
a, b を小数点3桁まで答えてください。解答方法はプログラムの最終行に以下のように記述してください。
# a = x.xxx
# b = y.yyy
3.散布図を作成し、予測式の直線を表示してください。 X軸は女性被害者、Y軸は男性被害者。2Dの散布図を作成してください。表示範囲はX軸、Y軸ともに[-1,3]とする。 その散布図に重ねて、予測式の直線を青色で表示してください。

■解答方法 R言語のプログラムを作成し、上記1~3の課題に答えてください。プログラムファイル名は predict.txt として、アップロードしてください。 散布図は predict.pdf というファイル名でPDFとして出力するプログラムにしてください。

[問題解説12] 男性と女性の殺人被害者数の関係は? の続きを読む

東京は外国人・起業家・自営業で活性化

東京都のネットワーク解析

データ解析の結果、東京の活性化には以下の項目が必要なことが分かった。

・外国人の優遇措置、観光促進

・起業家・自営業(フリーランス)の優遇で税収増

・日本食や日本の農産物のブランド化

・独居老人問題への対策

スライド資料

英語版ブログはこちら。

Foreigners Activate Tokyo, but Lone Seniors Have a Problem

データマイニングと多様化の時代

最近、データマイニングについて調べ、研究会やシンポジウムに参加して情報収集している。経済界では、ビッグデータという言葉が流行になっており、データの重要性が叫ばれているようだ。データが大量にあるので、データマイニングの仕事が必要になっているということだ。データマイニング業界には風が吹いているのだ。

インターネットの発達によりデータが大量に作られるようになった。そのため、データマイニングというと仕事が発生したのだと以前は思っていた。

しかし、良く考えてみると、データマイニング熱の高まりは単にデータが多いからという表面的なものではなく、実は社会変化の本質的な必然性から発生したのではないかと思うようになった。

今の時代は経済不況が続き、市場の閉塞感が蔓延しており、私を含めて、多くの日本人がどのように生きていけばいいのか分からない状況だ。

以下のブログを読んだとき、はたと気づいた。現代社会は多様性が必要になってきたから、データマイニングが必要になったのではと思ったのだ。

私たちが「豊かな生き方」をするのに必要なもの/競争でも平等でもなく、多様化を!

http://d.hatena.ne.jp/Rootport/20111206/1323172032

教育の世界でも画一性ではなく、多様性が必要だ。

平均主義が敗北する時代

http://kasakoblog.exblog.jp/17016291/

大学でも小中高でも平均主義が蔓延していて、多様な人材が必要とされているが、どのようにその多様な人材を作るのか当事者たちは分かっていない。

f:id:infoarchitect:20121224232657p:image

高度経済成長期のもの見方はこの正規分布的に物を見るのだと思う。横軸は、成績、IQ、年齢、身長などが来る。縦軸は頻度で人口などが来る。人間の能力の分布も正規分布とみなし、平均が存在する。確かに、成績、IQ、年齢、身長は正規分布に従う。

そこで、過去の高度経済成長期のおじさんたちは、教育にしても、広告を打つにしても、人口の一番多いところ、つまり、平均を狙い撃ちして、成果を挙げた来たのだ。

残念ながら、この一つの尺度でモノを見るのは、統計学でも初級と言えよう。それでも、このやり方でそこそこうまく行っていたのが、右肩上がりの経済の時代なのだ。

ものの値段が安すぎる!‐24時間残念営業

http://lkhjkljkljdkljl.hatenablog.com/entry/2012/12/19/112633

今や、グローバル化が進み、小売業の効率化はもう既に限界まで来ていて、ものは溢れ、飽和状態になっている。。何か新しい付加価値をつけなければ、モノは売れないのだ。人間も金太郎飴のように同じ能力・性格の人間は必要ではなく、他人と違う多様性を持った個性が必要となってしまったのだ。

データマイニングで多くなっているデータは、多くの成分を持った多次元データである。

例えば、生徒の成績なら、国語、理科、社会などの科目点数が成分であり、三教科ならば三次元となる。

生徒 国語 理科 社会

生徒1 70点 80点 50点

生徒2 73点 25点 65点

・・・

成分を増やすことにより、次元数は増やすことができる。ビッグデータがもてはやされて、データのエントリー数が増えているのも確かだが、データも高次元化している。高次元のデータから有効な次元を取り出して、分類などを行うのがデータマイニングの本質だ。

結論としては、経済界でビッグデータと騒がれているの本当の原因は人間の多様性が必要となっているからだ。人間を単一の尺度(1次元)で測りきれなくなり、多次元で図ってみるが、どれが重要な次元(軸)か分からないので、コンピュータの力を借りて、顧客の多様性を知ろうとしているのだ。

残念ながら、経済界で起こっていることは、教育界ではまだ見えてきていない。

ウィリアム・ギブソンの言葉を引用して、この議論を終わりとする。

The future is already here — it’s just not very evenly distributed.

未来は既にここにある。ただ均等に分布していないだけだ。

沖縄、渡り鳥的生活からアジアの経済ハブへ

国勢調査データを元に沖縄の経済構造をネットワーク分析した。

沖縄、渡り鳥的生活からアジアの経済ハブへ (スライド資料)

沖縄は、1) 子育ての世界、2)学校中心の老人世界、3) 2つの世界をつなぐ移住性の渡り鳥的生活者の世界の3つに分かれる。

沖縄は転入と転出が多く、人的流動性の高い生活スタイルとなっている。

人的流動性を活かし、シンガポールのように人や物の流通のハブとなる政策が有効であるように思う。沖縄は新興国の中国と東南アジアの中心に位置し、アジア経済のハブとしての地理的条件も十分にある。アジアの経済ハブとして、空港、港湾等整備、税金の免除など政策が必要である。

英語版の記事はこちら

Okinawa, A Migratory Life Divided into Child-Caring Family and the Old

LinuxへのMeCabとRMeCabのインストール

Linuxに日本語形態素解析ツールのMeCabとRMeCabをインストールしてみた

1. Reference

http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

2. Download

mecab-0.994.tar.gz

mecab-ipadic-2.7.0-20070801.tar.gz

3. Installation

3.1 Excutable Installation

$ tar xvf mecab-0.994.tar.gz

$ cd mecab-0.994

$ ./configure –with-charset=utf8

$ make

$ make check

$ su

# make install

Installed in /usr/local/bin/mecab

3.3 Dictionary Installation

$ tar xvf mecab-ipadic-2.7.0-20070801.tar.gz

$ cd mecab-ipadic-2.7.0-20070801

$ ./configure –with-charset=utf8

$ make

$ su

# make install

Installed in /usr/lcoal/lib/mecab/dic

4. Check

$ mecab

すもももももももものうち

すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ

も 助詞,係助詞,*,*,*,*,も,モ,モ

もも 名詞,一般,*,*,*,*,もも,モモ,モモ

も 助詞,係助詞,*,*,*,*,も,モ,モ

もも 名詞,一般,*,*,*,*,もも,モモ,モモ

の 助詞,連体化,*,*,*,*,の,ノ,ノ

うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ

EOS

5. RMeCab from the following URL.

http://web.ias.tokushima-u.ac.jp/linguistik/u64.html

RMeCab_0.996_R_x86_64-unknown-linux-gnu.tar.gz

$ tar xvf RMeCab_0.996_R_x86_64-unknown-linux-gnu.tar.gz

$ sudo R CMD INSTALL RMeCab_0.996_R_x86_64-unknown-linux-gnu.tar.gz

5.1 Fix of lib linkage

$ sudo vi /etc/ld.so.conf.d/lib.conf

Add one line:

/usr/local/lib

$ sudo ldconfig

6. Reference Book