データ・サイエンスとオープンソース

要約

データ・サイエンスとオープンソースデータを有用な情報に変換するためのオープンソース・ツールについて学ぶ。データ・サイエンスでは、データから価値ある情報を抽出することを目的として、数学とコンピューター・サイエンスを組み合わせます。データ・サイエンスとデータ・サイエンティスト。データ・サイエンスが使用されている分野。データ・サイエンスのためのオープンソース・ツール。データ・サイエンスの目的は、データ・セットから有用な情報を抽出することです。目下、データ・サイエンスを大量のデータに適用するためのシステムの構築に取り組むエンジニアと科学者が増えてきています。この記事では、データ・サイエンスという分野について紹介するとともに、データ・サイエンティストが現在使用できるオープンソース・ツールについても紹介します。データ・サイエンスとデータ・サイエンティストデータ・サイエンスは、データを収集することから始まります。収集の候補となるデータは、オープン・データの場合もあれば、内部ビジネス・プロセスから生成されるデータ 例えば、web サイト統計など の場合もあります。オープン・データオープン・データとは、誰もが必要に応じて使用できるように、データを無料で公開することによってデータを民主化するという概念です。データ・サイエンスは、ビジネス・プロセスとして捉えることもできます。O’Reilly 社の Mike Loukides 氏は、データ・サイエンスはデータを情報に変換するだけでなく、製品に変換することでもあると強く訴えています。データ・サイエンティストに必要なのは、コンピューター・サイエンス、数学、および統計学のスキルです。図 1 に、コンピューター・サイエンス、数学と統計学、および専門知識が交わり合う部分に、データ・サイエンスが位置する様子を示します。図 1. データ・サイエンスの主要な学問分野この完全なスキル・セットを持つデータ・サイエンティストは、特定の分野の専門知識と数学を駆使し、コンピューター・サイエンス分野の手法により データをマイニングして精製した情報にするアプリケーションを作成することができます。データ・サイエンスにおける考え方と手法は、他の多くの学問分野でも役に立ちます。データ・サイエンティストになることを目指していないとしても、データ・サイエンスのスキルは、自分のエンジニアリング・ツールの 1 つに加えておくと非常に有用なものになるはずです。上に戻るデータ・サイエンスが使用されている分野クラウド・コンピューティングと同じく、データ・サイエンスは急速に関心を集め、その採用が広まっています。google insights for search 自体も、データ・サイエンスが実際に採用されていた例の 1 つです。図 2. データ・サイエンスへの関心度に関する google insights for search のデータクローリング・ベースの収集であろうと、クリック操作などのユーザーの行動に基づいた内部収集であろうと データをオンラインで収集する組織内では、データ・サイエンスが瞬く間に不可欠な要素になってきています。Google、Amazon、Facebook、LinkedIn などの主要な web サイトはいずれも、それぞれのサイトで入手できるデータを活用するために独自のデータ・サイエンス・チームを設けています 参考文献を参照。Google による pagerank アルゴリズムの開発は、初期の頃のデータ・サイエンスの一例です。Amazon や Walmart などの大規模なオンライン小売業者では、売り上げを伸ばす目的でデータ・サイエンスを使用しています。web が持つ性質を利用した斬新なデータ・サイエンスの一例は、Bitly 社によるものです。上に戻るデータ・サイエンスのためのオープンソース・ツールコンピューター・プログラミングが 1 つの言語または 1 つの開発環境に縛られていないのと同じく、データ・サイエンスに関連付けられるツールやツール・スイートも 1 つだけではありません。データ・サイエンスは、オープンソース・ドメインの多種多様なツールによって促進されています。表 1. データ・サイエンスのためのオープンソース・ツールツール説明Apache Hadoopビッグ・データを処理するためのフレームワークApache Mahout Hadoop 対応のスケーラブルな機械学習アルゴリズムsparkデータ・アナリティクス用クラスター・コンピューティング・フレームワーク統計計算用 r プロジェクトデータ操作とグラフ作成が容易な言語環境python、ruby、perlプロトタイピングおよび本番用スクリプト言語scipy科学計算用 python パッケージscikit-learn機械学習用 python パッケージaxiisインタラクティブなデータ視覚化フレームワーク表 1 に記載しているのは、すべてのツールではなく、データ・サイエンティストのツール・ボックス内で中核となる要素を代表するツールです。hadoop がデータ・サイエンスにとって重要となる理由は、これが分散データ処理用のスケーラブルなフレームワークであるためです。データ・サイエンスで扱うすべての問題にビッグ・データの処理が必要となるわけではありませんが、インターネット規模のデータが関与する問題には hadoop が理想的なフレームワークとなります。ビッグ・データ・フレームワークにおける初期のデータ・サイエンスの一例には、google mapreduce フレームワークによる pagerank アルゴリズムの実装があります hadoop は、mapreduce の実装です。この 2 つのパッケージは、どちらもデータ・サイエンス・プラットフォームとして使用できるように python の機能を拡張します。上に戻るさらに詳しく調べてくださいデータ・サイエンティストの任務は、知識と経験の確固たる基盤の上に成り立ちますが、ツールもまた、データ・サイエンス分野の重要な側面です。データ・サイエンス分野も例外ではありません。データ・サイエンスは比較的新しい分野であるため、多くの新しいツール、データ・プロトコル、データ・フォーマットの開発が進められていることは、ほぼ間違いありませんが、データ・サイエンスでも他の多くの学問分野と同じく、ソリューションの種類の多さと内容の深さでリードしているのは、オープンソースのソリューションです。オープンデータ: ウィキペディアでオープン・データについての説明を読んでください。what is data science mike loukides 著、o’reilly radar、: データ・サイエンスについての優れた説明、そしてデータを製品に変えるという発想を読んでください。growing your own data scientists dan woods 著、forbes、: データ・サイエンティストの定義を調査している、データ・サイエンスの第一人者による連載記事です。

関連書籍

参考記事

データ・サイエンスとオープンソース
https://www.google.co.jp/url?q=http://www.ibm.com/developerworks/jp/opensource/library/os-datascience/&sa=U&ved=0ahUKEwjf3Oz08YDTAhVRNrwKHV_yALc4FBAWCEIwCQ&usg=AFQjCNE8KIqOQ3CvcK5jqhcMHIQBu5SVnQ

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中