カテゴリー別アーカイブ: 自動要約

GEのデータ・サイエンティストが語る「アウトカム=成果のためのビッグデータ分析」

要約

GEのデータ・サイエンティストが語るアウトカム=成果のためのビッグデータ分析。ビッグデータ分析、と聞くとありとあらゆるデータを収集し、とてつもないコンピューティング・パワーで総当たりして分析を繰り返す、などと想像して尻込みしてしまうかもしれません。しかし、GE Digitalのデータ・サイエンティスト、アレクサンダー・ロスによれば現状、ちゃんとタグ付けされて利用可能なデータは全体のわずか3%。ビッグデータという言葉は大きな可能性を漂わせているものの、現状では、データから価値を生み出す機会は限定的にしか存在していません。アレクサンダー・ロスGE Digital エグゼクティブ・ディレクター(データ・サイエンティスト)

ビッグデータの定義としてよく言われるのが3v、すなわち、ボリューム(volume:データ量)、バラエティ(variety:データの多様性)、ベロシティ(velocity:発生頻度)。データ・サイエンティストは、どのようにビッグデータ分析を行っているのでしょう?以下のような、3つの手法を組み合わせたハイブリッドな分析が有効だ、とロスは言います。しかし、インダストリアル領域におけるデータがまだ不十分なことや、過去に発生しなかった事象はデータがないため分析できないなどの弱点が。しかしその答えは、すでにお持ちのデータの中にもきっとありますよとロス。

お勧め書籍

参考記事

GEのデータ・サイエンティストが語る「アウトカム=成果のためのビッグデータ分析」 – GE Reports Japan

データサイエンティストの仕事の魅力

要約

ビジネス 数十億円の利益を生むデータ分析 そこに求められるスキルとは。リクルートライフスタイルでデータサイエンティストとして働く松本健さんにお話を聞きました。じゃらんやポンパレ、airレジなど多様なインターネットサービスを提供する同社において、データ分析がどのように活用されているのか、それらの業務を行うデータサイエンティストとはどんな仕事なのか、現場のスペシャリストが語ります。株式会社リクルートライフスタイル データサイエンティスト 松本健 氏。

日本で初めてリスティング広告の自動入札ツールを開発まだデータサイエンティストという職種がなかったデータ分析の仕事は2種類ある。現在はカスタマーのインサイトの把握に注力社内でデータサイエンティストが評価され始めた必要とされるスキルは3つ。

まだデータサイエンティストという職種がなかった。

――入社されてすぐにデータサイエンティストになったんですか。

入社するときに、人事の人から分析の仕事ができなかったらどうしますかとか、いろいろ聞かれましたけど、ひたすらとりあえずデータを預けてください、そうしたら素敵な結果を返しますと答えていました。当時はデータサイエンティストという言葉も、ビックデータという言葉もなくて、データマイニングが流行っていた頃ですね。アナリストとかデータマイナーという言葉はあったんですけど、リクルートに入ってみると、どちらもいなかったし、そんな部署もなかった。当時はデータマイニングチームがあったので、そこにジョインして、またいちから人を集め始めました。データ分析の仕事は2種類ある。

――データのチームは、具体的にどんなお仕事をされるんですか。

データチームでは主にこの2つをやっています。最初は、施策の実行部隊に近いところで分析をすることで、データチームの存在感を見せることもできるし、こんな施策に、こんな分析が使えるんだというのがわかるので、施策をやってるwebマーケティンググループとか、CRMをやっているCRMグループにくっついて仕事をしていました。それでいまはプロデューサーの配下にデータサイエンティストがついています。かつ、データだけでなく、なぜ、そこの層が悪くなったのかという説明を理論立てて整理した解答集を作りたいんです。

――データサイエンティストの評価ポイントはどういったところにあるのでしょうか。

例えばデータを活用したことで、何億円の売上が上がったと評価してもらえます。社内でデータサイエンティストが評価され始めた。

――データサイエンティストという存在が社内で尊重されてきているということですか。

――データサイエンティストに必要なスキルとはどのようなものですか。

松本:データサイエンティストのスキルは、1か0じゃなくて、幅広いんです。ハッキングスキルとも言われますけど、でっかいデータをちゃんとぶん回す実行力を持った人。この3つのスキルがデータサイエンティストの3要素と言われていて、すごく重要なんですね。最新のビッグデータ分析の世界、予測的アナリティクスから次の分析ステージへ。キャリアデータサイエンスデータサイエンティストデータ分析リクルートリクルートホールディングスリクルートライフスタイル松本健キャリア,データサイエンス,データサイエンティスト,データ分析,リクルート,リクルートホールディングス,リクルートライフスタイル,松本健。

参考記事

データサイエンティストの仕事の魅力を専門家が語る – ログミー

データ・サイエンスとオープンソース

要約

データ・サイエンスとオープンソースデータを有用な情報に変換するためのオープンソース・ツールについて学ぶ。データ・サイエンスでは、データから価値ある情報を抽出することを目的として、数学とコンピューター・サイエンスを組み合わせます。データ・サイエンスとデータ・サイエンティスト。データ・サイエンスが使用されている分野。データ・サイエンスのためのオープンソース・ツール。データ・サイエンスの目的は、データ・セットから有用な情報を抽出することです。目下、データ・サイエンスを大量のデータに適用するためのシステムの構築に取り組むエンジニアと科学者が増えてきています。この記事では、データ・サイエンスという分野について紹介するとともに、データ・サイエンティストが現在使用できるオープンソース・ツールについても紹介します。データ・サイエンスとデータ・サイエンティストデータ・サイエンスは、データを収集することから始まります。収集の候補となるデータは、オープン・データの場合もあれば、内部ビジネス・プロセスから生成されるデータ 例えば、web サイト統計など の場合もあります。オープン・データオープン・データとは、誰もが必要に応じて使用できるように、データを無料で公開することによってデータを民主化するという概念です。データ・サイエンスは、ビジネス・プロセスとして捉えることもできます。O’Reilly 社の Mike Loukides 氏は、データ・サイエンスはデータを情報に変換するだけでなく、製品に変換することでもあると強く訴えています。データ・サイエンティストに必要なのは、コンピューター・サイエンス、数学、および統計学のスキルです。図 1 に、コンピューター・サイエンス、数学と統計学、および専門知識が交わり合う部分に、データ・サイエンスが位置する様子を示します。図 1. データ・サイエンスの主要な学問分野この完全なスキル・セットを持つデータ・サイエンティストは、特定の分野の専門知識と数学を駆使し、コンピューター・サイエンス分野の手法により データをマイニングして精製した情報にするアプリケーションを作成することができます。データ・サイエンスにおける考え方と手法は、他の多くの学問分野でも役に立ちます。データ・サイエンティストになることを目指していないとしても、データ・サイエンスのスキルは、自分のエンジニアリング・ツールの 1 つに加えておくと非常に有用なものになるはずです。上に戻るデータ・サイエンスが使用されている分野クラウド・コンピューティングと同じく、データ・サイエンスは急速に関心を集め、その採用が広まっています。google insights for search 自体も、データ・サイエンスが実際に採用されていた例の 1 つです。図 2. データ・サイエンスへの関心度に関する google insights for search のデータクローリング・ベースの収集であろうと、クリック操作などのユーザーの行動に基づいた内部収集であろうと データをオンラインで収集する組織内では、データ・サイエンスが瞬く間に不可欠な要素になってきています。Google、Amazon、Facebook、LinkedIn などの主要な web サイトはいずれも、それぞれのサイトで入手できるデータを活用するために独自のデータ・サイエンス・チームを設けています 参考文献を参照。Google による pagerank アルゴリズムの開発は、初期の頃のデータ・サイエンスの一例です。Amazon や Walmart などの大規模なオンライン小売業者では、売り上げを伸ばす目的でデータ・サイエンスを使用しています。web が持つ性質を利用した斬新なデータ・サイエンスの一例は、Bitly 社によるものです。上に戻るデータ・サイエンスのためのオープンソース・ツールコンピューター・プログラミングが 1 つの言語または 1 つの開発環境に縛られていないのと同じく、データ・サイエンスに関連付けられるツールやツール・スイートも 1 つだけではありません。データ・サイエンスは、オープンソース・ドメインの多種多様なツールによって促進されています。表 1. データ・サイエンスのためのオープンソース・ツールツール説明Apache Hadoopビッグ・データを処理するためのフレームワークApache Mahout Hadoop 対応のスケーラブルな機械学習アルゴリズムsparkデータ・アナリティクス用クラスター・コンピューティング・フレームワーク統計計算用 r プロジェクトデータ操作とグラフ作成が容易な言語環境python、ruby、perlプロトタイピングおよび本番用スクリプト言語scipy科学計算用 python パッケージscikit-learn機械学習用 python パッケージaxiisインタラクティブなデータ視覚化フレームワーク表 1 に記載しているのは、すべてのツールではなく、データ・サイエンティストのツール・ボックス内で中核となる要素を代表するツールです。hadoop がデータ・サイエンスにとって重要となる理由は、これが分散データ処理用のスケーラブルなフレームワークであるためです。データ・サイエンスで扱うすべての問題にビッグ・データの処理が必要となるわけではありませんが、インターネット規模のデータが関与する問題には hadoop が理想的なフレームワークとなります。ビッグ・データ・フレームワークにおける初期のデータ・サイエンスの一例には、google mapreduce フレームワークによる pagerank アルゴリズムの実装があります hadoop は、mapreduce の実装です。この 2 つのパッケージは、どちらもデータ・サイエンス・プラットフォームとして使用できるように python の機能を拡張します。上に戻るさらに詳しく調べてくださいデータ・サイエンティストの任務は、知識と経験の確固たる基盤の上に成り立ちますが、ツールもまた、データ・サイエンス分野の重要な側面です。データ・サイエンス分野も例外ではありません。データ・サイエンスは比較的新しい分野であるため、多くの新しいツール、データ・プロトコル、データ・フォーマットの開発が進められていることは、ほぼ間違いありませんが、データ・サイエンスでも他の多くの学問分野と同じく、ソリューションの種類の多さと内容の深さでリードしているのは、オープンソースのソリューションです。オープンデータ: ウィキペディアでオープン・データについての説明を読んでください。what is data science mike loukides 著、o’reilly radar、: データ・サイエンスについての優れた説明、そしてデータを製品に変えるという発想を読んでください。growing your own data scientists dan woods 著、forbes、: データ・サイエンティストの定義を調査している、データ・サイエンスの第一人者による連載記事です。

関連書籍

参考記事

データ・サイエンスとオープンソース
https://www.google.co.jp/url?q=http://www.ibm.com/developerworks/jp/opensource/library/os-datascience/&sa=U&ved=0ahUKEwjf3Oz08YDTAhVRNrwKHV_yALc4FBAWCEIwCQ&usg=AFQjCNE8KIqOQ3CvcK5jqhcMHIQBu5SVnQ

データサイエンティストになる方法、仕事内容、スキル

要約

データサイエンティストになる方法、仕事内容、スキルとは。データサイエンティストの仕事を深堀りエン・ジャパン・イノベーションラボに所属しているマシューがデータサイエンティストになる方法、求められるスキル、そして仕事内容をお伝えします。

▼連載第1回はこちらデータサイエンティストのスキルを徹底解剖マシューのデータサイエンスatoz vol.1。データサイエンティストのスキルセット。連載の第2回目はデータサイエンティストに求められる具体的なスキルと仕事内容をイノベーションラボの事例も挙げながらご紹介したいと思います。

データサイエンティストではない方も、web・IT業界に身をおいているならば、データサイエンスは21世紀の仕事だと様々なメディアで目にする機会が数多くあるのではないでしょうか。人々や企業、政府が大量のデータを生み出し、保持するようになったいま、その膨大なデータから意味を見出す能力を持つ人材に対してのニーズは間違いなく高まっています。完璧なデータサイエンティストに求められるスキルはあまりに広範かつ高度なので、ユニコーンと同じくらい珍しいあるいは存在しないものと言われることもあるんです。実際は、データサイエンティストの仕事にはプログラミング技術、数学と統計学、そしてビジネスの知識が組み合わされた形で必要とされ、時にはそのすべてが求められる場合もあります。ここであらためてデータサイエンティストに求められるスキルを細かく見てみましょう。またデータサイエンティストに求められるスキルは、企業やチームの大きさによって異なってきます。大きな企業では通常、データサイエンティストは、他のデータサイエンティストやエンジニアとチームを組んで仕事に取り組みます。このような場合では、たいてい、物理学、数学、統計学、もしくはコンピューターサイエンスに関する深い専門性を持つ博士号レベルのデータサイエンティストの方が好まれます。まだできて1年足らずのチームですが、データサイエンスチームの全メンバーデータサイエンティスト、エンジニアは、コンピューターサイエンスや関連領域の修士号を取得しています。不満買取センターでは企業のカスタマサービスやマーケティング担当者が、製品や企業、業界に関する不満データを探せるTOB向けサービスも同時に開発・運用しています。このサービスを実現させるために、私たちデータサイエンスチームは、すべての投稿生データを分析できる、高度な日本語文章分析のインフラを実装しました。この種のデータの大部分は短い文、そしてカテゴリ化されていない、最も分析が難しい種類のデータです。データに関するレポートを作るには、ビジネスサイドのニーズを理解し、データからわかりやすいレポートを作る方法を把握する必要があるからです。加えて、レポートとデータ作成のためにr、python、java、excelを毎日使っています。データサイエンティストになる方法。プロのデータサイエンティストは何よりも、様々なデータから本当のビジネス価値を得るために、多岐にわたるスキルを効果的かつ同時に発揮する必要があります。では、どうすればデータサイエンティストになれるのでしょうか私の考えでは、読者のタイプによって3種類のルートがあると思います。機械学習やデータマイニング、レコメンドエンジン、といったテーマに関するコンピューターサイエンスの論文は、実務応用への理解をきっと促してくれるはずです。手始めにRの学習とデータマイニングの本を読むことがスタートラインになるかもしれません。

参考文献

Rによるデータサイエンス-データ解析の基礎から最新手法まで data mining: concepts and techniques, third edition。

いかがでしたかデータサイエンティストになるには、複数のスキルを組み合わせることが近道です。もしデータサイエンティストを目指すのであれば、まずは現在持っているスキルセットを見なおしてみるところからはじめてみましょう。次回はデータサイエンティストチームのこれからというテーマで、データサイエンティストがこれからより一層求められてくる分野や新しく提示できる価値などをご紹介したいと思います。エンジニアデータマイニング寄稿データサイエンティスト。

参考記事

データサイエンティストになる方法、仕事内容、スキルとは?マシューのデータサイエンスAtoZ Vol.2

データサイエンティストとはどんな職業?

要約

データサイエンティストとは、どのような職業なのかどうすればなれるのかライフハッカー日本版。スマートフォン。how i work。© mediagene inc.。lifehacker us/。メディアジーンサイト一覧。データサイエンティストとは、どのような職業なのかどうすればなれるのか。しかし、データサイエンティストは実際に何をしているのでしょうかまた、どうすればその職種につけるのでしょうかデータサイエンティストになるために知っておくべきことを、以下に記します。データサイエンティストとは、どのような職業なのか。facebookのアカウントにはユーザーの貴重な情報がつまっていることや、googleが個人についてのあらゆる情報を把握したいと意図していることは知られていますが、昨今では小規模なスタートアップ起業であっても事業戦略に転用するために、さまざまなデータを収集しています。しかし、多くの場合、企業が収集している生データは非常に乱雑なものです。データサイエンティストの仕事は、統計学、コンピュータサイエンス、データ分析を駆使して、膨大なデータを構造化しながら整理して、起業がデータを活用したアクションを起こすために必要な情報となるように、解析結果を導き出すというものです。データサイエンティストは、テラバイト単位のデータを解析している最中は、自分たちが何を探すべきなのかをまだ把握していないことがあります。しかし、ひとたび興味深いデータを見つけた時には、それがわかります。また、データサイエンティストは、発見した情報の意味を適切な表現で他人に伝える必要があります。通常の管理職は、データサイエンティストほどデータ分析の言葉に精通していないからです。要するに、データサイエンティストは、大量のデータを分析し、それらのデータを実行可能な事業戦略に変換するのが仕事です。このようなことから、データサイエンティストという職種の未来は明るく、安泰であると期待されています。データサイエンティストに必要なスキルは何か。データサイエンスは変化が急速で、分野としての明確な定義もないため、データサイエンティストが持っているスキルは多岐に渡ります。彼らのほとんどが統計学、データ分析、数学などの何らかの訓練を受けています。そしてほぼ全員が、データ保存、統計学、機械学習などに使用される言語特にpython、R、Hadoop、SQLなどによるプログラミングの経験を持っています。手始めに学ぶなら、データ解析において特に人気があるpythonが最適でしょう。また、MatLab、SAS、minitabなどの別のデータ分析プログラムを知っていれば、なお役立つでしょう。機械学習人工知能による学習や統計学、データ分析に関する知識のない人たちに、きちんと説明する能力も非常に重要です。データサイエンティストを志望するなら、現在取り組んでいる分野の内外を問わず、複数の分野における経験が価値を持ちます。データサイエンティストは、アプリ開発から確率論まで、異なる分野のさまざまなツールを使って仕事をする必要があります。多くのデータサイエンティストは、情報科学者か統計学者からキャリアをスタートし、仕事をしながら必要なスキルを身につけていきます。データサイエンティストは、収集したデータを扱いやすい形に変換し、筋道立てて説明できるようにした上で、その物語を他人に伝えるのが仕事です。最後に、adobeが発信するデータサイエンティストの生活を解説した1分間のビデオをご紹介します。データサイエンティストの仕事に関心がある方は、これを見たらきっと奮起することでしょう。pr,webサービス,スタディ,スポーツ・運動,健康 – by 三浦一紀like。データサイエンティスト データ分析で会社を動かす知的仕事人 sb新書。次へ。hot entries。amazon sales top5。マイクロタップ 4個口。

関連書籍

参考記事

データサイエンティストとは、どのような職業なのか? どうすればなれるのか?

社会人のためのデータサイエンス講座

要約

総務省統計局 データサイエンス・オンライン講座:gacco。ビジネスのあらゆる現場で求められています。本講座は平成に再開講いたします。紹介動画を見る。入門者にあわせた カリキュラム。いつでもどこでも、 スマホでも学習できる。※1。東京大学 西内 啓。統計数理研究所 土屋 隆裕。日本統計学会監修。各週課題多肢選択問題10問程度 最終課題多肢選択問題30問程度。修了条件。最高の講師陣による本気の授業。講座詳細をみる。会員登録する。受講ガイドはこちら。gaccoについてページへ。インターネット環境とパソコン・スマートフォン等が必要になります。2012年より米国を中心として、主要大学および有名教授によるオープンオンライン講座として公開され、世界中から3,500万人以上が受講している。ともだちに教えよう。copyright © o gacco, inc., except where noted, all rights reserved.。

参考書籍

参考記事

社会人のためのデータサイエンス入門

 

データサイエンスお薦め書籍

要約

スマートフォン用の表示で見る。スターをつけました。引用するにはまずログインしてください。読者です。元祖銀座で働くデータサイエンティストです / 道玄坂→銀座→東京→六本木。データサイエンティスト。統計学。機械学習。photo via visual hunt。最近になってまた色々とデータサイエンティストを目指す人向けのお薦め書籍リストとか資料リストとかが出てきてるんですが、個人的には何かと思うところがあるので僕も適当にまとめておきます。*1。初級者向け5冊。続編としてスクラッチから組んでいく本が出るという噂もありますが、それはおいおい。手を動かしながら学ぶ ビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: 技術評論社発売日: メディア: 単行本ソフトカバーこの商品を含むブログ 6件 を見るはい、手前味噌ですが昨年出版した拙著でございます笑。ただの宣伝でごめんなさい。基礎と検定論をメインに扱った赤本線形モデルや一般化線形モデルglmを扱った青本、そして系列相関や不均一分散といった特徴を持つ社会科学データに対するアプローチを扱った緑本、とテーマが綺麗に分かれているので、可能であれば3冊とも揃えておくと良いと思います。実際に階層ベイズを用いてどのような問題に臨むべきかについてなど、細かい事例が詰まった良書です。なお先生のラボでも輪読で用いられたそうです。単に数式を追うだけでなく、その結果としての実装についてもイメージをつかみやすいです。現在主流のdnn、cnn、rnnなど一通りのdeep learningの基礎がコンパクトにまとめられています。ただし実践例については学術書につきあまり詳しくないので、例えばrでの実践例についてはこのブログの関連記事一覧時系列分析 カテゴリーの記事一覧 – 六本木で働くデータサイエンティストのブログなどお読み下されば良いかなと笑。twitterなどで大きな声で騒げばきっと誰かがマサカリを投げつけがてら教えてくれることでしょう。先生本トピックモデルによる統計的潜在意味解析 自然言語処理シリーズを積ん読にしたっきりなもので、その辺はご容赦を。価格を抑えるために紙版だと印刷が粗いのが珠に疵かと汗。岩波データサイエンス:そして僕も刊行委員会に名前を連ねるこのシリーズ。まだ刊行が始まったばかりですが、ひとまず第1期全6巻の刊行は決まっておりますので、ぜひぜひ皆さんお読み下さい。最後に:スキル要件やら定義やらといった話題について。そうそう、何とか協会がデータサイエンティストのスキル定義みたいなものを出してましたが*7、2年以上前の記事で僕は以下のように指摘しています。もう少し大まかな人材像を提示するに留めて、そこに至る道筋の多様性を認める方がよほど有用ではないでしょうか。それこそ上に挙げた本を全部読みこなして大体実践できます、ぐらいでちょうど良いはず。もっと読む。コメントを書く。”gradient boosted feature selection” x。id:tjo。takashi j. ozaki, ph.d.。data scientistenglish: ・見解の表明であり、所属組織の意見・見解を代表しません。改変した事実は明示されることもあれば明示されないこともあります。現在、講演依頼・書籍執筆依頼・メディア出演依頼等は全てお断りしております。業績一覧:google scholar citations。科研費情報:kaken。ご連絡は出来るだけlinkedinメッセージでお願いいたします。人気エントリー。データ分析。異常検知。旅行記。deeplearning実践シリーズ。bugs/stan。最適化計画。状態空間。テキストマイニング。自己紹介。最新記事。ベイズ構造時系列モデルを推定する{bsts}パッケージを試してみた。人工知能に関する断創録。月別アーカイブ。忍者アナライズ。powered by hatena blog。ブログを報告する。

関連書籍

参考記事

データサイエンティストを目指すというかデータ分析を生業にするなら読んでおきたい初級者向け5冊&中級者向け12冊(2015年冬版)