2016年10月25日火曜日

こんな僕でもデータサイエンティストになれた秘密


こんな僕(前職分析業、ゲーム業無関係)…
統計の講義2回受講しただけの子がいかにデータサイエンティストになれたかの
奇跡(間違い、軌跡)を描くスライド公開!


データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密 from Ryo Matsuura

データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
  1. 1. データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密 2016/10/21 澪標アナリティクス株式会社
  1. 2. 会社概要 会 社 名: 澪標アナリティクス株式会社 代表取締役: 井原 渉 顧 問: 川村 秀憲(北海道大学教授) 栗原 聡(電気通信大学教授) 所 在 地: 東京都中央区日本橋茅場町1丁目10-8 グリンヒルビル6階 事 業 内 容: データ分析に関する各種事業 アドバイザリーサービス 教育研修 分析組織・IT基盤構築 分析官派遣 受託分析 U R L : http://www.mioana.com/ ©Miotsukushi Analytics Inc. 2016, All rights reserved. 2
  1. 3. 話者紹介 3 澪標アナリティクス 松浦 遼(アナリスト・シニアコンサルタント) データ分析と全く関係ない業界から、紆余曲折あり澪標アナリティクスに入社。 上場ソーシャルゲームプラットフォーム運営企業の分析チーム立ち上げプロジェクトに一年弱参画。 ブラウザゲーム・ネイティブアプリ・プラットフォームの分析について、分析設計や実分析作業とそのノウハウ共有、社内報告会 などを担当。 その後、上場ソーシャルゲーム運営企業の分析チーム立ち上げプロジェクトにてコンサルタント・アナリストとして数ヶ月参画。 現在は、国内最大級ゲーム企業の大規模ゲームログの集計・分析プロジェクトをプロジェクトマネージャとして推進し、 十名規模の分析チームのマネージャ業務を行っている。 その他複数のゲーム分析プロジェクトへ、プロジェクトマネージャおよびチーフアナリストとして参画。 主な実績 ・ゲーム分析組織構築 ・ブラウザゲーム・ネイティブアプリのログ要件設計 ・ゲーム内詳細KPI設定と監視 ・ゲームログによる継続率・課金率・LTV予測分析 ・その他ゲーム内課題に対するアドホック調査分析
  1. 4. Agenda 序.ゲーム分析とデータサイエンティスト 1. キミも使える! データサイエンティストの四つの武器 旅人編 ⁻ 全ての道は集計に通ず ⁻ ExcelとSPSS ModelerとSQL ⁻ 集計は母集団とデータ仕様で決まる 2. キミも使える! データサイエンティストの四つの武器 戦士編 ⁻ ビジネス理解が推進力に ⁻ データ分析は人の心を読み取ること 3. キミも使える! データサイエンティストの四つの武器 魔法使い編 ⁻ 得意な分析手法を一つ身に付けよう ⁻ 魔法は正しく、的確に 4. キミも使える! データサイエンティストの四つの武器 僧侶編 ⁻ 分析環境に合わせよう ©Miotsukushi Analytics Inc. 2016, All rights reserved. 4
  1. 5. 5 ゲーム分析とデータサイエンティスト ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 6. ゲーム分析って何してたっけ?? 6©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因
  1. 7. ルーチンとアドホック 7©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因 課題に応じて調査 →現状を把握し、 問題点を見つけ『改善』
  1. 8. ルーチンとアドホック 8©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因定常的に監視 →異常検知して『対応』
  1. 9. ゲーム分析の目標とは? 9©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 分析 施策 反映
  1. 10. 10©Miotsukushi Analytics Inc. 2016, All rights reserved. ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映
  1. 11. 私は昔こうだった…… 11©Miotsukushi Analytics Inc. 2016, All rights reserved. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 12. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 私は昔こうだった…… 12©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 13. 13 キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 14. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 14©Miotsukushi Analytics Inc. 2016, All rights reserved. データの樹海を迷わず 上手に渡り歩くには……? 集計スキルが全ての基本
  1. 15. 15©Miotsukushi Analytics Inc. 2016, All rights reserved. 【再掲】ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映 赤字の部分で 集計を使っている
  1. 16. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 16©Miotsukushi Analytics Inc. 2016, All rights reserved. 集計へ の理解 このレポートって、 結局誰のこと 言ってるの? 抽出期間正確に 絞れてる?? この分析って、 自動化するときに どんな形でデータ 持てばいい?
  1. 17. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ データ分析に求められる集計の質 17©Miotsukushi Analytics Inc. 2016, All rights reserved. インストールログからユーザーごとのインストール日時を取得し、インストール72時間後の 時刻を算出する ユーザーキャラクター強化ログから素材キャラでないキャラを抽出し、各キャラクターのイン ストール72時間以内の最後のレコードを取り出し、キャラクター種類とレベルを取得する ユーザーキャラクター消費ログと結合し、そのキャラが72時間以内に消費・売却された場 合は除外する キャラクターマスタと結合し、そのキャラの各パラメータを取得し、所定の式で変換し戦闘 力を算出する 各ユーザーの上記結果に順位づけをして上位2キャラを判定する デッキ編集ログから各ユーザーインストール72時間以内の最後に編集されたデッキデー タを取得し、その中上記の2キャラが含まれているかのパターンごとのフラグをたてる インストール日ごとに、デッキ枚数と上位2キャラ含有パターンごとのUU数を集計する 例題:初心者ってちゃんと強いキャラ使ってんの?
  1. 18. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SQLが書けなかった私 18©Miotsukushi Analytics Inc. 2016, All rights reserved. SELECTって何? テーブルって? なんか表出てくるの?? CREATE TABLE hogehoge AS WITH install_201608 AS (SELECT user_id ,date(install_datetime) as install_date ,platform FROM log_user_install WHERE date(install_datetime) >= '2016-08-01' and date(install_datetime) < '2016-09-01' ) SELECT user_id ,quest_category ,datediff(date(quest_start_timestamp),install_date) as interval_day ,count(id) FROM log_quest_start INNER JOIN install_201608 ON log_quest_start.user_id = install_201608.user_id WHERE quest_category != 0 and datediff(date(quest_start_timestamp),install_date) <= 3 GROUP BY quest_category ,datediff(date(quest_start_timestamp),install_date)
  1. 19. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ Excelを使ってみた 19©Miotsukushi Analytics Inc. 2016, All rights reserved. SUMPRODUCT VLOOKUP SUMIFS COUNTIFS SLOPE/INTERCEPT RSQ Pivotテーブル
  1. 20. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SPSS Modelerを使ってみた 20©Miotsukushi Analytics Inc. 2016, All rights reserved. 機能別にノードを配置してデータ処理を行う
  1. 21. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SPSS Modelerを使ってみた 21©Miotsukushi Analytics Inc. 2016, All rights reserved. 集計の途中経過を確認できる
  1. 22. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SQLが書けなかった私 22©Miotsukushi Analytics Inc. 2016, All rights reserved. • 関数を使ってみる→式の対象を意識 • pivotを使ってみる→縦持ち・横持ち・集計軸・ フィルタ Excel • 1ノード1処理をきちんと追いかける • 途中経過を確認し、データと処理の関係を理解 SPSS Modeler • サブクエリ • ウィンドウ関数・ユーザー定義変数SQL
  1. 23. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ 母集団とデータ仕様 23©Miotsukushi Analytics Inc. 2016, All rights reserved. いつのデータ? – 何月のデータ? – インストール何日目? どんな人のデータ? – 例:『7日目までに○○たくさんしてる人は7日目まで残りやすいんです よ!』 – 例:『離脱した人の方が戦闘力低いんですよ!!』 何のデータがどのように入っている? – どのボタンをタップした時にどのテーブルにデータが落ちるのか? 集計では細かいことばかり考えよう!
  1. 24. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 24©Miotsukushi Analytics Inc. 2016, All rights reserved. 簡単なツールで丁寧に集計しよう!
  1. 25. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 25©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 26. 26 キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 27. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 27©Miotsukushi Analytics Inc. 2016, All rights reserved. データ分析の推進力を 手に入れるには……? ビジネス理解で皆を味方に
  1. 28. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 28©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 分析 施策 反映 何調べればいいの?? で、結局どうすればいいの??
  1. 29. 29©Miotsukushi Analytics Inc. 2016, All rights reserved. 【再掲】ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映 赤字の部分で ビジネス理解が必要
  1. 30. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 人の心を考えよう(社内編) 30©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 チーム 開発 チーム インフラ チーム 分析 チーム 分析 チーム 分析 チーム こういう施策入れてください…… このデータどんな意味ですか? こんな分析環境欲しいです! そんな施策ダメに決まってる この前の運営会議で話したよ 問い合わせばっかり投げて来る それいくらかかると思ってんの?
  1. 31. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 頑張って仲良くなった後 31©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 チーム 開発 チーム インフラ チーム 分析 チーム 分析 チーム 分析 チーム こういう施策入れてください…… このデータどんな意味ですか? こんな分析環境欲しいです! それは運営的にNGなんだよね 何か代案教えてよ 仕様のメモ探してみるね いやーコスト的にそれ無理 こっちなら安いけどダメ?
  1. 32. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 人の心を考えよう(ユーザー編) 32©Miotsukushi Analytics Inc. 2016, All rights reserved. ユーザ 分析 チーム カード所持枠を拡張している ユーザーが継続しやすい! じゃあ拡張させるために 要らんカードたくさん配ろう!! 枠キツキツでゲーム辞めたい…… 拡張すればまだマシだけど 分析 チーム ユーザ うわ、本当に枠キツすぎる…… もうついていけない ゲームをやり込むしかない……
  1. 33. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 33©Miotsukushi Analytics Inc. 2016, All rights reserved. ユーザーの気持ちになろう – サービスをきちんと触ろう 関係者の気持ちになろう – 社内で関係者と話して回ろう
  1. 34. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 34©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 35. 35 キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 36. キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ 36©Miotsukushi Analytics Inc. 2016, All rights reserved. 統計分析を魔法のように 使いこなす秘訣とは……? まずは1つに集中しよう
  1. 37. キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ 37©Miotsukushi Analytics Inc. 2016, All rights reserved. http://pypr.sourceforge.net/ wikipedia 等より 分析手法は数多い – 各手法について、一度学んで終わりではなく、使い込むことで精度と効率が上がる • パラメータ調整の勘所 • 数理的根拠の正確な理解 – 利用手法が多いと分析の受け手も混乱しがち 1つに集中して使い込む
  1. 38. キミも使える! 魔法使い編 ~得意な手法を一つ~ まずは一つ勉強しました! 38©Miotsukushi Analytics Inc. 2016, All rights reserved. 私はまず決定木分析を覚えました – 平易でかつ実用的な手法である – 分析を行いビジネス反映していく流れを試す パラメータ調整の勘所 – ドキュメントを探そう! 数理的根拠の正確な理解 – 勉強は、まずはつまみ食い! 詳しくは後半の発表にて
  1. 39. キミも使える! 魔法使い編 ~得意な手法を一つ~ 魔法使いの心得 39©Miotsukushi Analytics Inc. 2016, All rights reserved. 魔法を正しく覚えよう – 数理的根拠を可能な範囲で理解しよう – 入力データの制限や、パラメータの意味を把握しよう – 出力データの数理的・企画的意味を正確に読み取れるように なろう 魔法を暴発させないようにしよう – 統計分析が要らない場合もある→MPを大事に
  1. 40. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 40©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 41. 41 キミも使える! データサイエンティストの四つの武器 僧侶編 ~分析環境に合わせよう~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 42. キミも使える! データサイエンティストの四つの武器 僧侶編 ~分析環境に合わせよう~ 42©Miotsukushi Analytics Inc. 2016, All rights reserved. いつでもわがまま環境を 使えるとは限らない 与えられた環境を使いやすく
  1. 43. キミも使える! 僧侶編 ~分析環境に合わせよう~ 分析環境構築の壁あるある データは『どこに』あるの?? – そもそもログ吐いてる? • 『ゲームが動けばいいじゃん』 • 『最低限のCS対応ができればいいじゃん』 – マスタがないと何もできない • 『マスタはエクセルで作ってツール通して読み込んでるんです』 • 『終わったガチャのマスタは消えてます、運用カレンダーもないです』 – 聞き方が悪いと二度手間に…… 43©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 44. キミも使える! 僧侶編 ~分析環境に合わせよう~ 分析環境構築の壁あるある 『どんな形』のデータがあったのか – きちんとテーブルが構築されてない場合 • JSONをカラム展開してDBに突っ込む手間…… • もっと厄介な形式での出力 いざDBに入れるとき – 重いクエリを投げたい – 昨日のデータをすぐ分析すべきか? – 一連の抽出・集計に必要な中間テーブル作成 コストが!工数が!!! 44©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 45. キミも使える! 僧侶編 ~分析環境に合わせよう~ 与えられた環境をどう活かすか データエンジニアリングの知識があるなら…… – 今まで培った集計力・ビジネス知識・データサイエンス力で理 想の環境を策定 • →一層の業務効率化に データエンジニアリングの知識がない場合は? – 可能なデータ活用方法≒データの持ち方は企業によって千差 万別 • 何を勉強すればいいのかわからない状態になりがち • データを持っている部署と仲良くして聞くしかない! – 貰った環境に合わせて一つ一つ覚えよう 45©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 46. キミも使える! 僧侶編 ~分析環境に合わせよう~ ド素人の私が身に付けたこと 仮想マシンの概念が分からなかった私でも、超簡単な シェルを書いてローカル環境で流せるようになった データベースの概念が分からなかった私でも、Redshift のカラム設定とDB変換が分かるようになった 46©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 47. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 47©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 48. I'll do my BEST. ©Miotsukushi Analytics Inc. 2016, All rights reserved. 48

Related Posts Plugin for WordPress, Blogger...