こんな僕(前職分析業、ゲーム業無関係)…
統計の講義2回受講しただけの子がいかにデータサイエンティストになれたかの
奇跡(間違い、軌跡)を描くスライド公開!
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密 from Ryo Matsuura
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
- 1. データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密 2016/10/21 澪標アナリティクス株式会社
- 2. 会社概要 会 社 名: 澪標アナリティクス株式会社 代表取締役: 井原 渉 顧 問: 川村 秀憲(北海道大学教授) 栗原 聡(電気通信大学教授) 所 在 地: 東京都中央区日本橋茅場町1丁目10-8 グリンヒルビル6階 事 業 内 容: データ分析に関する各種事業 アドバイザリーサービス 教育研修 分析組織・IT基盤構築 分析官派遣 受託分析 U R L : http://www.mioana.com/ ©Miotsukushi Analytics Inc. 2016, All rights reserved. 2
- 3. 話者紹介 3 澪標アナリティクス 松浦 遼(アナリスト・シニアコンサルタント) データ分析と全く関係ない業界から、紆余曲折あり澪標アナリティクスに入社。 上場ソーシャルゲームプラットフォーム運営企業の分析チーム立ち上げプロジェクトに一年弱参画。 ブラウザゲーム・ネイティブアプリ・プラットフォームの分析について、分析設計や実分析作業とそのノウハウ共有、社内報告会 などを担当。 その後、上場ソーシャルゲーム運営企業の分析チーム立ち上げプロジェクトにてコンサルタント・アナリストとして数ヶ月参画。 現在は、国内最大級ゲーム企業の大規模ゲームログの集計・分析プロジェクトをプロジェクトマネージャとして推進し、 十名規模の分析チームのマネージャ業務を行っている。 その他複数のゲーム分析プロジェクトへ、プロジェクトマネージャおよびチーフアナリストとして参画。 主な実績 ・ゲーム分析組織構築 ・ブラウザゲーム・ネイティブアプリのログ要件設計 ・ゲーム内詳細KPI設定と監視 ・ゲームログによる継続率・課金率・LTV予測分析 ・その他ゲーム内課題に対するアドホック調査分析
- 4. Agenda 序.ゲーム分析とデータサイエンティスト 1. キミも使える! データサイエンティストの四つの武器 旅人編 ⁻ 全ての道は集計に通ず ⁻ ExcelとSPSS ModelerとSQL ⁻ 集計は母集団とデータ仕様で決まる 2. キミも使える! データサイエンティストの四つの武器 戦士編 ⁻ ビジネス理解が推進力に ⁻ データ分析は人の心を読み取ること 3. キミも使える! データサイエンティストの四つの武器 魔法使い編 ⁻ 得意な分析手法を一つ身に付けよう ⁻ 魔法は正しく、的確に 4. キミも使える! データサイエンティストの四つの武器 僧侶編 ⁻ 分析環境に合わせよう ©Miotsukushi Analytics Inc. 2016, All rights reserved. 4
- 5. 5 ゲーム分析とデータサイエンティスト ©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 6. ゲーム分析って何してたっけ?? 6©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因
- 7. ルーチンとアドホック 7©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因 課題に応じて調査 →現状を把握し、 問題点を見つけ『改善』
- 8. ルーチンとアドホック 8©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因定常的に監視 →異常検知して『対応』
- 9. ゲーム分析の目標とは? 9©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 分析 施策 反映
- 10. 10©Miotsukushi Analytics Inc. 2016, All rights reserved. ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映
- 11. 私は昔こうだった…… 11©Miotsukushi Analytics Inc. 2016, All rights reserved. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
- 12. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 私は昔こうだった…… 12©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
- 13. 13 キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 14. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 14©Miotsukushi Analytics Inc. 2016, All rights reserved. データの樹海を迷わず 上手に渡り歩くには……? 集計スキルが全ての基本
- 15. 15©Miotsukushi Analytics Inc. 2016, All rights reserved. 【再掲】ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映 赤字の部分で 集計を使っている
- 16. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 16©Miotsukushi Analytics Inc. 2016, All rights reserved. 集計へ の理解 このレポートって、 結局誰のこと 言ってるの? 抽出期間正確に 絞れてる?? この分析って、 自動化するときに どんな形でデータ 持てばいい?
- 17. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ データ分析に求められる集計の質 17©Miotsukushi Analytics Inc. 2016, All rights reserved. インストールログからユーザーごとのインストール日時を取得し、インストール72時間後の 時刻を算出する ユーザーキャラクター強化ログから素材キャラでないキャラを抽出し、各キャラクターのイン ストール72時間以内の最後のレコードを取り出し、キャラクター種類とレベルを取得する ユーザーキャラクター消費ログと結合し、そのキャラが72時間以内に消費・売却された場 合は除外する キャラクターマスタと結合し、そのキャラの各パラメータを取得し、所定の式で変換し戦闘 力を算出する 各ユーザーの上記結果に順位づけをして上位2キャラを判定する デッキ編集ログから各ユーザーインストール72時間以内の最後に編集されたデッキデー タを取得し、その中上記の2キャラが含まれているかのパターンごとのフラグをたてる インストール日ごとに、デッキ枚数と上位2キャラ含有パターンごとのUU数を集計する 例題:初心者ってちゃんと強いキャラ使ってんの?
- 18. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SQLが書けなかった私 18©Miotsukushi Analytics Inc. 2016, All rights reserved. SELECTって何? テーブルって? なんか表出てくるの?? CREATE TABLE hogehoge AS WITH install_201608 AS (SELECT user_id ,date(install_datetime) as install_date ,platform FROM log_user_install WHERE date(install_datetime) >= '2016-08-01' and date(install_datetime) < '2016-09-01' ) SELECT user_id ,quest_category ,datediff(date(quest_start_timestamp),install_date) as interval_day ,count(id) FROM log_quest_start INNER JOIN install_201608 ON log_quest_start.user_id = install_201608.user_id WHERE quest_category != 0 and datediff(date(quest_start_timestamp),install_date) <= 3 GROUP BY quest_category ,datediff(date(quest_start_timestamp),install_date)
- 19. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ Excelを使ってみた 19©Miotsukushi Analytics Inc. 2016, All rights reserved. SUMPRODUCT VLOOKUP SUMIFS COUNTIFS SLOPE/INTERCEPT RSQ Pivotテーブル
- 20. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SPSS Modelerを使ってみた 20©Miotsukushi Analytics Inc. 2016, All rights reserved. 機能別にノードを配置してデータ処理を行う
- 21. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SPSS Modelerを使ってみた 21©Miotsukushi Analytics Inc. 2016, All rights reserved. 集計の途中経過を確認できる
- 22. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SQLが書けなかった私 22©Miotsukushi Analytics Inc. 2016, All rights reserved. • 関数を使ってみる→式の対象を意識 • pivotを使ってみる→縦持ち・横持ち・集計軸・ フィルタ Excel • 1ノード1処理をきちんと追いかける • 途中経過を確認し、データと処理の関係を理解 SPSS Modeler • サブクエリ • ウィンドウ関数・ユーザー定義変数SQL
- 23. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ 母集団とデータ仕様 23©Miotsukushi Analytics Inc. 2016, All rights reserved. いつのデータ? – 何月のデータ? – インストール何日目? どんな人のデータ? – 例:『7日目までに○○たくさんしてる人は7日目まで残りやすいんです よ!』 – 例:『離脱した人の方が戦闘力低いんですよ!!』 何のデータがどのように入っている? – どのボタンをタップした時にどのテーブルにデータが落ちるのか? 集計では細かいことばかり考えよう!
- 24. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 24©Miotsukushi Analytics Inc. 2016, All rights reserved. 簡単なツールで丁寧に集計しよう!
- 25. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 25©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
- 26. 26 キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 27. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 27©Miotsukushi Analytics Inc. 2016, All rights reserved. データ分析の推進力を 手に入れるには……? ビジネス理解で皆を味方に
- 28. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 28©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 分析 施策 反映 何調べればいいの?? で、結局どうすればいいの??
- 29. 29©Miotsukushi Analytics Inc. 2016, All rights reserved. 【再掲】ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映 赤字の部分で ビジネス理解が必要
- 30. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 人の心を考えよう(社内編) 30©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 チーム 開発 チーム インフラ チーム 分析 チーム 分析 チーム 分析 チーム こういう施策入れてください…… このデータどんな意味ですか? こんな分析環境欲しいです! そんな施策ダメに決まってる この前の運営会議で話したよ 問い合わせばっかり投げて来る それいくらかかると思ってんの?
- 31. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 頑張って仲良くなった後 31©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 チーム 開発 チーム インフラ チーム 分析 チーム 分析 チーム 分析 チーム こういう施策入れてください…… このデータどんな意味ですか? こんな分析環境欲しいです! それは運営的にNGなんだよね 何か代案教えてよ 仕様のメモ探してみるね いやーコスト的にそれ無理 こっちなら安いけどダメ?
- 32. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 人の心を考えよう(ユーザー編) 32©Miotsukushi Analytics Inc. 2016, All rights reserved. ユーザ 分析 チーム カード所持枠を拡張している ユーザーが継続しやすい! じゃあ拡張させるために 要らんカードたくさん配ろう!! 枠キツキツでゲーム辞めたい…… 拡張すればまだマシだけど 分析 チーム ユーザ うわ、本当に枠キツすぎる…… もうついていけない ゲームをやり込むしかない……
- 33. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 33©Miotsukushi Analytics Inc. 2016, All rights reserved. ユーザーの気持ちになろう – サービスをきちんと触ろう 関係者の気持ちになろう – 社内で関係者と話して回ろう
- 34. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 34©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
- 35. 35 キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 36. キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ 36©Miotsukushi Analytics Inc. 2016, All rights reserved. 統計分析を魔法のように 使いこなす秘訣とは……? まずは1つに集中しよう
- 37. キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ 37©Miotsukushi Analytics Inc. 2016, All rights reserved. http://pypr.sourceforge.net/ wikipedia 等より 分析手法は数多い – 各手法について、一度学んで終わりではなく、使い込むことで精度と効率が上がる • パラメータ調整の勘所 • 数理的根拠の正確な理解 – 利用手法が多いと分析の受け手も混乱しがち 1つに集中して使い込む
- 38. キミも使える! 魔法使い編 ~得意な手法を一つ~ まずは一つ勉強しました! 38©Miotsukushi Analytics Inc. 2016, All rights reserved. 私はまず決定木分析を覚えました – 平易でかつ実用的な手法である – 分析を行いビジネス反映していく流れを試す パラメータ調整の勘所 – ドキュメントを探そう! 数理的根拠の正確な理解 – 勉強は、まずはつまみ食い! 詳しくは後半の発表にて
- 39. キミも使える! 魔法使い編 ~得意な手法を一つ~ 魔法使いの心得 39©Miotsukushi Analytics Inc. 2016, All rights reserved. 魔法を正しく覚えよう – 数理的根拠を可能な範囲で理解しよう – 入力データの制限や、パラメータの意味を把握しよう – 出力データの数理的・企画的意味を正確に読み取れるように なろう 魔法を暴発させないようにしよう – 統計分析が要らない場合もある→MPを大事に
- 40. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 40©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
- 41. 41 キミも使える! データサイエンティストの四つの武器 僧侶編 ~分析環境に合わせよう~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 42. キミも使える! データサイエンティストの四つの武器 僧侶編 ~分析環境に合わせよう~ 42©Miotsukushi Analytics Inc. 2016, All rights reserved. いつでもわがまま環境を 使えるとは限らない 与えられた環境を使いやすく
- 43. キミも使える! 僧侶編 ~分析環境に合わせよう~ 分析環境構築の壁あるある データは『どこに』あるの?? – そもそもログ吐いてる? • 『ゲームが動けばいいじゃん』 • 『最低限のCS対応ができればいいじゃん』 – マスタがないと何もできない • 『マスタはエクセルで作ってツール通して読み込んでるんです』 • 『終わったガチャのマスタは消えてます、運用カレンダーもないです』 – 聞き方が悪いと二度手間に…… 43©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 44. キミも使える! 僧侶編 ~分析環境に合わせよう~ 分析環境構築の壁あるある 『どんな形』のデータがあったのか – きちんとテーブルが構築されてない場合 • JSONをカラム展開してDBに突っ込む手間…… • もっと厄介な形式での出力 いざDBに入れるとき – 重いクエリを投げたい – 昨日のデータをすぐ分析すべきか? – 一連の抽出・集計に必要な中間テーブル作成 コストが!工数が!!! 44©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 45. キミも使える! 僧侶編 ~分析環境に合わせよう~ 与えられた環境をどう活かすか データエンジニアリングの知識があるなら…… – 今まで培った集計力・ビジネス知識・データサイエンス力で理 想の環境を策定 • →一層の業務効率化に データエンジニアリングの知識がない場合は? – 可能なデータ活用方法≒データの持ち方は企業によって千差 万別 • 何を勉強すればいいのかわからない状態になりがち • データを持っている部署と仲良くして聞くしかない! – 貰った環境に合わせて一つ一つ覚えよう 45©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 46. キミも使える! 僧侶編 ~分析環境に合わせよう~ ド素人の私が身に付けたこと 仮想マシンの概念が分からなかった私でも、超簡単な シェルを書いてローカル環境で流せるようになった データベースの概念が分からなかった私でも、Redshift のカラム設定とDB変換が分かるようになった 46©Miotsukushi Analytics Inc. 2016, All rights reserved.
- 47. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 47©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
- 48. I'll do my BEST. ©Miotsukushi Analytics Inc. 2016, All rights reserved. 48
0 件のコメント:
コメントを投稿