2018年11月11日日曜日

棒グラフの間に線を引く

アンケートを実施して、以下のような数値が集まったとします。
 
賛成
反対
どちらとも言えない
1
40
5
55
2
70
1
29
3
4
3
93
4
24
25
51

この数字の範囲を選択して
①挿入
↪②おすすめグラフ
↪③おすすめのグラフ
↪④積み上げ縦棒を選択すると

下の図のように積み上げ棒グラフが作成されます
それぞれの棒グラフの賛成、反対、どちらとも言えないの間に線を引きたいのですが、やり方が分からなくなってしまっていました。
そこで、色々調べてみたところ、以下のような方法で作成する事が確認できました

①デザイン
↪②グラフ要素を追加
↪③線
↪④区分線

下の図のように縦棒の間に線を補完する事ができましたね

データサンプル

テストデータ・ジェネレーター

データ分析の練習をやってみようにも…データがない!
多分皆様が最初にぶちあたるチャレンジだったりすると思います。

以下を用いてダミーデータを作成してみるのが一番お手軽かもしれません。
もちろん会社や、所属組織のデータを実際に使ってみるというのも手ですけどね。

疑似個人情報データ生成サービス
テストデータ・ジェネレータ
DB用テストデータ作成サービス(英語)

単純集計・クロス集計・多変量解析

データは単なるデータとして眺めると何これ?という話になってしまいがちです。
そこで、人間が解釈・理解しやすいように集計を実施した上でデータを理解し、多変量解析を通じてさらなる理解を深めていきます。

単純集計


クロス集計


多変量解析

統計学とは

統計学には2つの種類がある。

↳記述統計学

データを整理し、そのデータの特徴をできるだけ簡潔で明瞭にあらわす
数値や表、グラフなどを用いて、データの特徴や傾向をとらえる
例)国勢調査、クラスの試験の成績

↳推測統計学

一部(標本)のデータから全体(母集団)の状況を推測する

推測統計学には2つの手法がある

推定

例)全体の平均値がどこにあるか

検定

例)全体の平均値が想定した値と違うか、2つの群で平均値に差があるか

詳細にはAlbertさんの統計学とはや、馬場さんの記述統計の基礎、AVILENさんの記述統計学と推計統計学の違いを一読いただくと理解が深まると思います。



ビッグデータと統計学

ビッグデータとは

『一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語』であり、用語自体はデータマイニングで一般的に使われてきました。

2011年代に入ってある種のトレンドを示すキーワードとして、新聞・雑誌などでも広く取り上げられるようになってきた
2011年頃からビッグデータとしてバズワード化しました。
Google trendでBig data、artificial intelligenceを世界で調べた結果と、ビッグデータ、人工知能で調べたグラフを添付してあります。



統計学はビッグデータ、人工知能の活用においても密接にかかわっています。

統計学とは

特定の集団について、データを集めて、そのデータの内容についての傾向や特徴を表し、その集団の傾向・特徴を見出すために解析をする学問のことを指します。

蓄積された数字などが羅列されたデータを眺めるだけで、そのデータの傾向や特徴を探ることは簡単なことではありません。そこで、データを集め、統計学の力を借りてデータの特徴を理解したり、訴求したりするため、グラフを描いたり、平均値(average)をはじめとするなんらかの値で表します。

予測(Prediction)とは

『**という条件がいくらになるとき、将来の売上高は○○円と予測できる』というように意味を持つ式(Formula)で示す必要があります。
データがあらわす傾向や特徴について、式などによって説明するもののことを統計学ではモデル(Model)と呼んでいます。また、統計学にもとづくモデルということで、統計モデル(Statistical Model)と呼ぶこともあります。

ビジネスへの適応

ビジネスに統計学を応用すると、同じデータ・分析手法を利用すれば、誰がやってもデータに潜む傾向や、特徴について、おおよそ同じ見解を見出すことができます。
商習慣、社会の業界の動向・常識や、経験、勘なども加味しながら、それぞれ補完しあって意思決定に役立てるという考え方が求められます。

2018年9月24日月曜日

KPI設定による業績アップと業績悪化

KPIの設定方法




非常に重要な事

★「より大きな経営目標との関連性があるか」

  1. 「その KPI は具体的か」
  2. 「測定が可能か」
  3. 「スタッフにとって達成可能なものか」
  4. 「期限が設定されているか」

KPIは設定した瞬間に社員が設定されたKPIに向かって最適化を開始します。
そのため、KPIの設定が間違うとというのか、より大きな経営目標にアラインしている必要があります。

しばしば部門KPIは達成しているのに会社の業績トータルは全く…
とかいう現象はKPIの設定が会社のゴールにアラインしていないか、部門KPIの達成が他の部門のKPIを侵害してしまうケースなので発生します

そんなの知ってた!知ってる!対策

将来はふたを開けてみないと分からない
なまじ『予測分類』とかpredictionという言葉があるおかげで、『未来の事象を高確率で当てられる!』というイメージを持たれがちですが、

『将来の環境が変わったら、どんなにデータを用いた予測でもまったく使い物にならない』

というのは十分理解しておいてください(ビジネス現場にも認識してもらうべき事象です)

そんなの知ってた!知ってる!対策

分析プロジェクトを回してみると、結構この手の反応をいただきます。
が、先にその内容を教えてくれていなかった=言語化できないルールだった
ということと、分析(データ)を通じて、『知ってた』事が明確になったということは、分析の実行プロセスが正解を辿っているという事を意味します。

経験上『●●を達成するためにA要素が一定数以上があると良い』のような条件は、1つから2つまでは人間は把握している物なのですが、3つの同時発生条件を教えてあげると、『そんなの知ってた!知ってる!』という反応は少ないようです。

そもそも、分析は占いではないのですけどね

  • トライアンドエラーの考え方でのぞんでください
  • 変化に注目しましょう
消費税増税前の3月の売上の伸びを見て、2014/04/01 以降も順調な売上増加を期待して人員を増やして、経営不振に陥った会社様もあるようです。
もちろん過去の消費税増税後を理解していれば、2014年2月~3月が無視すべき駆け込み需要(需要の先食い)という事は理解できたはずですが、コーザルデータに消費税増税というイベントを採用していなければ、順調に売上が伸びているという判断に陥ってしまう訳です。



可視化フェーズのメリット

可視化フェーズメリット一覧

  1. これまでの規則・法則・関連性が明確になる
  2. 成功・失敗の原因究明に役立つ
  3. 意思決定までのプロセスが見えやすくなる

あたりでしょうか。

常に留意したいのは[レベル1]のデータが『正しい物』かつ『ただしい粒度』で存在する事です。

秒単位の法則性をみいだしたいのに、時間単位で半分サマリーされてしまっているデータを貰っても、秒単位の法則性は見いだせない(推測が間に挟まる)とか

意思決定をあえて歪めて実行するために都合の良いデータだけ抜き出してあるとか

可視化した出力が歪んているとか

結構マスコミの皆様が多様する事が多いのですが、一部サラリーマンが自分の意思を通すために『元データのいびつな加工』をしかけてくる事が多いのは周知の事実

常に[レベル1]の元データに立ち返る癖はつけておきたい物です。

データ分析実行プロセス

AI下さい!データはありませんけど…

という禅問答みたいなお問合せ…結構多いです。

[レベル4] AI/データマイニング/数理最適化
[レベル3] 多変量解析
[レベル2] BI/可視化
[レベル1] デジタルデータ保持

基礎から応用を考えたとき、レベル1ができていなければレベル2以降の実施は無理だったりすることは十分ご理解いただきたい点になります。

ここでの困りごとは[レベル2]を実施しているから[レベル3][レベル4]ができるかどうか…なのですが、[レベル2]を実施した直後に『元のデータを捨てる運用』をしているケースも結構多いため(特にエンタープライズ系のメインシステム等)レベル2を実施できているから3、4ができる訳ではないという事だったりします。

携帯端末のアプリログ分析

広告SDKをベースに、何回起動したか、等をデータとして保持しているケースは多いのですが、これも可視化には使えても、そこからさらに深いインサイトを得られる事はほぼありません。
どのコンテンツを見た、等の生のログをきちんと保持している事が重要になってきます。

レベル2~4を実施するにあたり、毎回[レベル1]の重要性に気付かされるのが分析プロジェクトの基本という感じでしょうか。


データ活用を行う目的

なにごとにおいても共通すると思いますが、目的が明確であれば、成果が出しやすい傾向にあります。

分析プロジェクトにおいても必ず『目的』を明確にする事は必須です。
私も仕事がら『AI下さい』系のお問い合わせは数多く貰うのですが、『AIをやりたい』が目的になっているケースでは案件化した事がありません。

案件化=お客様の組織内で稟議記載ができて、その稟議が承認プロセスに乗るという事を意味しています。
つまり、妄想で終わる訳です。

分析プロジェクトを立ち上げたばかりの企画段階ではまずこの『目的』を明確化する事からはじめます。

  1. 売上向上
  2. コストダウン
  3. 品質向上
  4. リスク低減

と書くと適当に『売上向上させたい!』とか適当な目的を出してくるお客様…非常に多いです。

まだ、この段階で統計学で解決するのか、AIで解決するのかはさっぱり分からないので、『現状の売上や売上推移』と『売上向上』=『目的を達成する』事を妨げる要因を10個程度列記していきます。

え?そもそも現状の売上のブレークダウンができていない?

ありえない事ですが、現在の売上のブレークダウンができていない企業様は結構多いので、驚くに値はしませんが、そんな時は基本に立ち返って、現在の売上の把握を行います。

この段階でも分析の知識は必要なのですが、一般的にこのフェーズはデータの基礎俯瞰フェーズとなるため、個人的にはBI領域(可視化フェーズ)として扱っています。




インストール無しでRやPythonが使えるサイト

Free Online IDE and Terminal
https://www.tutorialspoint.com/codingground.htm

初心者の頃は色々なOSSを試してみたい!というシーンも多いと思うのですが、実は『インストールできる』までで結構時間を使ってしまう事が多く

基本は使えれば良いわけなので、いちいちインストールで頭を悩ませる必要もないかと思うので、ここのリンクは意外に便利です。

2018年9月23日日曜日

データ活用や分析が必要な理由

ビッグデータ時代の統計学

ビッグデータ分析マンセイ!な2018年ではありますが、統計学が最強の学問である説やら何やら色々出ていて、いったい何なの?と思うことが多い今日この頃です。

とはいえ、統計学すらまともに知らないまま、pythonのライブラリに数値をあてはめただけの『なんちゃって人工知能』が氾濫していて、嫌になっているのも事実です。

人工知能って何なのよ?って話もありますが、やはり人工知能、ビッグデータのその前に統計学をある程度は知っていて欲しい面はありますよね。

統計学・統計とは(wikipediaからの引用)

統計(とうけい、statistic)は、現象調査することによって数量で把握すること、または、調査によって得られた数量データ(統計量)のことである。統計の性質を調べる学問は統計学である。

ビジネス上で統計学を応用するための4つのポイント

  1. 分析をする目的を明確にする
  2. 分析可能な状態にする
  3. 特徴を可視化して正しく説明できるようにする
  4.  変数と変数の関連を調べる
注釈:
変数 値を入れておく箱
変数名 変数の箱についている名前=データラベル(Excel用語)
相関 2つの変数の関連性



Related Posts Plugin for WordPress, Blogger...