データ分析(計量経済学)の教育について思うこと。

例えば、あなたは全国展開する美容院(ただしその企業は他の事業も展開している)のデータ整備を担当することになったとする。具体的には、関東にある50店舗を総合的にマネジメントをしている担当者のために、データを揃えることになったとする(データを揃えるまでを行い、それを取得する体制ができたら担当者が自分でデータをいじるとする)。

このとき、

A:店舗ごとの日ごとの売り上げ(やそれに類する基本的な)データ

B:各店舗における全来店者のデータを含む詳しいデータ

のどちらも(ここでは単純化して)同じ直接の金銭コストで整備できるとしたら、どちらの情報を担当者のために整備したらいいだろうか?




こう聞かれたら「そりゃAの情報はBに含まれているわけだしBでしょ」と基本的には答えるのではないかなと思う。「Aのデータから分かることはBのデータから分かるわけだし加えて、BにはAにはない貴重なデータがあるから上位互換じゃん」というわけだ。

しかし、もしこの担当者が例えば読んだ本などの情報をエクセルに丁寧にまとめているタイプの人だったら?また、もし各店舗に運営を任せるのが苦手でマイクロマネジメントする傾向にある人だったら?

詳しいデータを整備してしまうと「なんでもデータで管理しよう」という傾向が高まってしまい、ただでさえ少ない創造性がさらに損なわれてしまうかもしれない。マイクロマネジメントが行きすぎてしまうかもしれない。

そのような可能性まで考えれば、整備するデータは(たとえ費用が同じという条件のもとでも)細かいほど細かいなんて簡単にはいえない。





上の問いについて考える上では、

少なくとも以下のような観点は吟味されるべきだと思う。

いまの担当者はどの程度データに意識が取られるタイプだろうか?取得データが細かいと、他の重要なことに目がいかなくなったりしないだろうか?

いまの担当者だけに注目するならデータを詳しく整備しても上手く使いこなしそうだとしても、この担当者が特別に優れたバランス感覚を持っているだけで後任のことも考えると、将来的にはバランスが崩れることに繋がりそうだったりしないだろうか?
 
今回の個別ケースのみに注目するとデータをあまり詳しく整備しない方がいいかもしれないが、この企業の別ジャンルにおいては将来的にデータ整備が非常に重要になってくる可能性が高く、それを考えるとここでデータ整備の基礎(カルチャー)を作っておくことは重要というような状況であったりはしないだろうか?

データを細かく取得する場合に各店舗の顧客は何を感じるだろうか?例えば来店時に記入するアンケートの項目が増えて嫌な気持ちになるみたいなことはないだろうか(もしくは直近では問題ないとしても、将来的なデータ取得の加速に繋がることが予想され、その場合にはそのような問題点が出てこないだろうか)?

各店舗の責任者や従業員について、詳しいデータの取得や分析が行われるようになると、「管理されている感覚」が必要以上に増してしまわないだろうか(この観点が仮に重要であるなら、例えば総括マネージャーと各店舗の責任者たちの定例会議がどの頻度でどのような雰囲気で行われているかを把握することは重要になりそうだが、その辺はどうだろうか)?

少なくとも以上のような観点は「どのデータを取るとどんな分析が可能になるか」に加えて考えられるべきだと思う。





たしかに「計量経済学」にしても「統計学」にしても、「学問体系」に特有の偉大さと有用性はあると思うし、それは尊重するべきだと思う。そして先程列挙したような”総合的観点(実務的観点?)”と呼びたくなる観点のみを重視して、学問の丁寧な理解を放棄するのは違うと思う。それは本当にそう思う。

それはそうなんだけど、(特に学者を目指しているわけではない)一人の学習者の成長に注目すると、「学問体系のインストール」と「総合的観点の養成」は両方とも大事なはずだ。そして、その視点から見ると、データ分析の授業(特にこの記事では理論系の授業を念頭においている)は現状では総合的観点の養成を少し妨げてしまっているのではないかと感じる。

僕は、実践を意識する慶応大学SFCと理論を重視する東京大学経済学研究科の両方で授業を受講したことがあるが*1、「そもそもデータ分析はどのような場面に適するのか」「データ分析によって損なわれるものは何か」「データ分析は必要であるが、その精度を落としてでも優先すべき外的な事情があるケースとは具体的にどういうケースか」などの観点はよっぽど本人が意識しないと養われない(むしろ「ハンマーしか持っていなければ何でもクギに見える」状態になってしまう危険性すらある)ように感じた。

ただ、状況を悲観しているというわけではなく、「90分の授業のうち2分くらいでいいからちょっとした工夫を入れれば総合的観点を損なうことなく、学問体系をインストールできるんじゃないか」と思っている。

例えば、ある変数と他の変数についてどちらを用いると何が起きるかについて理論的に考える内容を扱う際に、

「•••この変数x_1とこっちの変数x_2を考えたときに、理論的いえばx_1の方がいいかんじなることが分かりました。ここまでが理論の話です。

でも実際にx_1のデータを取得しようとしたら、少し嫌な気持ちになる人を出してしまうかもしれませんね。例えばx_1としては教育経済学の文脈では"一週間に何回歯磨きをしてるか”などが典型的だと考えられますが、そのデータが教室におけるアンケートで取られると想定できるなら、そのアンケートの後に子どもたちの間で"歯磨き事情”の話になるかもしれません。そうすると歯磨きを普段あまりしない傾向にある子は恥をかく(or 逆に歯磨きをしないといけないことに気づいてポジティブなことにつながる)みたいなことが起きるかもしれません。それに比べてx_2の方はーーーーですからーーーーかもしれません」。

みたいにすると、総合的観点も横に見据えながら学問体系を勉強できるように思う。またもっといえば、上のようにありありとした想像をすることで、例えば今回の例でいえば「データを取得する際に正直に申告がなされない場合には理論的に何が起きるか(子どもたちは恥をかくことを気にして嘘の申告をするかもしれない)」など学問体系の他の部分の話ともリンクして、学問体系の理解という意味でも良い影響があるかもしれない。

またこれは「学問体系」の話からは多少ずれるが、例えば実装向けのデータ分析の授業においても単純に対象の手法を説明するだけではなくて、「今回はこの方法でアプローチしますが、他にデータを用いないアプローチとして何が考えられるでしょうか?」とか「データを用いることは前提とした場合に、3つのアプローチを考えてください」みたいにした上で、本題に入ったりすることもできるはずだ。





ということで、データ分析に限らずですが、「学問体系」はたしかに尊いしそれを学ぶときにはそこに集中した方がいいという感覚も理解はできますが、それでもほんの少しだけ「総合的観点」をスパイスに入れながらの「学問体系」の学習になっても良いのではないかというのが僕の意見です。

なお、今回の記事の話はふわっとした雑観を書いており、例えばデータ分析の理論の授業といっても、本当に理論だけやる授業もあれば、プログラミングを宿題で入れ込む授業もあったり、レベルについても入門から研究レベルまで色々あるわけで、一概に批判しているわけでもないです。また、授業によっては完全に理論だけをゴリゴリにやった方がいいものがあることは理解しています。個別授業に対してより、全体的な学習デザインとして上のように感じているということです。




僕はこれからデータ分析の学習を再開しようと思っているところなので、自戒もこめて前から感じていたことを書いてみました。

Fin.

*1:ちなみに、このような観点からしてもSFCで受けたYahoo提供のデータサイエンスの授業は素晴らしかったです。例えばある手法について教わる際に、「このタイプのデータ分析の技術は一見なんでも見通せそうな気がしますが、顧客のニーズを半歩先に捉えるのに役立つものであって、それ以上先のことを考えるときには役に立ちません」など前置きの時間がしっかりあったりしました。また他にもBrainPad社提供の授業も好印象でした。