意外ときちんとした説明が無くて困った話

データ分析の基礎の基礎である手法について、意外と求める解説が無い!という大事件。自分できちんと勉強することの重要さを再確認しました

  

後輩の卒論の方針について相談会をしていたある日のこと。

参加者は、当事者である学部4年生の学生Tくんと、修士の先輩2名、そして私。

先日先生からいただいたコメントをかみ砕いてTくんに納得させ、今後の方針を決めることが今回の目的でした。

 

特に研究を進めるとき。

お互いに誤解が無いように進めていくことが重要であるとこれまでの経験から学んだ私は、説明に使う語句を一つ一つ、Tくんがきちんと理解できているか確認することにしました。

特徴量間の相関ってわかる?

…OK。

じゃあ、主成分分析は?

…了解。じゃあこれから説明していこう。

 

主成分分析とは、データの特徴量を削減して少ない特徴量でデータを表現することができる、とても基本的な手法のひとつです。

たとえば野球選手の特徴量としてヒット数や出塁率、ホームラン数や盗塁数などたくさんあるものを、「長打を打つ選手」「足が速い選手」など、ざっくりとした評価軸でまとめることに近いかもしれません。

(大谷選手の50-50が早く見たいです。)

 

特徴量を削減する手法とはいえ、得られた特徴量がデータに対して全く意味のないものとなっては意味がないので、どのように「情報量を落とさない」特徴量を選択するか?が重要になります。

ただ、この「情報量を落とさない特徴量選択」を伝えるのが口頭ではとても難しく、しかもオンラインで相談会をしていたがために、絵を書いて説明することも叶いません。

手元のパワーポイントで頑張る、という手段もありましたが、できればすでに存在しているテックブログに頼りたい…。

そう思い検索したのですが、大問題が発生しました。

求めているような説明をしてくれるサイトが無い…!!!

ざっくりとした概念を説明してくれるブログは多々あるのですが、データの情報量を落とさないとはどういうことか?を、可能ならば動画等を使いながらわかりやすく説明してくれるサイトが全く見当たらないのです。

数分間の格闘の末、頑張ってマウスでパワーポイントを動かしながら説明することにしました。

手が腱鞘炎になりそうでした。

 

最終的にはTくんには「あとは教科書を読んで!」ということでその場をお開きとしたのですが、こんなに基本的なことなのに、意外ときちんとした説明がないことがあるんだなあ、と驚いてしまいました。

もしかすると他の解説記事も、詳細な説明、という意味では不足していることがあるのかもしれません。

この情報化社会において、「検索すればなんでも出てくる!」と思っていたのですが、必ずしもそうではない気がしてきました。

であるならば、きちんと自分で本を読んで先生に習って勉強することの意義もまだまだ薄れないのだろうなあと思います。

 

P.S.

基本的なことだからこそおろそかにしてはいけないのは、何も機械学習に限った話ではないと感じます。

料理も基本を押さえればアレンジが効きますし、ゴルフも基礎を固めたおかげでちょっとした小技も覚えられた気がします。

きっと人事も同じように、きちんと体系的に理解をしている人に聞くと良いことがたくさんあるのかもしれません。

 

P.P.S.

↓メルマガの新規登録はこちらから↓

https://48auto.biz/keieijinji/touroku/sp/scenario13.htm

(スマートフォンよりご登録いただけます)

 

Who is writing

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。