どこかに行ってしまったお客さま

我が家に来た「見ようとしなければ見つからない」お客さん。同じように探すべきなのはデータ分析でも同様でした

  

我が家に訪れるお客さまは何も、人間だけではありません。

落ち葉がなぜか入ってきたり。

あるいは呼んでもいないのに現れる虫さんたちなんかもいます。

基本は謹んで追い出させていただくのですが、唯一「お呼びでない」にも関わらず、そのまま滞在を許す相手がいます。

それは、クモたちです。

(虫が苦手な方はどうぞ今回のメルマガは飛ばしていただければと思います。)

 

私自身、クモをペットとして飼うといった趣味はありません。

(ときおりタランチュラを手に載せている人を見たりしますが、たぶん無理です)

それでも家の中で見かけたときは「害虫駆除、よろしく!」の気持ちで放置することがほとんどです。

 

その日も、いつものようにクモのお散歩を見守っていたはずでした。

見守っていたのに、気付けばどこかへ消えてしまったのです。

まだまだ小さいクモでした。

この洗面所の中で迷子になってしまっては、気付かぬうちに踏みつぶしてしまうかもしれない。。。

そんな恐れもあり、そこから先は恐る恐る洗面台を使っていたのですが、今日時点までで彼/彼女の姿を見つけられていません。

願わくば、元気に外に帰っていったことを祈ります。

 

ところで今回のお客さんであるクモはとても小さく、意図的に「見守ろう」と思わなければ存在を忘れてしまうくらい、小さな存在でした。

同じように「見ようとしなければ見つからない」ものがデータ分析にもあります。

多くの場合、「重要な特徴量」は自分から探しに行く必要があります。

もちろん、予め「このデータが重要であろう」とあたりを付けることはできます。

例えば身長を当てるために、年齢や体重はとても有意義な特徴量であることは疑いありません。

一方で、問題が複雑になった時には、そのように「どう考えても重要な特徴量」を見つけることが難しい場合もあります。

とある商品の購買履歴を分析しようと思ったとき。

見るべきは顧客情報なのか。

そもそもどんな顧客情報を見ればいいのか。

あるいは、これまでの購買履歴を見ればいいのか。

それとも商品それ自体の特徴を見るべきか。

考えることは山ほどあります。

そのような場合には、能動的に「特徴量エンジニアリング」と呼ばれる手法を使って、重要な特徴量を探しに行く必要があります。

これはまさに、見ようとしなければ見つからないモノ、です。

 

機械学習モデルに重要な特徴量を探す「特徴量エンジニアリング」。

今ではchatGPT等の大規模自然言語処理モデルを使って特徴量エンジニアリングをする、といった手法も注目されてはいるようです。

一時期よりはかなりブームが過ぎ去った気もしますが、今も実データ分析には欠かせないスキルであることは間違いありません。

見ようとしなければ見つからない。

もしかするとデータ分析者のセンスが試される、重要なポイントなのかもしれません。

 

P.S.

↓メルマガの新規登録はこちらから↓

https://48auto.biz/keieijinji/touroku/sp/scenario13.htm

(スマートフォンよりご登録いただけます)

 

 

Who is writing

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。