鳴かぬなら作ってしまおう教師データ

データが何を示しているのかを示す教師データは機械学習において有用ですが、付与にはコストがかかります。では、どうすればよいのでしょうか?

  

新しい研究の種はないものかと、機械学習における様々な対象問題のデータセットと手法がまとめられているサイト(Paper with Code)を見てみました。

https://paperswithcode.com/

そのサイト名の通り、載っている論文はすべて、その再現ができるようにプログラミングのコードが一緒に公開されています。

(再現しようとする人のPCの環境や、その時のプログラムのバージョンによってオリジナルの論文と同じ精度が出なかったり、そもそも再現ができないこともあるのですが、それはさておき。)

 

最近のトレンドとなっている論文もトップページにまとめられてはいますが、今日はとりあえず、これまで読んだことが無い分野を探してみることにしました。

画像分類。

それは有名すぎてむしろ一番オーソドックス。

物体の推定。

これもこの前読んだ気がする。

画像生成。

chatGPTとそれが生成してくれる画像にはとてもお世話になっています。

対照学習。

おっ。これはあんまり読んだことない気がする!

 

結論から言えば、私が「対照学習」という言葉をきちんと覚えていなかっただけで、類似した研究はこれまでも読んでいたようでした。

忘れてしまった記憶力が悲しいです。

 

では、この対照学習。

どういった手法かと言いますと、モデル学習用に正解ラベルを付与したデータを作成するのは大変だから、対象となるデータと似ているデータを近くに、似ていないデータを遠くにするモデルを学習してしまおう、というものです。

そして近くに置くべきデータは、対象となるデータを少し変えてみたり、その他さまざまな手法で用意することができます。

鳴かぬなら鳴かせてしまえ(コストをかけてラベルを付ける)わけではなく。

鳴かぬなら鳴くまで待つ(自然にラベルが付くのを待つ)わけでもなく。

ホトトギスの鳴き声に類似したものを作ってしまおう!というような手法です。

 

ただ、こちらの手法。

2020年あたりから、少なくとも画像の領域では、あまりめぼしい手法は開発されていないらしく、研究テーマの種が隠れているかは微妙なところの様です。

一方、画像ではない他の対象領域では、このような「似ているものと似ていないもの」を一緒に学習する手法が多数用いられています。

どこかの分野でうまくいかなくとも、どこか別のところでならば輝ける。

適材適所がある人間に似ているのかもしれません。

 

P.S.

求人票が作れちゃうGPTs。

こちらの動画でご紹介しています。

【採用担当者向け ChatGPTで求人票を書く方法】

https://youtu.be/S2kFt8qT6rw

 

 

Who is writing

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。