最近、久しぶりにノートを使った勉強を始めてみました。
読んでいるのは「パターン認識と機械学習」という、機械学習の分野では名著とされている、かなり重要な書籍です。
機械学習とはなんぞや?という概要から始まり、基本的な回帰モデルや分類モデル、深層学習やモデルパラメータ推定のための各種手法まで、広い範囲をカバーしてくれています。
手書きでノートにまとめていくような勉強をしたのは本当に久しぶりなのですが、なんだかとっても楽しんでいる自分がいます。
実際に文字を書いている中で、気づいたことがありました。
それは、一つの漢字を書いた時、続く漢字も反射的に書いてしまう状況がある、ということです。
例えば「確」という字。
最初にノートでの勉強を始めたときはついつい「確認」と書いてしまう手癖があることに気づきました。
間違えた、と思い「認」だけを消しゴムで消そうとして。
消しすぎてもう一度「確」から書こうとすると、また手癖で「確認」と書いてしまって…。
無駄に消しゴムの残量を使ってしまいました。
次に手癖になったのは「確率」という熟語です。
この単語は特に読んでいる教科書の冒頭部分でたくさん書いたため、そのエリアを抜けてからもしばらくは「確」という文字の後には、気づいたら「率」を書いてしまう、という事態が勃発しました。
その次は「確実」になっていたり、直前にたくさん書いた言葉が反映されていて、人間の手にも記憶力があるのかと、とても不思議な気持ちになっております。
ところで「直前の記憶に影響を受ける」のは手だけではありません。
機械学習でも、やはり同じように影響を受けることがあります。
たくさんのデータを扱うモデルの場合、すべてのデータを一度に学習することはできません。
そのような場合にどうするかと言えば、データをいくつかに分割して、その分割された少数のデータを順番に学習していくことでモデルのパラメータを推定する、という手法があります。
この手法はバッチ処理と呼ばれており、深層学習をベースとしたモデルはもちろんのこと、他の単純なモデルにおいても活用されることが多くなっています。
そしてその場合には、どうしても直前に学習したデータの影響が最終的に強く残ってしまう…と言ったことも起こり得ます。
(もちろん、きちんとデータ全体を表現できるモデルを学習するための工夫も様々あります。)
他にも、自分の行動を思い返してみれば、直前に読んだ本の影響が少なからず、文章にも表れている…こともあるのかもしれません。
できるだけ良い影響を受けられるように、質の良いデータをそろえたいところです。
P.S.
↓メルマガの新規登録はこちらから↓
https://48auto.biz/keieijinji/touroku/sp/scenario13.htm
(スマートフォンよりご登録いただけます)