chatGPTマスターを目指して vol.36 90%は不要なパラメータ?
膨大なパラメータで、どんな複雑な問題も解いているかのように見える深層学習モデル。実はその9割が必要ではなかったとしたら…。
「人間のゲノムが解析されました!」
どのくらい前であったか忘れてしまったのですが、そんなニュースを耳にすることがありました。
人間の遺伝子の解析が完了したというニュース。
そしてその結果、40%もの遺伝子は用途がわからない、こともわかったというニュース。
とても大事な情報なはずなのに、何に使っているかもわからないというのはとても不思議だなあ、と素人ながらに思ったことを覚えています。
【参考】https://yumenavi.info/vue/lecture.html?gnkcd=g012877
ところで深層学習モデルにおいても「不要なパラメータがあるのではないか?」という研究を見つけました。
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
https://arxiv.org/abs/1803.03635
深層学習モデルは人間の脳が大量のニューロンの接続で出来ている様子を模しているモデルです。
ニューロンに該当する大量のノードと、それぞれのつながり方をパラメータとして学習しています。
上記の論文、ならびに拡張した以下の論文では、最大で90%程度のノードを削除しても同等の精度を出すことができることが示されていました。
DropNet: Reducing Neural Network Complexity via Iterative Pruning
https://arxiv.org/abs/2207.06646
90%のノードは、無くても推定精度に対して影響を及ぼさない。
つまり、モデルを構成する要素のうち90%は、何に寄与しているのかわからない、謎のパラメータであったとも言い換えることができます。
ですが、逆に言えば、残りの10%はとても重要なパラメータです。
人間を人間たらしめる遺伝子であったり。
あるいは、私を私たらしめる大事な要素であると言えるのかもしれません。
忘れてもいい記憶はどんどん忘れている(気がする)私ではありますが、人格形成において重要であった記憶は今も忘れず、大事に残されていると感じます。
最近では、複雑なモデルを簡単なモデルで真似しようとする知識蒸留と呼ばれる手法が注目をされていますが、上記の手法のように「不要な情報を落とす」というアプローチも、人間の行動にかなったものであるように見えてきました。
いずれにしても、複数の方法で「モデルを軽くする」という課題についてアプローチしているようです。
それなのに人間の遺伝子がずっと「軽く」はならないのは、もしかすると冗長に見える部分も、私たちにとって欠かせない「何か」なのかもしれません。
P.S.
ちなみにThe Lottery Ticket(ロッタリーチケット)とは宝くじのことだそうです。
この知識は私にとって新しいものではあるのですが、自分を自分たらしめるものになるかと言われると…かなり疑問符です。
正直明日忘れてしまったとしても問題ない情報である、とも言えます。
こうして必要な情報と不要な情報を分けるような行動を、機械学習も自然に行っているのかもしれません。
P.P.S.
今日も読んでいただきありがとうございます!
メルマガの感想などありましたら、こちらからお聞かせ下さい。
↓
https://keieijinji.typeform.com/to/B8JjDrk5