放置しすぎてしまったぬか床とchatGPTの共通点

メンテナンスが欠かせないのは、機械学習も同じです。でも、メンテナンスにかかるコストが膨大なときはどうすればよいのでしょうか。

2024年3月4日 2024年3月3日

（そういえば、ぬか床しばらくかき混ぜてない…。）

おそるおそるぬか床の蓋を取り、キッチンペーパーで水気を取ってから、ぬか床を混ぜ。

漬かりすぎてくたくたになったきゅうりを食べると、これはそこそこ美味しい。

大根も問題なさそう。

では、恐らく問題が発生しているぬか本体はどうだろうか。

ちょっとばかりぬかを取って、一口食べてみる。

・・・なんということでしょうか。

数日放置してしまったのが悪かったようです。

ぼやっとしているとしか形容のできない微妙な味。

塩っ気もなく。

ぬかの香りも弱く。

ひょっとして私の味覚が壊れてしまったのではないかと思えるほど、薄い味になってしまっていました。

しかも感触も、「柔らかすぎ」の状態です。

とにかくすぐにメンテナンスをしなければなりません。

ところでぬか床にメンテナンスが必要なように、chatGPTにも本来であればメンテナンスが必要です。

このメンテナンスは、chatGPTに「言葉を覚えさせる」という観点ではほとんど必要がないものなのですが、情報を調べてもらう、といった意味ではとても重要になります。

何をメンテナンスすべきであるかというと、新しい情報の学習です。

chatGPTをはじめとする自然言語処理の機械学習モデルでは一般的に、ある特定の時点で得られているデータをモデルに学習させ、実際に文章を生成する際には学習済みモデルを使うことになります。

つまり、学習した時点に登場していなかった言葉は、本来であればAIが話すはずはない、ということになります。

（chatGPTが存在しない言葉を使ったり、うそをつくことがある問題については今回は置いておくものとします。）

もちろん、文法を覚えてもらうだけであれば、それほど問題はありません。

chatGPTが学習した数年前の文法と、現在の文法はそれほど変わらないからです。

一方、何か情報を探してきてほしいとき。

「20XX年の情報までしか知りません」というように言われてしまうと困ってしまいます。

では、毎日新しい文章データを入れて学習すればいいのでは？と思えば、学習にかかる時間を思うとそれも叶いません。

しかもこの問題は決してchatGPTだけのものではなく、他の自然言語モデルでも同じことが起こります。

そんな問題の救世主（の一人）が、RAGと呼ばれる手法です。

RAGは正式名称をRetrieval-Augmented Generationと申しまして、自然言語モデルとは別に、外部の新しい情報を活用して、AIの生成結果をより良いものにしようとする手法です。

様々なRAGの効果が多くの研究者により明らかにされており、現在もその盛り上がりは継続中です。

ドラえもんのような何でもできるロボットではなく、得意を組み合わせて汎用的なAIを作る。

その流れは今も変わっていないようです。

P.S.

↓メルマガの新規登録はこちらから↓

https://48auto.biz/keieijinji/touroku/sp/scenario13.htm

（スマートフォンよりご登録いただけます）

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。