chatGPTマスターを目指して vol.35 出力結果を評価するにはどうすれば良い?

chatGPTの出力品質を担保してくれる仕組みについて、さまざまな観点から研究が進んでいるようです

  

もしあなたがchatGPTをはじめとした大規模言語モデルを使って自社サービスのためのQ&Aサービスを作っているとしたら。

どんな出力を期待するでしょうか。

 

もちろん、正しく質問に答えることは大前提です。

誤った情報を公開してしまった日には、お客さまの不満へまっしぐらです。

AIを使わなければ発生しなかった問題の対応に、貴重な時間を割かなければいけない事態に陥る可能性もあります。

「AIなんて入れるんじゃなかった!」

そんなふうに思う経営者もいるかもしれません。

 

では、回答が合っていればそれだけでいいのでしょうか。

もちろんサービスによって違いはありますが多くの場合以下のような内容も重要な要素であるのではないでしょうか。

・きちんとした言葉遣いをしている

・必要な情報を過不足なく提示している

・出してはいけない情報は出さない

ぱっと考えただけでも色々な要求が出てきます。

変な言葉遣いをしていれば、お客さまはきっと怒るでしょうし。

必要な情報が欠如している場合には再質問の手間がかかりますし、一方であまりに冗長すぎる回答も質問者であるお客さまにとってストレスとなり得ます。

他にも、回答してはいけない情報まで包み隠さず話してしまうことは「良いQ&Aサービス」とは言えません。

 

本来であればAIによる出力を人間が一度確認することが最もリスクが低い方法ではありますが、あまり現実的ではありません。

休みを必要としないAIに対して、一日数時間の休息が必要な人間が作業量で太刀打ちすることは不可能です。

ではどうするか?

そのための手法として、LLM-as-a-judgeと呼ばれる手法の研究が進められています。

ここでLLMとはLarge Language Modelの略で、chatGPTの元となるGPTモデルなどの、大規模自然言語モデルを指します。

このLLM-as-a-judgeでは、事前に定められたルールに基づき、AIによる出力を評価することができます。

事前に閾値を決めたり、あるいは条件を決めることで、開発者の意図にそぐわない出力をしてしまわないように、ブロックすることができます。

【Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena】

https://proceedings.neurips.cc/paper_files/paper/2023/hash/91f18a1287b398d378ef22505bf41832-Abstract-Datasets_and_Benchmarks.html

 

この研究はもちろん、chatGPTが大バズりしたあとに発展してきたものなので、まだまだ歴史の浅い研究分野ではあります。

ですがその重要性も相まって、2024年だけでも多くの論文が発表されているようです。

ちなみに上記のLLM-as-a-judgeを提唱している論文は、発表が2023年であるにもかかわらず、すでに2000件を超える引用がなされています。

加えて、LLM-as-a-judgeをさらにわかりやすくしたLLM ComparatorというモデルもすでにGoogleのLLM評価プラットフォームに統合されているのだとか・・・。

【LLM Comparator: Interactive Analysis of Side-by-Side Evaluation of Large Language Models】

https://ieeexplore.ieee.org/abstract/document/10670495

 

自然言語処理モデルが注目されればされるほど、問題点もたくさん出てくる。

それに合わせて、問題点を解決するための手法も盛んに研究される。。。

いま、新しい時代が始まっているその最中にいるのだと思うと、とてもワクワクします!

 

P.S.

↓メルマガの新規登録はこちらから↓

https://48auto.biz/keieijinji/touroku/sp/scenario13.htm

(スマートフォンよりご登録いただけます)

 

 

Who is writing

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。