chatGPTマスターを目指して vol.56 自信過剰なGPT
chatGPTに思い通りの出力をするために工夫するスクリプト。その戦略は様々ありますが、とある言葉をかけると自信過剰になるようです

chatGPTを扱うために入力するスクリプト。
どうすればLLMをより効果的に使うことができるのか。
スクリプトの書き方についてはたくさんの論文が発表されています。
いろんな論文が発表されている…ことは把握しているのですが、具体的にどんなスクリプトが有効と言われているかを完璧に覚えているわけではないので、改めて調べてみました。
もちろん、chatGPT先生に聞いてみます。
「chatGPTへの入力スクリプトに関する論文を新しいもの、インパクトの大きいものを中心に列挙していただけますか?」
『以下は,「プロンプト工学(prompt engineering)/入力スクリプト(prompt)設計」 に関する、比較的最近発表されておりかつ影響力がありそうな論文・調査レビューをいくつか厳選したものです。日本語・英語混在ですが、研究の全体像把握には有用かと思います。』
(最近のchatGPTは、とても丁寧に回答してくれるようになった気がします。)
そして出力された論文のうち、【A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks】について読んでみました。
https://arxiv.org/abs/2407.12994
こちらの論文を読んでいくと、P14あたりから表が出てきます。
データセットと、どんなプロンプト戦略が有効か、具体的にどのモデルが対象とされているか、最も良い精度を示したプロンプト戦略は何か?についてまとめられているのですが、とてもとても長い表になっていました。
それだけ多くのデータセットに対してプロンプトに関する研究が進められているということだと思うのですが、あまりの表の長さに驚愕です。
実際に「プロンプト戦略」の欄をざっとみてみると、「CoT」という言葉が目立ちます。
CoTとは、Chain of Thoughtの略です。
AIがどのように考えて答えを導き出したのか、それをきちんと書かせる、といった手法になります。
いっとき、出力させると「思考の最中にLLMが温泉に行くことがある」などというテックブログが多くみられた気もします。
他にもさまざまな戦略が挙げられていましたが全てを書くと文字数が爆発してしまいますため、もし気になる方は論文を参照いただければと思います。
ところでこれらスクリプト戦略の中で、「LLMに専門家としての役割を持たせる」というExpert Promptingと呼ばれる手法が有名になったことがありました。
【ExpertPrompting: Instructing Large Language Models to be Distinguished Experts】
https://arxiv.org/abs/2305.14688
そして私自身もこの手法を常に取り入れていたのですが、実はこのプロンプト、chatGPTを自信過剰にしてしまうということが、こちらの論文で指摘されていました。
【Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMs】
https://arxiv.org/abs/2506.00582
自信家になったとしても出力の精度が上がるのであれば全く問題ないのですが、自信を持って間違えることもあるということで、なんだかとてもいたたまれない気持ちになります。
もちろん、専門家として回答してもらうことで有用な回答が得られることも事実なのですが、「自信過剰になっている可能性があること」に注意する必要があるそうです。
つい昨日まで正しいと思われていた知識が、次の日には逆転してしまう。
今回のことは「逆」とまではいかなくても、正しいと思っていたことが要注意事項となってしまいました。
全く新しい分野であるからこそ、常に新しい情報をキャッチアップすることがますます重要になりそうです。
P.S.
とはいえ、自信過剰になったchatGPTのいうことを鵜呑みにするわけではないのならば問題ないかな…と判断し、私自身は「あなたは○○の専門家です」プロンプトを愛用し続けようと思います。
面白い研究成果を上げても、実際に活用してもらうには別の壁があるのだな、と利用者の立場から思い知らされてしまいました。
P.P.S.
↓メルマガの新規登録はこちらから↓
https://48auto.biz/keieijinji/touroku/sp/scenario13.htm
(スマートフォンよりご登録いただけます)
