chatGPTマスターを目指してvol.75 人間にもAIにも求められる「やり切る力」
成功するために必要な力であると言われている「やり切る力」。ついにAIにも求められるフェーズがやってきました。

私の指導教員である教授が、ことあるごとに取り上げる「力」があります。
それは「やり切る力」と呼ばれるもので、「やり抜く力 GRIT」という書籍も発売され、2026年5月17日時点でAmazon Reviewは星4.2になっていました。
2500件近くのレビューがある中で、それなりに高い評価であるように思います。
こちらがどんな力かと言いますと「長期的な目標に向けて情熱と粘り強さを持って努力し続ける能力」とのことです。
瞬発的な力ではなく、最後までやり切る力で持って、何かを達成することができる。
そしてこの能力は鍛えることができる。
私自身もまだまだではありますが、この能力がスキルアップしたことで「できること」が増えたなあと思っています。
それはさておき。
これまで、chatGPTなどの生成AIは「人が聞いたことに正しく答えられるか?」という指標のもの開発が進められてきました。
これは生成AIに限らず、文章の意味理解をするためのモデルであっても同様です。
Q&Aのタスクや大学の入試問題、翻訳など、「正しく答える」を目標に作成されてきました。
一方、ここにきてAIに対しても「やり切る力」が求められてきているようです。
具体的には、「きちんと仕事を完遂できる力」を備えられるように、モデル開発が行われているとのことでした。
とはいえ、「やり切る力が上がりました!」と、根拠もなく提示されたとしても、ユーザである私たちは信じられないと思います。
加えて、モデルの開発者サイドも、具体的な指標がなければ改善の方向を見出すことはできません。
ということは、「やり切る力」を測るためのデータセットがあるはず!
と思い調べてみると、実は2年ほど前から公開されていたようです。
自分の興味の外側であったからか、全く気づいていませんでした…。
例えばOpenAI社からはSWE-bench Verifiedという検証用のデータが公開されていました。
https://openai.com/ja-JP/index/introducing-swe-bench-verified/
こちらは、現実のソフトウェアの問題を解決するAIモデルの能力を図るためのものだそうです。
他にも、2026/1/17には以下のようなタイトルの論文がまとめられていました。
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces
https://arxiv.org/abs/2601.11868
こちらは実務完遂力を図るためのベンチマークで、最新のモデルのいずれも高い精度は出せていない「難しい課題である」ということが述べられています。
さらにはPC環境を操作して仕事を進められるかのベンチマーク、データ分析を完遂できるかどうかのベンチマーク、何度やってもきちんと解決できるかのベンチマーク指標など、さまざまなデータ・指標が存在していました。
きちんと評価基準を持ち、それを上げるためにモデルを改善していく、という従来のアプローチが、今度は「やり切る力」を対象として進められていきそうです。
人間に求められる能力がAIにも求められる時代。
次にAIに求められるのはどんな機能なのでしょうか。
P.S.
↓メルマガの新規登録はこちらから↓
https://48auto.biz/keieijinji/touroku/sp/scenario13.htm
(スマートフォンよりご登録いただけます)
