
先日からX(旧:Twitter)を俄かに騒がせているトレンド。
「chatGPT 4oのイラスト生成能力がすごい」
一昔(?)前のゲームで使われていたドット絵であったり、実際の写真をイラストにしたり。
色々な利用例がSNSだけでなく、Youtubeにもアップロードされています。
果たしてどういった改善があったのでしょうか?
OpenAI社の公式リリースでは「Introducing 4o Image Generation」として紹介されていました。
https://openai.com/index/introducing-4o-image-generation/
生成される画像の質向上だけではなく、マルチモーダルなモデル(複数ドメインのデータを同時に扱うことができるモデル)を使うことで、文章などと合わせて出力することが可能になっているようです。
例えば桜の画像をもとに、いくつかお願いをしてみました。
「イラストにして」
いい感じです。でも、ここまでであればこれまでのモデルでもできただろうという気はします。
次にこんなことを頼んでみました。
「水彩画っぽくして」
とてもいい感じです。私が数時間かけて描いたとしても、これよりも綺麗な絵を描ける気はしません。
そしてここからが本番です。
画像の一部を変えてみたり、文字を追加してみました。
「桜の木をイチョウに変えて、水彩画っぽくして」
「出力した画像に、2025年11月のカレンダーを追加して」
右上に2025年11月のカレンダー日曜始まりで追加して、としか依頼していなかったため、見た目的にはちょっとスタイリッシュさに欠けますが、要件はきちんと満たしています。
なにより、文字がきちんと文字として出力することは、これまでのモデルではできないことでした。
上で述べたとおり、これまでのchatGPTによる画像生成では、文字が全く表示されないのが玉に瑕でした。
文字を出力してもらおうとしても、どうしても謎の線が生成されてしまったのです。
それはおそらく、文字列も画像として扱おうとしたためと考えられます。
一方今回のモデルでは、文字は文字として扱ったままで出力が可能となりました。
その変更により、こういったカレンダーの追加もお手のものになったのだと思われます。
ちなみにOpenAI社のプレスリリースでは、作成した猫の画像を使って、ゲーム画面のようなものを作成していました。
(猫xゲーム画面、と見ると、最近発売されたモンスターハンターシリーズを思い出すのは私だけでしょうか。)
すでにかなりの精度で達成されていた画像生成についても、弛まぬ努力で新しいモデルを学習・公開する。
機械学習の進歩は止まるところを知らないようです。
P.S.
ちなみに画像生成中、上の方から順番に生成されていることに気がつきました。
これはおそらく、画像生成モデルの構造によるものと思われます。
具体的には、左上、あるいは一番上のピクセルから順番に、下のピクセルを生成するようなモデルになっているのではないかと推察できます。
これ自体はよくある画像生成モデルの構造ではありますが、出力された画像を見ると、その精度には本当に驚かされます。
P.P.S.
↓メルマガの新規登録はこちらから↓
https://48auto.biz/keieijinji/touroku/sp/scenario13.htm
(スマートフォンよりご登録いただけます)