#194 画像生成AIの得意なこと、苦手なこと

■□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
梅田弘之の「グラス片手にビジネスを考える」
■□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□

AIによる画像生成は便利になりました。「こんな画像を描いて」とテキストで依頼すると、パパっと数作品描いてくれるし、「もっと柔らかく」とか注文を付けると文句も言わずに描き直してくれます。

あれは、生成AIの「次の言葉を予測する」技術を応用していて、言葉の代わりに画素パッチを予測するトレーニングをしています。例えば「犬がソファに寝そべっている」というテキストとそのシーンを表す画像を大量に学習してテキストと画像の関連性を理解するわけです。

このクロスモーダル学習でデッサン力は身に付くのですが、実はそれだけでは不足で拡散モデルという学習も行っています。これは、元の画像をぐちゃぐちゃにした後で、それを復元するというトレーニングを延々と繰り返すうちに、ペインティング力が付くというものです。

ペインティング力とデッサン力を身に着ければ最強と思いますが、実は画像生成AIは「図起こし」と「画像編集」が苦手です。手書きで図を書いたものを読み込ませて作図させるとヘンテコな図しか作れませんし、犬の画像を与えて「耳をもっと長くして」と指示しても、元の画像を活かした編集ができません。

もっとも、世界中でこれらの課題に取り組んでいるので、早晩、対応できるモデルが登場すると思います。その日が来ることを見越して、その技術を使ったビジネスを今から考えるのもいいかも知れません。