AIはイラストを採点できるのか?AIの審美眼はここまできた

AIテクノロジー創作

※この記事は、大学に提出したとある課題の一部分をブログ向けに手直ししたものです。この課題によってリニューアルした笠を被ったキャラクター(Bundrail氏)のイラストが生み出されており、Bundrail.netのアイデンティティにも関わる部分ですので、ここに掲載しておきます。なお、本記事の執筆の一部にChatGPT(3.5)とBard(英語版)を使用しています。

私は夏休みの間、岡本裕一朗氏の著作「人工知能に哲学を教えたら」を読んで、人工知能に哲学を教えたときについて、思考実験の例を通じて、人工知能が取りうるスタンスを考察しました。

その中で、この本の第3章にて、「AI vs 芸術家 人工知能はアートを理解できるのか?」ということで、人工知能と芸術の価値を決める感情や市場価値との関わりを思考実験などを通じて考察しています。これに触発されて、私も実際にイラストをAIに審査してみました。その部分を通して、現在のAIのイラストの審査能力はどのようなものなのか知っていただきたいと思います。

なお、本実験は2023年8月17日にChatGPTやBardで実施しました。

ChatGPTが自認するイラスト採点能力の課題

絵画やイラストといった芸術の評価の効率化に、人工知能を使おうと思っている人もいるかも知れません。しかし、人間が望む水準での絵画の審査ができるまでにはまだまだ課題があるものと捉えています。

例えば、ChatGPTが絵画の特徴量を判定するプラグインを持っていたとしても、絵画コンテストでの採点にはいくつかの制約があります。以下に考慮すべき点を示します:

1. 客観性の問題 絵画の採点は主観的な要素が強く絡むことがあります。絵画の美しさや感情的な表現は主観的であり、プラグインが完璧な評価を行うことは難しいでしょう。

2. コンテクストの理解: 絵画の評価にはコンテクストが重要です。作品の意図や背後にあるストーリー、芸術家の背景などが評価に影響を与えます。これらの要素を理解することは、単なる特徴量の判定では難しいです。

3. クリエイティビティと新規性: 絵画コンテストで高い評価を得るためには、クリエイティビティや新規性が重要です。これは単なる特徴量だけでは測定しきれない要素です。

4. 文化的なバイアス: 美術の評価には文化的なバイアスが絡むことがあります。特定の文化や背景に関する知識が必要な場合、プラグインだけでは適切な評価が難しいかもしれません。

5. 詳細な解釈: 絵画を評価するためには詳細な解釈が必要です。プラグインは特徴を抽出することができるかもしれませんが、それだけでは作品の深い意味やメッセージを理解するのは難しいでしょう。 総合すると、プラグインが絵画の特徴量を判定できるとしても、完璧な採点ができるわけではありません。絵画の評価には人間の感性や知識、経験が欠かせず、プラグインはその補助的なツールとして利用されることが適しています。

実際に審査させてみよう

私はChatGPT-4の有資格者ではないので、Bardの英語版を用いました。

では、画像入出力機能を備えたBardの英語版は私(Bundrail)が描いたイラストを採点できるのでしょうか。

こちらの画像は、私がリアル名義・Bundrail.net系列のX(Twitter), YouTubeアカウントなどの新しいアイコンにする用に書いたキャラクターです。実は当サイトによく出てくるこのキャラクターはこの実験に際して生まれたんですね。

当方イラスト制作に慣れていないもので、半日〜1日くらいかけて作りました。日数で言ったらもう少しかかったかもしれませんが、下地がはっきりあった・そんなに色彩にこだわっていないので割と早かったです。

これは私が笠を被り、灰色のノートパソコンを持って指を指しているイラストです。

デジタルイラストの制作経験は少ししかありませんが、VRMモデル(人型3Dモデル)を先に制作し、その素体にポーズを取らせた画像をもとに下書きと清書を行いました。ですので必然的にプロポーションが整ったイラストになるはずです。

デジタルイラストは数枚しか製作したことがないのでかなり腕前も悪く、笠(帽子)がずれてしまいました。

神作には遥か及びませんが、このイラストにBardはどのような採点を下すのでしょうか。

100点満点として、以下の10項目に10点満点で得点をつけてもらってそれを合計してもらいました(これら項目はChatGPTの意見を参考に決定)。ここで、各項目について10点は一流のイラストレーターレベル、0点は絵が上手じゃない幼稚園児の落書きレベルだと思ってもらうといいでしょう。

・線の丁寧さ

・比例が意識されており、解剖学的に描かれているか

・模様とテクスチャ

・色彩と配色

・ライティングと陰影

・表情

・ポーズ

・独創性

・配置の美しさ

・汎用性(本来「愛着が持てそうか」のつもりだったが、Attachmentとの誤訳により「貼り付けの可能性=汎用性、可用性」ということで今回は行かせてもらう)

いかがでしょう、自己採点としては40〜50点です。

結果発表

Bardの採点を簡単に表にまとめると、以下のようになりました。Bardというのは回答を3つに分けて出してくれるんですが、3つの回答ごとに内容も点数も違うので、比較してみましょう。

項目Bard1Bard2Bard3講評(数字はそのBard特有の意見)
線の丁寧さ787よく書けていて滑らか、太さに一貫性がないかも、右肩ぐらついてる(3)
比例・解剖878割と正確だが、頭が少し小さい(1)or大きい(2)かも、手が少し小さすぎる(2)単純(3)
模様・質感666シンプルだが、もっと質感が欲しい、笠のきれいな市松模様とノートパソコンの微妙なグレースケールの質感(2)
色彩・配色778鮮やかで効果的、奥行き感が足りない
光・陰影667ライティングが平坦、一貫性がない、奥行き感が足りない(1)
表情777表情豊か、目が小さくてもいい(1)、目の書き込みがうまい(2)
ポーズ878ダイナミックで面白い
独創性887笠が独創的、もっと個性的でもよいかも、完全オリジナルじゃないが独自性あり(3)
配置778人物が中央にあってバランスが取れている、もっとバランスが取れてもいい(1)
汎用性788このイラストは可用性があり、さまざまな文脈で使用できる
合計717174 全員、合計70点だと思っていた

Bardは単純計算を苦手としているようなので、合計点は私がスプレッドシートで算出。実際にBard3は74点なのに「70点(70 out of 100)」(←「7 out of 10」ではなく)と言っていて、4点もずれてしまっている。四捨五入すれば消えるわけだが、人間にとっては大きな差と感じてしまう。

参考:Bardが出した答え
10項目の参考:https://chat.openai.com/share/fd8d9de8-2d22-48db-808b-df498c08d5f6
Bard1:https://g.co/bard/share/2d9971ba0fd1
Bard2:https://g.co/bard/share/1d40b41638a6
Bard3:https://g.co/bard/share/50b2e94eda70

考察

まず、Bardは評価してくれるだけすごいと感じました。ChatGPTもGPT-4では画像の違和感を指摘しているほど熟達した思考回路を有しているので、きっと何がしかの回答を出してくれるでしょう。

さて、3通り出てきた回答であるが、それぞれ得点や講評がちょっとずつずれているのが面白いが、三つとも「細かいミスはあれど、基本的によくできたイラストだ」と、我ながらかなりの高評価をもらえました。

おそらくBardはイラストの採点などを頻繁して目が肥えているわけではないわけですが、どの方面においても、一般的な目線ではありますが指摘ができています。そして、どのBardでも共通しても70点台なのはやはり中立(100点をつけない)と人間中心主義(イラストレーターの努力は認め、及第点には絶対及ばす)のポリシーが関わってくるのでしょう。

ChatGPTが指摘した採点能力の課題についても、Bardはコンテクストや文化的背景などのアートを楽しむ能力が熟達しておらず、玄人並みの判断基準を持つに至っていないと言えますね。

Bardは、判断の基準軸が一定ではない

返ってきた文章をよく読んでも、彼ら生成AIは画像の特徴をよく理解してアドバイスしているように見えます。一方、Bardの回答にはところどころしっかりと確固たるポリシーを持って指導しようとしているとは思えないような言動が存在します。その一つが、Bardそれぞれが相反する内容の意見を言っていることです。

たとえば、比例・解剖の項目では、Bard1は頭が少し小さいと評しているのに対して、Bard2は頭が少し大きいと言っていたり、Bard1は目が小さくてもいいと評しているのに対して、Bard2は目の書き込みがうまいと褒めていたりする。特にBard1とBard2は得点が全く同じだけにこの結果は対照的で興味深いです。Bard2に関しては、そこまで描き込んだ、また市松模様を意図して描いたつもりは無いのに市松模様が見えるというハルシネーションが起こっています(おそらく笠からの連想だろうか)。

Bardはただ特徴量を抽出しているだけで、芸術の美しさなどまともに判別できないのでしょうか。今回はこの画像以外をBardの採点にかけていないので、絵の上手下手について、詳しい比較検討はしかねます。

しかし、これは単に学習が足りないだけと捉えることができるという部分もあるでしょう。人間の素人がこのイラストを見ても70点くらいつけてくれる予感がします。判断基準も時と場合によって微妙な揺らぎがあると思います。一方、プロのイラストレーターなど目の肥えた人間がこのイラストを見たらすぐさまダメ出しを開始するでしょう。AIの素人・玄人についても同様なのではないでしょうか。

芸術を採点するAIはどのように受容されていくべきか?

特に「強いAI研究」(AIが人間のように考え、心を持つことを認める)の立場からすれば、彼らは目の肥えた人間の持っているコツを見抜いていないだけで、彼らはすでに一般人レベルには芸術の良し悪しを判別できるレベルにまで達しているのだということがわかりました。

さまざまなイラストとこれらの評価値を紐付けて学習させた審査システムが現れ、さらに自ら鑑賞眼を改良するようになれば、それ即ち人間よりも優れた芸術判別装置になることでしょう。

芸術の何が美しいかとするのは人によって異なると思いますし、本当は芸術に正解などないのですが、私は「下手な絵をなくすという方向に教える」というAIの活用には、ある程度の社会的な価値が認められると思います。絵の赤ペン先生みたいな感じのサービスとかで、優秀で誰でも使えるイラスト格付けマシンという位置付けのものが世の中に出回れば、既存の人間の鑑賞眼と共存して普及していくと思うし、私としてもそのように普及することを願います。

芸術の美しさをこれのみが正しいとして一つに決めるということは決してしてはならず、制度としてAI的に優れた作品でないと出版できないなんてことにならないようにしないといけないですよね。それはもはや全体主義、ディストピアです。

まとめ

以上、AIのイラスト採点の現状と問題点をみてみました。今後、さらなる画像生成・認識AIの技術向上に伴って、イラストを採点することができるでしょうが、私はこういったツールも便利に基本的に受け入れられていくと思います。

今回、読んでみた本は、「人工知能に哲学を教えたら」(岡本裕一朗著)という本です。この本を読めば、AIにかかわる哲学的問題に関して考え、思考実験を通して社会における哲学的振る舞い方を見直すことができると思います。哲学や現代社会について考えることができる本なので、ぜひ読んでみてください。

コメント

タイトルとURLをコピーしました