DALL-E3で画像生成をデザインの実務で使えるか試してみた！

皆さんChatGPTを活用されていますか？私は有償版のChatGPTを契約した日から色々な業務で利用方法を試していますが、資料作成や自分にない視点を得ることに使ったり、コードを書いてもらったり、知らない知識を教えてもらったり、これ程までにAIが身近に感じられることは今までなかった気がしています。

バージョンアップが早くて、活用し記事にする間に挙動が変わってしまうことが多いのですが、画像生成に関しては今回からDALL-E 3へプロンプトを通じて画像作成できるようになったので、試してみた感想をまとめたいと思います。

DALL-E3とは

DALL-E 3（ダリ・スリー）は、写真や絵のような画像を作ることができる、とても賢いコンピュータープログラムです。言葉で説明すると、DALL-E 3はその説明を聞いて、その通りの画像を作り出します。たとえば、「宇宙に浮かぶ猫」と言えば、DALL-E 3はそのような猫の画像を描くことができます。ですので言葉でどれぐらい細かく伝えられるのかが大切なポイントとなってきます。

DALL·E 2023-11-14 18.04.14 - A cat floating in space, surrounded by stars and planets, with a whimsical and playful expression. The cat appears weightless, with its fur slightly f.png [宇宙に浮かぶ猫]を実際に書いてもらいました。めちゃくちゃ可愛いですよね。

デザイン業務の課題

私は過去にウェブサイトのデザインやコーディング作業に携わってきました。デザインに利用する写真に関して、予算がない場合はレンタルフォトを利用するのですが、たくさんある写真の中からイメージに合うものを選ぶことに非常に時間がかかっていました。更に表現したい内容をイメージして素材の角度や色を調整したすることもデザイナーの負荷が高めていたりもしています。DALL-E3をつかってイメージに近づければ業務効率もあげられるのはでないかと思いました。

DALL-E 3にお願いできるイラスト指示について

先ほどは、DALL-E 3に猫の絵を書いてもらいましたが、どうもテイスト的にアメリカナイズといかAIナイズされていると思うんですよね。近未来を描く画像とかよく見かけますが、一般的な企業広告にはあまり向かないですよね。

もちろん「漫画風にして」と伝えれば、

DALL·E 2023-11-14 18.20.57 - A cat floating in space, in a manga-style drawing. The cat should have exaggerated, cartoonish features with large expressive eyes, and a playful, mis.png このように書いてくれるので言葉で伝えることによりテイストの調整はできるのですが、「漫画」には具体的には色々なタッチがあるので自分のイメージする作者など有名な作品名を指示して「○○風」という指示をすると、コンテンツポリシーに引っかかってしまい作成することができませんでした。デザインの現場で言えば無いものを作っているので、そういう注文はクライアントとのイメージ共有の時には使われたりもするのですが、なかなか別の言葉で作りたい内容を説明するのはなかなか難しそうです。

あとは、部分的に変更するのもなかなかうまくいきません。

例えば、「猫のキャラクターを一切変えず、イラストの背景を水中にしてください」と要望しても、こんな感じで急にカラーになってテイストも全然違ってしまいます。

惜しいけど「業務には使えない」と思ったが！

新しいテクノロジーを業務に活かせる期待感でワクワクしながら取り組んだのに、「これでは使い物にならないじゃないか。。。」と諦めたときに、ハッと気が付いて素直に質問してみました。

「このイラストを描いたときにどういった指示をしたのか、すべてJSONのパラメーターで出力してください。」と質問すると


{
  "size": "1024x1024",
  "prompt": "The same cat character as in the previous manga-style drawing, now placed in an underwater setting. The cat should retain its original features, expression, and style. The background should depict a vibrant underwater scene, with colorful coral reefs, various fish, and soft light filtering through water, creating a serene and mystical underwater atmosphere.",
  "referenced_image_ids": ["NSIRv7AJ3EUD330H"]
}

おぉ！！なるほど、まず「size」というパラメーターで画像サイズを決めていて、「prompt」でイラストの具体的な指示をおこない、「referencedimageids」で番号の意味はわからないのですが、参考画像にしているようですね。

では、改めて出力したJSONを指定して同じイラストを生成できるのかを試すと！

まったく同じ画像が生成できるじゃないですかー！

それでは、さらに描き分けることができるのではないかと試しに、promptの英文が指示をしているようなので、

「The same cat character from the previous manga style drawing is placed in an underwater environment. Cats should retain their original features, expressions, and style. The background depicts a vibrant underwater scene with colorful coral reefs, a variety of fish, and soft light shining through the water, creating a tranquil and mysterious underwater atmosphere. Make sure you stay and shake hands with your big shark friend.」

「前回のマンガ風の描画と同じ猫のキャラクターが水中環境に配置されています。猫は元の特徴、表情、スタイルを保持している必要があります。背景には、色とりどりのサンゴ礁、さまざまな魚、水から差し込む柔らかな光など、活気に満ちた水中のシーンが描かれており、静かで神秘的な水中の雰囲気を作り出しています。このままで大きなサメの友達と握手しているようにしてください。」と付け加えて再度生成してみます。

DALL·E 2023-11-21 00.39.27CAT.png

そうすると、凄い！絵のテイストは同じでサメの友達を握手してるようなイラストを作成することができました！

このテイストは、「The same cat character from the previous manga style drawing」と漫画風を指定しているのと、「 "referencedimageids": ["NSIRv7AJ3EUD330H"]」この数値で判断しているようです。ある程度は書いてもらったものを調整が可能なことがわかりました。

どんな指示が可能なのか素直に聞いてみた。

では、どんな指示ができるのか詳細を聞いてみると。「DALL-E 3で思うようにイメージをコントロールしたいのですが、どのような指示ができるのか、具体的な内容をJSON形式で教えてください。」

DALL-E 3でイメージを生成する際に、JSON形式で指定できる内容は以下の通りです：

1. **size**: 生成するイメージのサイズを指定します。以下のサイズから選択できます：
- `1024x1024`: 正方形のイメージ（デフォルトサイズ）
- `1792x1024`: 横長のイメージ
- `1024x1792`: 縦長のイメージ

2. **n**: 生成するイメージの数を指定します。デフォルトでは1枚のイメージが生成されます。

3. **prompt**: 生成したいイメージの詳細な説明を書きます。ここでの記述がイメージの内容に大きく影響します。

4. **referenced_image_ids**: 以前に生成したイメージのIDを参照することもできます。これは特定のイメージに関連する新しいイメージを生成する場合に使用されます。

具体的なJSON形式の例は以下の通りです：

{
"size": "1024x1024",
"n": 1,
"prompt": "A futuristic cityscape at sunset, with flying cars and neon lights, in a cyberpunk style.",
"referenced_image_ids": ["あるイメージID"]
}

このように指示するプロパティを返答してくれました。なんだかプログラムに利用方法を聞いて丁寧に教えてもらうって斬新ですよね。

まとめ

惜しいのは、よく見るとイラストは似てはいますが、背景などは微妙に変わってしまっています。まったく同じ背景や人物を指示できるというわけでもないので、まだカメラマンやイラストレーターの代わりに、デザインでのお仕事で使うにはまだ厳しいとは思いますが、メインビジュアルや背景パターンの作成には十分利用する分には使えるレベルだと思います。もう少しパーツごとに詳細に指示ができるようになるとよいですね。

小林竜也

株式会社フロッグポッド代表取締役ゴルフ、サッカー、釣り、音楽と幅広い趣味と家族をこよなく愛する。