top of page

超実用!キャラクター表情シート生成: NanoBanana2 vs GPT Image 2



2026年4月22日、OpenAIによる画像生成AIモデルの最新版「GPT-Image2」がグローバルリリースされました。今回はゲーム開発での実用的な事例紹介として、AICUゲーム開発事業部が開発する新感覚ヘルスケアアプリ「Nehan.AI」の3匹のマスコットキャラクターを使って、キャラクターの同一性維持や表情差分を画像生成AIで一括生成する手法を紹介します。Google Gemini 3 (NanoBanana2・Pro) と OpenAI GPT Image 2 をAPIで勝負!




Nehan.AI の キャラクターデザイン



まず、Nehan.AI に登場する3体のキャラクターデザインシートを紹介します。これらも画像生成AI(GPT Image 2)で作成したものです。


現在オーディション中! https://nehan.ai/audition


ElecSheep⚡(電気羊) — 歩いて発電する元気な羊。紺キャップ、黄色ジャケット、プラグ型しっぽ。



ParipiSheep🎉(パリピ羊) — 交流担当のギャル羊。黒ライダージャケット、QRペンダント、WiFiテール。



SomniSheep🌙(寝言羊) — 癒し担当の眠り羊。紺ナイトキャップ、ラベンダーパジャマ。



やりたいこと



デザインシートをもとに、6表情(sleep / drowsy / surprised / happy / confused / excited)を3×2グリッドで生成する。条件は:



  • 3×2グリッドに均等配置

  • デザインシートのキャラクターを忠実に再現

  • テキスト・ラベル・記号は一切なし

  • 白背景



比較した3つのAPI



Gemini Nano Banana 2 — gemini-3.1-flash-image- preview。速度と大量生成に最適化。リファレンス画像をインラインbase64で渡せる。



Gemini Nano Banana Pro — gemini-3-pro-image- preview。高度な推論(「思考」)で複雑な指示に従う。プロフェッショナルなアセット制作向け。



OpenAI GPT Image 2 — gpt-image-2。editsエンドポイントでリファレンス画像を渡せる。



API仕様



Gemini(Nano Banana 2 / Pro 共通)



POST generativelanguage.googleapis.com/v1beta/models/ {model_id}:generateContent?key=...



contents.parts[0]: inlineData(リファレンス画像のbase64) contents.parts[1]: text(プロンプト) generationConfig.responseModalities: ["TEXT", "IMAGE"] generationConfig.temperature: 0.6



リファレンス画像はparts配列にインラインで渡します。レスポンスのinlineDataに生成画像が入ります。



OpenAI GPT Image 2(editsエンドポイント)



GPT Image 2のImageToImageは「edits」という名称のエンドポイントです



POST api.openai.com/v1/images/edits Content-Type: multipart/form-data



model: gpt-image-2 image[]: @reference_image.png prompt: "Using this character reference..." size: 1536x1024 quality: high



image[]パラメータで画像ファイルを渡します。generationsエンドポイント(テキストのみ)とは異なり、multipart/form- data形式です。



結果比較



電気羊 ElecSheep ⚡



Gemini Nano Banana 2(3.1 Flash)



3×2グリッド完璧。帽子が全フレームに維持。テキスト混入なし。キャラのサイズと位置が均一。中心線がずれているのがちょっと残念です。



Gemini Nano Banana Pro(3 Pro)



3×2グリッド完璧。帽子あり。ただしZZZと?のテキストが混入。表情の差分は明確で自然。足や中心位置が揃っているのは素晴らしい。



GPT Image 2(edits + リファレンス画像)



3×2グリッド完璧。帽子・プラグテール・青ポーチの再現度が最高。余計なテキストなし。ポーズや表情のバリエーションが最も豊か。下側の断ち落としが揃っていれば完璧です。



パリピ羊 ParipiSheep 🎉



Gemini Nano Banana 2



3×2グリッド完璧。テキストなし。ライダージャケットと褐色肌の再現度が高い。ただし足やWiFiテールが省略されている。



Gemini Nano Banana Pro



3×2グリッド完璧。WiFiテールのピンクグローが再現。テキストなし。デザインの忠実度が高い。足がないのが残念です。



GPT Image 2(edits)



3×2グリッド完璧。ライダージャケットの金スタッド、WiFiテール、LED厚底、QRペンダント — 全ディテールが再現。テキストなし。難度の高い表現を見事にクリアしています。



寝言羊 SomniSheep 🌙



Gemini Nano Banana 2



3×2グリッド完璧。テキストなし。ナイトキャップの月星柄、ラベンダーパジャマが忠実。中心位置も統一されている。



Gemini Nano Banana Pro



3×2グリッド完璧。Zzzと?のテキストが混入。月星柄の再現は良好。表情差分が明確。



GPT Image 2(edits)



3×2グリッド完璧。全ディテール忠実。テキストなし。6表情の差分が最も明確。



数値比較



出力サイズ



  • GPT Image 2: 1536×1024(指定可能)

  • Gemini 3.1 Flash / 3 Pro: 自動(概ね1024×768前後)



ファイルサイズ(1枚あたり)



  • GPT Image 2 edits: 1,100〜1,600KB

  • Gemini Nano Banana 2: 630〜770KB

  • Gemini Nano Banana Pro: 620〜790KB



コスト(1枚あたり推定)



  • GPT Image 2 (high, 1536x1024): 約$0.08

  • Gemini 3 Pro Image: 約$0.04

  • Gemini 3.1 Flash Image: 約$0.02



グリッド成功率(3×2の6セル)



  • GPT Image 2: 100%

  • Gemini 3.1 Flash: 100% ← 旧2.5 Flashの30%から劇的改善

  • Gemini 3 Pro: 100%



テキスト混入率



  • GPT Image 2 edits: ほぼゼロ

  • Gemini 3.1 Flash: ほぼゼロ ← 大幅改善

  • Gemini 3 Pro: Zzz/?が稀に出る



使ったプロンプト



全API共通で以下の構成:



TWO images provided: (1) CHARACTER REFERENCE, (2) this prompt.



Create a 3x2 expression sheet (6 cells) for "{name}", a spirit servant of Nehan.AI.



GRID: 3 columns x 2 rows, white background, thin gray borders. Same character size and center position in ALL 6 cells. Output: wide image (3:2 aspect ratio).



CHARACTER (match reference exactly): {outfit description} Colors: {palette} Style: Chibi anime, 2-3 head proportions.



6 EXPRESSIONS (left to right, top to bottom): Cell 1: sleeping peacefully, eyes closed Cell 2: drowsy yawning, half-open eyes Cell 3: surprised wide open eyes, shocked Cell 4: happy big warm smile, joyful Cell 5: confused tilted head, puzzled Cell 6: excited sparkling star eyes, arms up



FORBIDDEN: NO text, NO letters, NO labels, NO symbols. Pure illustration only.



ポイント:



  • 「match reference exactly」でデザイン再現を強調

  • 表情は番号付きで6セル分を具体的に指示

  • 「FORBIDDEN」セクションでテキスト禁止を明示

  • Geminiにはリファレンス画像をinlineDataで、GPT Image 2にはimage[]で渡す



結論



2024年後半のGemini 2.5 Flashではグリッド制御が30%の成功率でしたが、2026年4月時点の最新モデルでは全APIが3×2グリッドを完璧に生成できるようになりました。



総合評価:



GPT Image 2 edits — デザイン再現度とテキスト除去で最高品質。コストは最も高い($0.08/枚)が、キャラクターアセットの本番制作にはこれが最適。



Gemini 3.1 Flash (Nano Banana 2) — コスパ最強。グリッド制御もテキスト除去もほぼ完璧になった。大量バリエーション生成や試行錯誤に最適($0.02/枚)。



Gemini 3 Pro (Nano Banana Pro) — Flashとの差は小さい。テキスト混入(Zzz/?)がやや多く、高コスト。現時点ではFlashの方が実用的。



どのAPIもリファレンス画像の活用が鍵ですね。テキストプロンプトだけでキャラクターを再現するのは困難ですが、デザインシートを渡せばどのAPIでも高品質な結果が得られることがわかりました。なお、 Gemini 2.5 Flashでの生成の様子はあまりにも比較対象にはならなかったのですが、興味がある方はこちらをご参照ください。


現在オーディション中! https://nehan.ai/audition



アプリそのものの挙動を知りたい方は、ウェイトリストにてお申し込みください。アプリリリースの時に優先的にお知らせします




4月30日にプレイテスト会があります!お申し込みはお早めに!!



Originally published at note.com/aicu on Apr 23, 2026.



コメント


bottom of page