NovelAIはどんな改善点があるのか、専用のStable Diffusionに高精度なイラストを生成する問題が追加 GIGAZINE

安定した放送よりもはるかに高い精度でグラフィックを生成できる画像技術AIサービス「NovelAI」のAIモデルについて、NovelAIの成長グループが自社のブログで解説しています。

NovelAI による継続的なスタートアップの改善 | by ノベルエイ | | 2022 年 10 月 |中くらいhttps://blog.novelai.net/novelai-improvements-in-diffusion-stable-e10d38db82ac

NovelAI は、主に 2021 年 6 月 15 日にベータ版が開始された SaaS Mannequin に基づく有料サブスクリプションサービスであり、米国の Anlatan によって運営されています。もともとはその名の通り機械的にノベルを生成するAIでしたが、2022年10月3日に画像生成機能ができました。

NovelAI が画像を生成するために使用したモデルは、2022 年 8 月に公開されたオープンソースの定数拡散モデルと同じ潜在拡散モデルであると言われています。学習に使用する情報セットには、国際的な 2D イメージング Web サイト「Danbooru」の写真が多数含まれています。

ダンボールで修業を積んでいくうちに、登場人物の名前や外見も覚えていきます。「笑顔のレムの傑作ポートレートコースティックテキスタイルシェーディングハイレゾイラスト」をリクエストして入手できます: pic.twitter.com/2wqDmAxCJa

— NovelAI (@novelaiofficial)

ダンボールのイラストのほとんどは、PixivやTwitterと同様にSNSからの無断転載です。データセットは最初は単なる画像ではなく、モデルが認識できるようにラベルを付ける必要があります。ただし、Danbooru のラベリングシステムを使用してこのデータセットにラベルを付けることができるため、比較的低コストで大規模なデータセットを作成できます。 .このため、waifu ストリームと同様に、画像の瞬間のイラストに特化した AI モデルは、Danbooru に基づくデータセットでトレーニングされます。

NovelAI は Waifu Diffusion と同じ Danbooru 由来のデータセットから学習しますが、特に Stable Diffusion と Waifu Diffusion で非常に正確な画像を作成することができました。

ただし、オープンソースの安定版リリースや waifu リリースとは異なり、SaaS ベースのサブスクリプションであり、そのモデルが公開されていない NovelAI がどのように機能するかは不明でした。

そして2022年10月6日、NovelAIの公式Twitterアカウントは、AnlatanのGitHubリポジトリがハッキングされ、NovelAIのソースコードが流出したことを発表しました。

[お知らせ: 専有ソフトウェアとソースコードの漏洩]

こんにちは、ノベルAIグループです。 2022 年 10 月 6 日、GitHub と同社のセカンダリリポジトリに対する不正な攻撃がありました。

リークには、当社が提供するサービスの独自のソフトウェアとソースコードが含まれていました。

— NovelAI (@novelaiofficial)

その後、10 月 11 日、NovelAI 開発チームは、NovelAI が「Stable Diffusion ダミーアーキテクチャとトレーニング戦略を変更した」と発表しました。

Stable Diffusionは「CLIP」というモデルを使って文字と画像をつなぎます。この CLIP を改善して、ラベルベースの命令をより効果的に使用し、生成された命令スナップショットの精度を向上させました。

また、Stable Diffusion はデフォルトで 512x512 ピクセルの縦横比の画像を出力しますが、元の画像とは異なるファセット比の画像から 1:1 の画像を強制的にトリミングしたかのように、奇妙に見える場合があります。 1.これは、AI モデルのトレーニング時に GPU の効率を最適化するために、複数のトレーニング画像が 1:1 のアスペクト比に同時にトリミングされるためです。

この 1:1 のファセット比へのトリミングは、主に表示画面の中心に基づいて行われることがよくあります。 B. 下の画像に示されていますが、「戴冠した騎士」の画像ですが、画像をトリミングした後、王冠を取ります。そうでないこともあるかもしれません。そのため、NovelAI は Core Snips の代わりに Random Snips を使用することで、この欠点を少し改善したようです。

このファセット比率の問題を解決するために、NovelAI はデータセット用のカスタムバッチ生成コードも実装しました。 Stable Diffusion は 512 x 512 ピクセルの最大画像サイズを定義しますが、NovelAI は 512 x 768 ピクセルの最大サイズと 1024 の最大サイズを定義します。最大画像サイズを大きくすると大量の VRAM が必要になるため、アルゴリズムがGPU のレンダリング効率を改善するために変更されました。

また、独自の安全範囲内でインジケーターの最大長を 3 倍に増やし、インジケーターに追加情報を含めることで、より精度の高い画像管理が可能になります。

また、NovelAI は管理モデルの時代に入る新しい方法として、「HyperNetworks」というモジュールを作成しています。このハイパーネットワークは、「単一の小さなニューラルネットワークを大規模なネットワーク内の一連の要因に適用する」もので、もともとはテキストテクノロジ変換モデルとして、さまざまなニューラルネットワーク構成で斬新で反復的な実験を日常的に生成するものでした。しかしHyperNetowrks氏は、問題はモデルを十分に一般化できず、全体的な学習可能性が非常に低いことだと述べました。

しかし、この HyperNetwork を AI 画像の安定的な普及に適用することで、以下の学習能力を持ちながら、製造環境で十分な効率を確保することが可能になると思われます。その結果、モデルコミュニティの設定が大幅に改善されたため、NovelAi の画像忠実度は Stable Diffusion や Waifu Diffusion よりもはるかに高くなります。

NovelAI が流出した直後、流出した NovelAI モデルに準拠したバージョンの「Hypernetwork」が、拡張非公式 WebUI ソフトウェア定数で目まぐるしく更新される「AUTOMATIC Stable Broadcast Web UI バージョン 1111」に追加されました。これにより、AUTOMATIC1111 版の Web UI で NovelAI をプレイすることが可能になります。

ハイパーネットのサポートを追加 (???) AUTOMATIC1111/[メール保護] GitHub https://github.com/AUTOMATIC1111/stable-diffusion-webui/commit/bad7cb29cecac51c5c0f39afec332b007ed73133

つないでつないで地域を笑顔に

NovelAIはどんな改善点があるのか、専用のStable Diffusionに高精度なイラストを生成する問題が追加 GIGAZINE