学習する天然ニューラルネット

主に機械学習に関する覚書や情報の整理。競プロ水色→Kaggle Master→?

AI画像加工ツールClipdropの全機能を検証 (有料機能含む)

Clipdropとは?

https://clipdrop.co/ で提供されるAI画像加工サービス。

昨今職業驚き屋さんが驚き始めたのを感じるので今日はその実態に迫っていく。 検証に際しては有料登録もして比較するので参考になればと思う。

追記 : 動画にしていただきました!

ちなみに驚き屋さんのツイートには以下のようなものがあった。敵を作りたくないので特定が不可能な程度にChatGPTに変換させてあります。

「Clipdropと名付けられたこのサービスを試すと、全体的にその優れた性能に感動する!不必要な要素を除去する、主体を抽出する、さらには照明を調節することも可能。高解像度の画像をダウンロードするには料金が発生するが、1024x1024pxまでなら無料で使えるので、ウェブにて使用する際には無料範囲でも差し支えないと思われる。」

「【一切の費用なし・申し込み不必要・ウェブ対応】Clipdropが劇的に進化したところを皆様に紹介したいと思います。信じられないことに、無料かつ登録不要で利用できるジェネレーティブな塗りつぶしのような新機能が追加されていました!提供者であるhttp://Stability.aiさんは信頼できる有名企業なのでご安心ください。この新機能について、リプ欄で詳しく説明します😊」

「#ClipDrop を使ってみると驚愕した。Midjourneyで制作したクマと少女をさらにジェネレートしてみるとこのように変わった。クマの下部から別の足と思われるものが覗いている。」

Clipdropでできる9つのこと

Clipdrop.coの主な機能は次の通り:

  1. Cleanup: 画像内のオブジェクト、人物、テキスト、欠陥を自動的に取り除く。
  2. Text Remover: 任意の画像からテキストを取り除く。
  3. Remove Backgrounds: 高精度で画像の背景を取り除き、メインの被写体だけを抽出する。
  4. Replace Background: AIを使用して、背景を好きなものに変える。
  5. Relight: 光源を用いて、画像に新たな照明を当てる。
  6. Upscale Image: 画像の大きさを数秒間で最大16倍に拡大することが可能。拡大時に生じるノイズを取り除き、詳細な部分を美しく修復する。
  7. Generate Image (Stable Diffusion): AIを用いて、高解像度でリアルな画像を生成する。
  8. Reimagine XL: Stable Diffusionを使用して、一つの画像から複数のバリエーションを生成する。
  9. Uncrop: 画像を領域外に拡大することができる。領域外は自動で生成される。

有料版と無料版の違い

機能 無料版 有料版(Pro)
Cleanup 最大1024x1024 無制限
Text Remover 最大1024x1024 無制限
Remove Backgrounds 最大1024x1024 無制限
Replace Background 使用不可 無制限
Relight 最大1024x1024 無制限
Upscale Image x2(最大2048x2048) 最大x16(無制限)
Stable Diffusion HD ウォーターマーク付き キューをスキップ
Reimagine XL プレビューのみ キューをスキップ
Uncrop 混雑時キューで待機 キューをスキップ
ClipDrop iOS 制限あり+ウォーターマーク付き 無制限
ClipDrop Android 制限あり+ウォーターマーク付き 無制限
ウェブエディタ 10フリークリップ 無制限

主要な無料の制限について3つの例を示した。

  • キューの例、長いときは3000 images waitingと表示されたときも
  • ウォーターマーク
  • 画像サイズ制限

更に詳しい有料無料の違いがある場合は各機能の検証で見ていく。

ちなみに料金は 8990円/年 or 1280円/月

各機能の調査

機能1: Cleanup

いわゆる消しゴムマジック。正直実用性はかなり高いと思う。ただし無料版では、加工後の画像の解像度に制限があることに注意。

例えば、神社の名前を消すと以下の写真のようになる。

High qualityに消すには課金が必要。課金して試したところ、処理時間は長くなるものの、クオリティは目に見えて向上しなかった。

Cleanup機能は、消す範囲が大きかったり、背景が難しい画像に関してはやはり違和感が出てくる。

機能2: Text Remover

画像中の文字を消す機能。きれいに文字を除去できないことが多く実用性はない。日本語に弱い可能性もあり。

下記の画像では消しゴムマジックで指定したときよりも消えていない。

下記の新聞のような画像は、見出し等はきれいに消えているが、本文が消えていない。また人の顔が消えてしまっている。

機能3: Remove Backgrounds

背景を消して、対象物だけ抜き取る機能。対象物の指定や、消しきれなかった背景をクリックで指定することができず、実用性は正直いまいち。ただしCleanupと組み合わせることで消しきれなかったものを手動でどうにかすることができそう。

下記の画像では文字の除去が甘い。

機能4: Replace Background

有料版のみの機能。背景削除を自動的に行い、自然言語による背景と合成する。ただし、写っている物体や位置の考慮をせず背景を合成してくることが多く雑コラ感があふれる。実用性は低い。

猫の画像をuploadしたところ、背景が自動的に削除され簡単な拡大縮小と背景を説明する文章の入力を求められた。

4枚出力した結果以下のような画像が生成されたが、どの画像も猫が宙に浮いてしまっている感じがしてしまっている。

また、ずんだもんの画像をuploadしてみた。

4枚出力してみると以下のような画像が生成された。

ずんだもんの足を書き加えてくれているため、雑に背景だけを合成しているわけではないことがわかる。ただし、足を書き加えていない出力も存在する。

機能5: Relight

光源を追加して光の当たり方を調整する機能。写真にこだわりのある人は実用的かもしれない。 写真だと分かりづらいので動画で。

深度推定などの結果を得るには課金が必要。

Normal mapとDepth estimationをクリックすると以下のような画像がダウンロードされる。

機能6: Upscale Image

いわゆる超解像。ぼやけないように画像を拡大する機能。イラスト等に実用性はあり。文字等には弱い。

左が超解像前の画像で右が超改造された画像である。

文字に関しては、超解像が怪しい。超解像を行うモデルが自然画像で訓練されているのだろう。

ずんだもんの画像はきれいに超解像された。

無料版ではSmooth, ×2に限定される。

過去のStability AIのリリースから考えると、おそらくSmoothではReal-ESRGAN、DetailedではStable Diffusion Upscalerが使用されているものだと推測できる。

機能7: Generate Image (Stable Diffusion)

ここからは、生成系3連発。まずはみなさんご存知Stable Diffusion。無料でできるツールは多いが、手軽に生成可能でpromptがうまくない人でもそれなりの画像が出せるのは高評価。実写の画像に強く、アニメ調の絵を書くのは苦手。文字なども崩壊。ちょっとした小物の画像を生成するのには使えるかもしれない。

ちなみにずんだもんのことは知らなかったのだ。

機能8: Reimagine XL

似たような画像を生成する機能。これも実写に強くアニメ調に弱い。実写でも手足が崩壊することが多く、実用性はあまりないと感じる。

以下3枚は生成したもの。よく見ると骨格が怪しい。

ずんだもんと似たようなキャラを作ってほしかったが、無理だった。

生成された画像をダウンロードするには課金が必要。

機能9: Uncrop

画像を領域外に拡大する機能。

得意そうな画像でこの機能を試しても、明らかに領域外の解像度が低く、境界が視認できてしまう、実用性はないかもしれない。また二次元画像は不得意で実用性はない。

以下4枚は領域外に拡大したもの。

またずんだもんでも試してみた。 ずんだもんっぽいキャラを書こうとする努力は感じるが崩壊しがち。

まとめ

私感として、各機能の実用性を表にまとめると以下のようになる。

機能 実用性 備考
Cleanup 実用的 加工後の画像の解像度に制限がある (無料版)。
Text Remover 微妙 日本語に弱い可能性あり。きれいに文字を除去できないことが結構ある。
Remove Backgrounds 一部実用的 対象物の指定や、背景を消しきれないことがある。Cleanupと一緒に使うと良いかもしれない。
Replace Background 微妙 物体や位置の考慮をせず背景を合成してくることが多い。有料のみ。
Relight 一部実用的 写真にこだわりのある人向け。深度推定などの結果を得るには課金が必要。
Upscale Image 一部実用的 イラスト等には実用性があるが、文字等には弱い。
Generate Image (Stable Diffusion) 一部実用的 実写の画像に強く、アニメ調の絵を書くのは苦手。ちょっとした小物の画像を生成するのには使えるかも。
Reimagine XL 微妙 実写でも手足が崩壊することが多い。二次元画像は苦手。実用性はあまりない。
Uncrop 微妙 よく見るとUncropした領域がわかってしまう。二次元画像で破綻。実用性はあまりない。

どの機能もオープンソースで公開されているモデルを利用してwebサービスにしたという感じがした。さっと利用する分には自分でコードを書かずに済むが、精度はいまいちなことが多いように感じた。特定のドメインで精度を求めようとするとfine-tuneをしたくなる感じだ。

本ブログでの検証は2023-06-11に行われており、今後、精度が向上する可能性も高い。