· 

データセットから自分の絵や写真を消す方法

 

58億5000万のデータを集めた巨大トレーニングデータセットLAION-5BからCSAM(児童性的虐待素材)が見つかり公開停止となり、違法性のあるデータを機械的に削除したre-LAION-5Bが8月30日公開されました。データの総数は55億に減っています。

2022年9月までのCommon Crawlデータに基づいて組み立てられており、それ以降の未確認のリンクがデータセットに紛れ込むことはないとのことです。

公式。

簡単な日本語記事。

 

さて、私自身は自分の絵も写真も徹底して探し、オプトアウト、削除したため、re-LAION-5Bには入っていません。

 

学習対象からの除外(オプトアウト)を希望する人は、専用サイトから申し込んでください。

このサイトはLAION-5Bの中をキャプションで検索でき、結果を画像で表示してくれます。2022年9月に公開され米国の集団訴訟にも活用されました。

作家なら名前、タイトル、レーベル、テーマ、ジャンルなど思いつく限りの言葉で検索してください。一般の方の写真は見つけにくいですが、ハロウィン、コミケ、家族、子ども食堂などの検索ワードで見つけることが可能です。

 

以下簡単に図解します。

まずサイトにアクセスして、サインインします。

メールアドレスとパスワードを決めて登録します。

例えば「文鳥」で検索し、表示された画像にチェックを入れて、右上のDoNotTrainをクリックします。

これでオプトアウトできます。

 

オプトアウトすれば、今後データセットが使われる時に除外されます。過去にトレーニングされたモデルからは削除できません。

 

今あるモデルは公開停止前のLAION-5Bでトレーニングされているため、CSAMを含めて問題のある素材が使われています。それは諦めるしかありません。

 

今後使われたくない人はオプトアウトしてください。

Stable Diffusion他のStability AIの製品、AnlatanのNoveAI、DeviantArtのDreamUpもLAION-5Bを使用しています。

Midjourneyは情報を公開していませんが、LAION-5Bを使っているという資料が訴訟に提出されています。