58億5000万のデータを集めた巨大トレーニングデータセットLAION-5BからCSAM(児童性的虐待素材)が見つかり公開停止となり、違法性のあるデータを機械的に削除したre-LAION-5Bが8月30日公開されました。データの総数は55億に減っています。
9月1日CSAMを除去したreーLAION-5Bがリリースされました。昨年検索して問題のある画像が見つかったpornやloli pornで検索しても何も出てきません。CSAMを描いた漫画もイラストも削除されています。CSAM除去に関しては徹底していると思います。
データ数は58億5000万から55億に減っています。
SNSで、日本では近年小児性愛が増えた、という見方をする人がいるのを知りました。確かに子供を騙すネットの悪用が目につきます。AIを使ったリアルな児童ポルノ(日本では児童ポルノではない)も増えています。
しかし昔はなかったかといえば、違うといわざるをえません。
2年近く生成AIを問題にしているため「反AI」扱いされますが、問題にしているのは生成AIであり、全てのAIではありません。
特に画像生成AIは私自身の絵がデータセットに入っていたため、当事者としてデータを提供する側からの考えを書いています。
誤解のないようにお願いいたします。
私自身も昨年夏までは生成AIがどういうものか知るため試作していました。そのため一部の人に拒否されブロックされています。理由はともかく使っただけで拒否される気持ちは理解できます。私はデータセットの問題の深さに気づいて使用をやめましたが、今も風景画や抽象画を製作している人はおり、ポルノ製作などに悪用していなくても拒否されることがあります。
その主な理由はデータセットにあると考えます。
生成AIは国が推奨しているので問題ない、各企業が絵師に対価を支払って学習させている、と思っていた、という投稿をSNSで見ました。
実は私もそうでした。去年の初めは問題があることを知らず「AIの考えた○○」に笑っていいねを押していましたし、スマホのイラスト生成アプリはイラストレーターに対価を支払っていると思っていました。まさか無償で使うとは思ってもいませんでした。
2022年5月、ドイツの非営利団体LAION(Large-scale Artificial Intelligence Open Network)が58億5000万の画像とテキストのペアを収めたAI用トレーニングデータセットLAION-5Bをリリースしました。これらの画像とテキストはネット上のデータを提供するコモン・クロールのファイルを解析し、類似性の高い画像とテキストのペアを抽出するという手法で収集されており、製作者も中身を正確に把握することはできません(人間の目で確認できる量ではありません)。人間がキュレーションしていないため、ネット上の有害なコンテンツが含まれていることは自明でした。
ある雑誌で長年貢献した、当時まだ固定ファンのいた作家が編集部に呼び出され、段ボールに入れたその人の原稿を渡されて「これ持ってどこでも行って下さい」と言われました。原稿を返すというのは、会社によってやり方の違いはありますが、もう掲載しないという意味になります。
大きな運命には抗えない、と書きましたが、全くその通りで、最初にラブコメを描いて3位を取った少女漫画誌もなくなりました。好きで潰れそうな雑誌に投稿したわけではありません。80年代後半はバブルの上り坂、漫画も売れ、投稿した雑誌には漫画愛好家なら知っている名作が連載され私がデビューした時も続いていて、潰れるとは思えませんでした。
会社員兼業をやめ漫画専業になって1年後に会社が潰れました。運命とはそういうものだと思います。自分の考え、努力である程度の違いは作れても、大きな変化には抗えません。例えば雑誌が休刊になる、編集長が交代して作家を入れ替える場合もそうで、前の編集長に抜擢された人は、まとめて切られます。人気連載や看板作家は別としても安泰はありません。
会社員と漫画家の兼業生活は思ったよりきついものでした。募集時の説明通り、ほぼ9時5時の勤務でしたが、掃除は毎日新米の私の担当で遅くとも15分早く出社しないといけません。そして帰りも掃除とゴミ集めをし、ゴミを出してから帰宅します。また、やはり時には残業もあります。問題はそれ以上に通勤時間が長かったことです。