AIは創作物を無断で学習しても許されるのか──。この問いは、生成AIの進化と共に業界全体に重くのしかかる根源的な課題となっている。著作権侵害を主張する訴訟が相次ぎ、AI開発企業は防衛的にそのデータ利用の詳細を固く閉ざすようになった。この「透明性の冬」とも言える状況が、健全な研究の進展を妨げていると懸念する声は少なくない。
そんな中、AI業界の分水嶺となる可能性を秘めた画期的なプロジェクトが姿を現した。
非営利の研究団体EleutherAIと、トロント大学、Hugging Face、Allen Institute for AI (AI2)など多数の組織からなる共同研究チームは、「Common Pile v0.1」と名付けられた、8テラバイト(TB)にも及ぶ巨大なテキストデータセットを公開した。その最大の特徴は、パブリックドメインおよびオープンライセンスのコンテンツのみで構築されている点にある。
さらに衝撃的なのは、この「クリーン」なデータセットで学習された新しい言語モデル「Comma v0.1」が、MetaのLlama 2など、ライセンスが不透明なデータで学習された既存の高性能モデルに匹敵する能力を示したことだ。これは、「高性能なAIを作るには、著作物を無許可で利用せざるを得ない」という業界の”常識”を覆す、金字塔的な成果と言えるだろう。
AI業界を蝕む「著作権問題」という根深い病巣
近年の生成AIの爆発的な発展は、インターネット上から収集された膨大なテキストデータを”栄養”としてきた。しかし、その多くは著作権で保護された書籍、ニュース記事、研究論文などを含んでおり、コンテンツ制作者への許諾や対価の支払いなしに利用されることが常態化していた。
当然の結果として、The New York Timesや多数の作家たちがOpenAIなどを相手取り、大規模な著作権侵害訴訟を起こす事態に発展。これに対し、AI開発企業は「フェアユース(公正な利用)」を盾に正当性を主張する一方で、学習データの詳細な内訳を公開しない「ブラックボックス化」を加速させてきた。
EleutherAIのエグゼクティブ・ディレクターであるStella Biderman氏は、この現状に強い懸念を示す。「著作権訴訟は、モデル学習におけるデータ調達の慣行を意味ある形で変えるには至っていません。しかし、企業が関与する透明性を劇的に低下させたのです」と彼女は指摘する。研究者たちは、訴訟リスクを恐れてデータ中心の研究成果の公開をためらうようになり、業界全体の進歩が停滞しかねない状況に陥っているのだ。
まさにこの膠着状態を打破するために、「Common Pile」は生まれたのである。
救世主となるか? 8TBの巨大オープンデータセット「Common Pile」の全貌
「Common Pile」は、単なるデータの寄せ集めではない。その構築には、法的な正当性と技術的な有用性を両立させるための、緻密な設計と血の滲むような努力が隠されている。
「オープンライセンス」の厳格な基準とは?
プロジェクトチームがまず直面したのは、「何をもってオープンとするか」という定義の問題だ。彼らが採用したのは、Open Knowledge Foundationが定める「オープンの定義2.1版 (Open Definition 2.1)」という厳格な基準である。
これは、誰でも、どんな目的であっても、コンテンツを「自由に使用、研究、変更、再配布できる」ことを保証するライセンスを指す。具体的には、
- CC BY (表示)
- CC BY-SA (表示-継承)
- CC0 (パブリックドメイン提供)
- MITライセンスやBSDライセンスなどの寛容なソフトウェアライセンス
などが含まれる。一方で、商用利用を禁じる「CC NC (非商用)」や、改変を禁じる「CC ND (改変禁止)」といった制限のあるライセンスは、この基準を満たさないため、意図的に排除された。この徹底した線引きが、Common Pileの法的清廉性を担保している。
驚くべき多様性:30のソースから集められた知のるつぼ
Common Pileの真価は、その圧倒的な規模と多様性にある。総量8TBのデータは、30もの異なるソースから丹念に収集された。

論文に掲載された上図は、その構成の一部を示している。最も大きな割合を占めるのは、オープンソースソフトウェアのソースコード(4.7TB超)であり、次いで政府・法律関連文書(1.1TB超)、学術論文、オンラインフォーラム、パブリックドメインの書籍などが続く。
具体的なソースをいくつか挙げると、その幅広さに驚かされるだろう。
- 学術分野: ArXivの論文、PubMed Centralの医学文献
- 法律・政府分野: 米国特許、米国政府刊行物、英国議会議事録、Caselaw Access Projectが収集した判例
- 書籍: Project GutenbergやLibrary of Congressがデジタル化したパブリックドメインの書籍
- オンラインコミュニティ: Stack ExchangeのQ&A、GitHubのIssueやコメント、UbuntuのIRC(チャット)ログ
- その他: 2,000以上のYouTubeチャンネルからCC BYライセンスの動画を文字起こししたデータ、Wikipediaをはじめとする各種Wiki
これは、従来のAIが依存してきた、品質の玉石混交なウェブスクレイピングデータとは一線を画す、高品質で構造化された「知の集積」なのだ。
「ライセンスロンダリング」との戦い:徹底した品質管理
インターネット上には、本来の著作権者が意図しないライセンスが誤って付与される「ライセンスロンダリング」が蔓延している。この問題を回避するため、研究チームは細心の注意を払った。
信頼性の低いソース(例えば、ライセンス情報が不正確な場合があるOpenAlexなど)は最初から除外し、収集したデータに対しても多段階のクリーニング処理を施している。
- フィルタリング: 非英語コンテンツや低品質なテキストを除去。
- PII(個人識別情報)の匿名化: メールアドレスや電話番号などを検出し、<EMAIL_ADDRESS>のような汎用的なタグに置換。
- 毒性コンテンツの除去: 有害な表現を含むドキュメントを分類器でフィルタリング。
- 重複排除: 過剰なデータの重複がモデルの性能低下や「記憶」を引き起こすことが知られているため、文書レベルでの重複を徹底的に削除。
このような徹底したキュレーション(情報の収集・整理)こそが、Common Pileの品質を支える土台となっている。
「オープンなデータでは高性能AIは作れない」は嘘だった。新モデル「Comma」の衝撃
どれほどデータセットが「クリーン」であっても、それで学習したAIの性能が低ければ意味がない。プロジェクトチームは、Common Pileの真価を証明するため、70億パラメータを持つ2つの言語モデル「Comma v0.1-1T」(1兆トークンで学習)と「Comma v0.1-2T」(2兆トークンで学習)を開発し、その性能を評価した。
結果は驚くべきものだった。
Llama 2に匹敵、一部では凌駕する性能を実証
下のグラフは、Commaモデルと、同程度の計算予算で学習された他のモデル(多くはライセンスが不透明なデータを使用)との性能比較を示している。

知識や推論能力を測るベンチマーク(ARC-C, MMLUなど)や、コーディング能力を測るベンチマーク(HumEval, MBPP)において、CommaモデルはLlama 1やLlama 2、MPT-7Bといった名だたるモデル群と互角以上に渡り合っていることがわかる。特に、データセットに豊富な学術論文やソースコードを反映し、専門知識やプログラミングに関するタスクで顕著な強みを見せた。
一方で、HellaSwagのような日常的な常識を問うタスクでは、Webの口語的な表現を多く学習したモデルに一歩譲る結果となった。これは弱点というよりは、現在のCommon Pileのデータ構成を素直に反映した結果と捉えるべきだろう。今後、ブログのようなインフォーマルなテキストソースを拡充することで、この差は埋まっていく可能性がある。
重要なのは、「ライセンスを遵守すると性能が犠牲になる」というトレードオフが、必ずしも真実ではないことを実証した点だ。
なぜ高性能なのか? 精緻な「データミキシング」の妙
Commaモデルの高性能の秘密は、単にデータを集めただけでなく、その「混ぜ方(ミキシング)」にある。
研究チームは、Common Pileに含まれる各データソースの「品質」を事前に評価した。そして、高品質と判断されたデータソース(例えば、構造化された学術論文など)は学習における比率を高め、複数回(最大6回)繰り返して学習させた。逆に、品質が比較的低い、あるいは特殊なデータ(例えば、特許文書など)は比率を下げた。
この精緻な「データミキシング」により、モデルは限られた計算資源の中で効率的に質の高い知識を学習することができた。これは、今後のAI開発におけるデータ戦略の重要性を示唆する、非常に興味深い知見である。
The Pileの「過ち」を乗り越えて。EleutherAIが描く未来
実は、EleutherAIが大規模なデータセットを公開するのはこれが初めてではない。2020年に公開された「The Pile」は、当時のオープンなLLM研究を大きく前進させたが、その中には著作権で保護されたコンテンツが含まれており、後に批判や訴訟の火種の一つとなった。
その意味で、今回の「Common Pile」は、過去の経験からの反省に基づき、法的・倫理的な正当性を最優先に据えた、いわば「The Pileの正統進化形」と位置づけることができる。
EleutherAIは、v0.1は始まりに過ぎない、と明言する。今後は、文化遺産セクター(図書館、博物館、公文書館)と連携し、OCR技術を駆使して古文書を高品質なテキストデータとして蘇らせるなど、さらなるオープンデータの拡充を目指すという。
Common Pileが切り拓く、より倫理的で透明なAI開発の新時代
「Common Pile」プロジェクトがもたらした成果は、単に一つの巨大なデータセットが公開されたというニュースに留まらない。それは、AI業界が抱える著作権という根深い問題に対する、具体的かつ強力な一つの「解」を提示したと言える。
- 開発者にとって: 著作権侵害のリスクを恐れることなく、高性能なAIを開発できる道が拓かれた。
- 研究者にとって: 透明なデータセットとモデルの公開により、AIの振る舞いを分析する再現可能な研究が加速する。
- 社会にとって: AIが何を学習したのかが明確になることで、より倫理的で説明可能なAIの実現に一歩近づく。
もちろん、このデータセットだけで全てのAIが作られるわけではない。しかし、「Common Pile」は、性能と倫理が二律背反ではないことを証明する、力強い第一歩である。この一歩が、AI開発の潮流を、不透明なブラックボックスから、よりオープンで、より公正な未来へと導くことを、強く願いたいところだ。
論文
参考文献
- EleutherAI: The Common Pile v0.1
- Hugging Face: