AI検出企業Copyleaksは、DeepSeek-R1とOpenAIのChatGPTによって生成されたテキストについて、74.2%のケースで「スタイルの一致」が見られたと発表した。
出来事:Copyleaksによる調査によると、中国のAIスタートアップ、DeepSeek-R1が生成したテキストのスタイルが74%以上のケースでOpenAIのスタイルに類似していることが明らかになった。このことから、DeepSeekはトレーニングの際、報告書によれば許可なくOpenAIのモデルに依存していた可能性が示唆されている。
調査では、スタイルの指紋を正確に分析するために3つのAI分類器が利用され、モデル固有の属性を特定することが可能になった。これは、知的財産の保護と倫理的なAIの開発を促進するうえで重要な役割を果たす。
DeepSeekとOpenAIは、Benzingaのコメント依頼に直ちにはコメントを行っていない。
面白いことに、ほとんどの他のモデルによって書かれたテキストはそれぞれ独自のものであると簡単に特定することができたが、DeepSeekについてはそれができなかった。たとえば、マイクロソフト(NASDAQ:MSFT)のPhi-4およびGrok-1モデルは既存のモデルとの類似性を示さず、独自にトレーニングされていることが確認された。
DeepSeekの出力の大部分は、OpenAIのモデルによって生成されたことが判明した。この件についてCopyleaksのデータサイエンス部長、Shai Nisan氏は「この類似性はDeepSeekが派生物であるとしても確定的に証明したわけではないが、その開発について疑問を投げかけるものである」と語った。
関連記事: エリック・トランプ氏、BTC、XRP、ADAの戦略的発表は「小売投資家にとっての勝利」と語る
なぜ重要なのか:この発表は、AI業界が厳しい目で見られているタイミングで行われた。最近ではシンガポール当局が、Nvidia(NASDAQ:NVDA)のAIチップの輸送に関連した潜在的な詐欺行為を調査開始した。
さらに、ベゾスの中国やロシアのような独裁政権がAIを利用して支配と軍事能力を拡大する可能性があるという警告を出したのは、ジェフ·ベゾス支援のAnthropicのCEOであるDario Amodei氏だ。
2つのAIモデルのともに重なるデータセットを使用してトレーニングされている可能性は排除できないが、より深いニュアンスもあり得る。 Nisan氏は「大規模な言語モデルが重なるデータセットに基づいているとしても、AIの指紋抽出は重要なものである。アーキテクチャや微調整方法、生成技術などの要素の多様性が、各言語モデルが独自の執筆スタイルを開発することを保証しているからだ」と説明している。
DeepSeek-R1とOpenAIの類似性の問題は、AI開発における明確な規制と透明性の必要性を強調するものであり、潜在的な誤用を防ぎ、知的財産を保護するためにも重要な点である。この問題は、DeepSeek R1の認識された革新のレベルもまた疑問視されている。
Nisan氏は、この問題が適切に規制されなければ、AI業界にとって大きな意味を持つ可能性があると警告した。
Image Via Midjourney, Shutterstock