DeepSeek、ChatGPTだと思い込む中国のAI

DeepSeek の最新モデルは、その名前を覚えていることを除けば、あらゆるレベルで成功しています。

先生

  • DeepSeek は自身を ChatGPT として識別します。
  • GPT-4 によって生成されたデータをトレーニングすれば、この異常を説明できる可能性があります。
  • これは、将来の倫理的および技術的な問題を引き起こします。人工知能

強力だがわかりにくいモデル

新しくリリースされた DeepSeek V3 は、プログラミングや書き込みなどのタスクの効率のおかげで、人気のベンチマークでいくつかの競合他社を上回っています。しかし、この AI モデルには珍しい癖があります。チャットGPT、有名なチャットボットOpenAI。質問すると、DeepSeek V3 は次のバージョンであるとさえ主張します。GPT-42023年にリリース。この混乱は簡単ではなく、モデルのトレーニングに使用されるトレーニングとデータ ソースについて疑問が生じます。

物議を醸すデータに関するトレーニング

DeepSeek はモデルのトレーニング データの正確な起源を明らかにしていませんが、ChatGPT 経由で GPT-4 によって生成されたテキストがデータの一部である可能性を示唆する兆候があります。このデータを統合することにより、DeepSeek V3 は特定の GPT-4 出力を記憶し、それらをほぼ同一に再現するようです。このような行為は、意図的か否かにかかわらず、品質に重大な問題を引き起こします。キングス カレッジの AI 研究者であるマイク クック氏が説明するように、これは「コピーをコピーする」ようなもので、回答の信頼性と独自性が低下します。

技術的な意味とは別に、ChatGPT によって生成されたデータで DeepSeek V3 をトレーニングすると、OpenAI の利用規約に違反する可能性があります。これらは、その出力に基づいた競合モデルの開発を明示的に禁止しています。この状況は、他の AI 作品の便宜的な使用という、業界で増大している問題を浮き彫りにしています。この方法はコストを削減し、開発をスピードアップしますが、革新そして強調されているセクターの健全性サム・アルトマン、OpenAIのCEOは、これらの慣行を暗に批判しています。

DeepSeek V3 の事例は、AI によって生成されたコンテンツが Web 上に遍在しているという憂慮すべき傾向を示しています。自動化されたサイトではボットが急増ソーシャルネットワーク、2026 年までにオンライン コンテンツの 90% が AI によって生成される可能性があるとの推定により、トレーニング データセットの汚染はますます進んでいます。この汚染により、信頼できるモデルの作成が複雑になり、以前の AI のバイアスやエラーが増幅されます。 DeepSeek が実際に GPT-4 の出力を吸収した場合、このモデルは既存のバイアスを悪化させるだけでなく、そのモデル自体のアイデンティティに疑問を投げかける危険があります。