Wikipediaはデータを開き、AIをトレーニングします

自動削減を制限するために、ウィキペディアは人工知能のための最適化されたデータセットを提供します。

TL;博士

  • WikipediaはKaggleと協力して構造化されたデータセットを提供し、AIの有用な情報への開発者のアクセスを促進します。
  • このパートナーシップは、自動スクレイピングに代わるものを提供することにより、ウィキペディアサーバーへの圧力を軽減することを目的としています。
  • データセットは、テキスト以外の要素なしで、記事、説明、画像リンクの要約など、オープンデータで利用できます。

その内容を大幅に抽出するボットの乗算に直面して、ウィキペディアサーバーへの圧力を軽減しようとしています。これらのボットは、人工インテリジェンスを開発している企業が使用しており、広い帯域幅を消費します。これを改善するために、ウィキメディア財団は現在、公式の代替品を提供しています。したがって、組織は、開発者をより構造化された侵襲性の低いアクセスに導くことを望んでいます。彼女はまた、データの使用における良い慣行を奨励したいと考えています。この変更は、プラットフォームの完全性を保護することを目的としています。それはまた、あなたの知識の分布の愛人を残す方法でもあります。

人工知能の中心にあるデータアライアンス

これをホストするためにデータベース、ウィキメディア財団は、Googleに属するプラットフォームであるKaggleとチームを組みました。 Kaggleは、機械学習に関連する競争とリソースについて、データサイエンティストによく知られています。このコラボレーションのおかげで、ウィキペディアのデータは幅広いコミュニティにとってよりアクセスしやすくなります。データセットは英語とフランス語で利用できます。彼は、人工知能の用途に設計された形式でKaggleでホストされています。このアプローチにより、高品質のデータへのアクセスを民主化することができます。ウィキメディア財団は、小さな独立した俳優と研究者を支援する予定です。

構造化された準備が整ったデータベース

提供されるコンテンツは、アルゴリズムによる搾取を促進するために濃縮され、編成されています。記事の要約、短い説明、画像へのリンク、情報ボックス、記事のセクションが含まれています。オーディオや参照などの非テキスト要素は、ファイルを明るくするために除外されます。このデータは、うまく構造化されたJSON形式で利用できます。この形式により、トレーニングまたは分析パイプラインに迅速に統合できます。ウィキペディアの共同精神を尊重して、すべてがオープンライセンスの下にあります。目的は、プラットフォームを保護しながら開発者の作業を促進することです。

コミュニティに歓迎されたイニシアチブ

Kaggle側では、このイニシアチブは大きな進歩として認識されています。 Kaggleのパートナーシップ責任者であるBrenda Flynnは、このデータセットを歓迎することは「熱心」だと言いました。彼女によると、これはAIの中央プラットフォームとしてのKaggleの役割を強化します。また、オンラインリソースへの責任あるアクセスの重要性も強調しています。 AIコミュニティにとって、これは豊富で信頼できるデータを使用する機会を表しています。これにより、開発されたモデルの品質も向上する可能性があります。最後に、このアプローチは、将来同じタイプの他のパートナーシップへの道を開きます。

あなたは私たちのコンテンツが好きですか?

最新の出版物を毎日無料で直接メールボックスで受け取ります