集団的なエラー検出と創造的な問題解決によるデータ品質の向上

テクノロジー業界で 20 年以上の経験を持つアナリストとして、私は不正確、重複、不完全なデータによって業界が直面する課題を直接目撃してきました。 AI の出現によりこれらの問題は軽減されるはずでしたが、周知のとおり、完璧なテクノロジーは存在しません。

不正確なデータが繰り返され、不十分なデータが存在するという永続的な問題は、さまざまな業界にわたって続いています。人工知能 (AI) はソリューションとして採用されていますが、これにも独自の制限があります。場合によっては、AI によって使用されるデータが誤って分類されているか、単に適用できない可能性があります。

Fraction AI は、人工知能の迅速さと人間の直感を融合させ、データのラベル付けにおいて先駆者となっています。同社は、SymbolicとSpartanが共同主導し、さらにIllia Polosukhin（Near）、Sandeep Nailwal（Polygon）、その他一流エンジェル投資家からの戦略的投資による600万ドルのプレシード資金調達ラウンドを終えたところである。

アナリストとして、私たちの革新的なソリューションである Fraction AI についてお話しできることを楽しみにしています。人工知能や人間の介入のみに依存する従来の方法とは異なり、私たちは人間の直感を活用して AI エージェントをガイドすることで新しい道を開拓しています。このラウンドで調達した資金は、このアプローチの背後にある研究をさらに深く掘り下げ、その拡張性に対応するためにインフラストラクチャをアップグレードするのに役立ちます。このハイブリッド手法は、厳密な研究によって効果的であることが証明されており、高品質のデータをより効率的に生成するというエスカレートする課題に取り組むことが期待されます。

ゲーミフィケーションによる敵対的プロンプトの導入

データサイエンティストは、GAP (ゲーム化された敵対的プロンプティング) を使用すると、より効果的なデータセットが作成され、最新の AI モデルのパフォーマンスが大幅に向上することを示しています。 GAP システムはゲームを通じて高品質のデータを収集することで機能し、プレイヤーにとってデータ収集が楽しい体験になります。このプロセスにより、参加者は複雑で詳細な質問と回答を行うことができ、AI モデルの知識ベースの拡大に役立ちます。

より簡単に言うと、Fraction AI は、リアルタイムコンテストを開催することで、AI エージェントが一流のデータを生成するように促します。開発者は、最高の結果を目指して、特定のガイドラインに従ってこれらのエージェントを設計およびアクティブ化します。基礎となるシステムはイーサによってサポートされ、経済的バックボーンとして機能します。競合他社は経済的に報酬を得ることができ、有益なトレーニングデータの安定した流れにつながります。

データ品質に関する現在の問題

名前のスペルミス、住所の間違い、一般的な入力エラーなどの間違いによって特徴付けられる非効率なデータは、組織に多大な損害をもたらす可能性があり、年間数千万ドルに達することもよくあります。人的ミスによるものであっても、技術的な不具合によるものであっても、不正確なデータは問題を引き起こします。それは、意味のある分析に支障をきたす不整合が生じるからです。

複数の発信元からのデータを結合すると、同一のデータセットが生成されることがよくあります。たとえば、小売シナリオを考慮すると、2 つの異なるプラットフォームから顧客リストを収集し、両方の店舗で購入した個人を発見できます。各クライアントを 1 回だけ集計することを目的としているため、これらの繰り返しエントリによって問題が発生する可能性があります。

2 つの異なるソースからのデータを結合すると、形式の不一致が生じる可能性があります。こうしたソース間の不正行為は、迅速に検出して対処しないと、重大なデータ品質の問題を引き起こす可能性があります。

しばしば遭遇する 2 つの課題は、不完全なデータと、いわゆる「ダーク」または隠されたデータです。不完全なデータとは、市外局番のない電話番号や年齢の詳細が欠如している人口統計情報など、重要な詳細が欠如している記録を指します。一方、ダークデータは、収集および保存されているものの、利用されず未使用のまま残されるタイプのデータです。たとえば、IBM は、IoT デバイスから収集されたすべてのセンサーデータの約 90% が活用されないことを示唆しています。この見過ごされているリソースは、平均的な組織の総データストレージコストの半分以上を占めており、多くの組織はその存在に気づいていません。

人間の理解が改善を促進する

GAP は教育リソースとして機能し、個人が人工知能の能力の限界を押し上げるよう促します。参加者にデータセットまたは AI 結果内の間違いや不一致を正確に指摘するよう依頼することで、エラーの検出が促進されます。ユーザーの幅広い経験を考慮すると、単一の開発チームが視点が限られているために見逃してしまう可能性のあるバイアスを特定することが容易になります。

ゲームメカニクスを組み込むことで、データやモデルの機能の限界を押し上げる問題や謎に取り組むことで、個人が創造的に考えるよう動機付けられます。そうすることで、プレイヤーは新しいユースケースを発見し、偏った結果を特定し、より多様な解決策を提案することで、データとモデルの体系的な偏りを最小限に抑えることができます。これにより、さまざまな種類のアプリケーションのより公平なベースが得られます。さらに、参加者は間違いを検出すると報酬が得られるため、これまで見落とされていたデータの不一致について警告を受けることができます。重大な欠陥を発見することで得られる潜在的な報酬は多額になる可能性があり、それにより、実際の実装で予期せぬ問題や弱点が発生する可能性が減少します。

テクノロジーの進歩により、より多くの人が同時にマルチプレイヤーゲームセッションに参加できるようになりました。データ量の増加により脆弱性の迅速な発見が容易になるため、この大規模な参加により急速な進歩が促進されます。

創造性の暗い側面

創造的な問題解決は、必ずしも公共の利益のためである必要はありません。一部のユーザーにとっては報酬が主な動機となり、過度に注目してしまう可能性があります。これをさらに一歩進めて、悪意のある攻撃者がシステムを操作しようとすることは不合理ではなく、プラットフォームは有害なアクティビティを検出してブロックするメカニズムを導入する必要があります。一例としては、AI と統計モデルを使用してユーザーの行動パターンを監視し、スパム送信や異常な送信パターンを示す異常にフラグを立てることが挙げられます。単一ユーザーからの異常に高い送信率または反復的なパターンは、審査のためにフラグが立てられる可能性があります。

より簡単に言うと、GAP システムはユーザーの過去の貢献度に応じてユーザーを評価する可能性があります。最初に悪用の可能性を最小限に抑えるには、信頼性の評判が確立されるまでは、新規登録ユーザーをあまり重要視しないことが最善です。

最終的には、一部のユーザーがコンテンツにランダムにフラグを付ける可能性があります。これがデータの整合性に影響を与えるのを防ぐために、GAP (Generalized Adversarial Process) を利用するプラットフォームでは、人間のアナリストまたは人工知能を統合して、有用で正確な情報がフラグ付けされているインスタンスを除外する必要がある場合があります。

データ品質を主流にする

参加することで、人間は AI データベース内の間違ったラベルや不要なデータを特定するよう動機づけられ、機械学習および人工知能システムの精度と有効性が向上します。さらに、ゲーミフィケーションによる貢献により、Wikipedia や OpenStreetMap などのオープンソースデータセットの精度と包括性を高めることができます。このように誤った情報をリアルタイムで報告することで、リポジトリ全体の信頼性が向上します。

GAP (Generalized Approach for Parity) システムを導入すると、有害、偏見のある、または不適切なコンテンツをより効果的に処理できる可能性があります。たとえば、Reddit や YouTube などのプラットフォームは、そのような疑わしいコンテンツをサイトから迅速に検出して削除するために、この方法を組み込むことを選択する可能性があります。

2024-12-19 16:04