AI ニュース: OpenAI が AI の事実性に取り組むための新しいベンチマークを開始

テクノロジー業界で 20 年以上の経験を持つベテランのアナリストとして、私は OpenAI の SimpleQA に関する最新の動きは非常に興味深いものであると認めざるを得ません。事実に重点を置き、幻覚を減らすことは、誤った情報や誤解を招く情報の問題に悩まされてきた AI 言語モデルの信頼を回復するために切望されている一歩です。

著名な AI 企業 OpenAI は最近、簡潔な事実ベースのクエリに答える際に言語モデルによって提供される応答の精度を評価するための指標である SimpleQA を発表しました。基本的に、このツールは、これらのモデルが事実を求める質問にどれだけうまく答えることができるかを評価するように設計されており、OpenAI が提供する主要製品に対する信頼を再構築するためのもう 1 つの取り組みを表しています。

SimpleQA はフロンティア モデルを上回るパフォーマンスを発揮

AI システムは、モデルのトレーニング プロセス中に、その応答が正確な事実に基づいていることを確認するのに苦労することがよくあります。

現段階では、これらのモデルは誤った結果を生成したり、確たる証拠がないまま応答したりする場合があります。この問題は一般に「幻覚」として知られています。その結果、インターネット ユーザーは、より正確な答えを提供し、幻覚の発生が少ないモデルを好む傾向があります。

OpenAI は、事実の正確さに基づいて言語モデルを評価する SimpleQA テストを作成することを選択しました。同社が指摘しているように、事実を判断するのは難しい場合があるため、この目標は困難であると考えられています。 SimpleQA の設計は、簡潔な事実調査の質問に重点を置いているため、テストの範囲が狭まり、事実性の測定が容易になります。

ベンチマークの作成に取り組んでいるグループは、研究者にとって高レベルの精度、多様性、そしてユーザーフレンドリーなエクスペリエンスを実現することに重点を置きました。飽和状態に達した TriviaQA などの以前のソリューションとは異なり、OpenAI の SimpleQA は、現在スコアが 40% 未満である GPT-4o のような最先端のモデルをテストするように特別に設計されています。この AI ツールの開発中、チームはデータセット内の各質問が特定の基準に準拠していることを確認しました。

高品質の回答を保証するために、別のチームによってトレーニングされた別の AI に、データセットからの 1,000 個の質問をランダムにチェックさせました。この 3 番目の AI の回答は、約 94.4% のケースで元の回答と一致しましたが、約 5.6% のケースで不一致があったことが観察されました。

OpenAIの評価額が1,570億ドルに急上昇

10月初旬、さまざまな後援者からの66億ドルの投資を受けて、このAI企業の価値は1,570億ドルを超えて急騰した。これらの投資家の中には、資金調達ラウンドの先頭に立った Thrive Capital、Microsoft Corporation、AI の有力企業である NVIDIA が含まれていました。サム・アルトマン氏のリーダーシップの下でこの会社が急速に成長したのは、主に最先端の AI 研究における存在感を強化したいという同社の野心によるものです。

資金調達が成功してから 1 週間後、同社は米国、フランス、アジアでの新しい支店の開設を明らかにすることで拡大計画を発表し、世界規模でさらに大きな節目を迎えました。

当社のオフィスは、サンフランシスコ、ロンドン、ダブリン、東京に加え、ニューヨーク市、シアトル、パリ、ブリュッセル、シンガポールに開設される予定です。 SimpleQA導入の動きは、OpenAIの評価額上昇を契機とした積極的な製品拡充戦略の一環。

 

2024-10-30 23:38