Anthropic、危険な機能の初期兆候を示す新しい AI モデルをリリース

AI とテクノロジーで 20 年以上の経験を持つベテランのアナリストとして、私は Anthropic による Sonnet の開発が魅力的であり、また懸念すべきものであると感じています。 AI がプログラミングの知識がなくてもコンピューター ソフトウェアと直接対話できる機能は画期的ですが、潜在的なリスクと悪用のパンドラの箱を開くことになります。

Sonnet リリースの注目すべき点の 1 つは、コンピュータと通信する能力で、スクリーンショットのキャプチャと読み取り、マウス カーソルの移動、Web ページ要素のクリック、およびテキストの入力が可能になります。この機能は現在「パブリックベータ」段階で導入されているが、Anthropicは発表文にあるように「実験的で、時には扱いにくく、エラーが発生しやすい」ものであることを認めている。

Anthropic は最近のブログ投稿で、新機能の理由を次のように説明しています。「今日のタスクのかなりの部分は、コンピューターを使用して実行されています。AI が人間と同じようにコンピューター ソフトウェアと直接連携できるようにすることで、膨大な種類のアプリケーションのロックを解除できます。現在の AI アシスタントではまだ対応できません。」この文脈において Sonnet がユニークなのは、通常プログラミング スキルが必要となる従来の自己制御コンピュータとは動作が異なることです。 Sonnet を使用すると、ユーザーはアプリや Web サイトを開いて AI に指示を与えることができ、AI は画面を調べてインタラクティブな要素を独自に識別します。

危険な機能の初期の兆候

Anthropic は、自分たちが開発したテクノロジーには一定のリスクが伴うことを認めています。トレーニング段階では、安全上の理由からモデルはインターネットにアクセスできませんでした。しかし現在、ベータ版ではインターネットへのアクセスが許可されています。最近、Anthropic は、開発およびリリースの各段階での潜在的な危険性を概説する「責任あるスケーリング ポリシー」を改訂しました。このポリシーに従って、ソネットには「AI 安全性レベル 2」が割り当てられています。これは、潜在的に有害な能力の初期の兆候を示していることを意味します。それにもかかわらず、Anthropic は、現時点で一般に公開するのに十分な安全性があると考えています。

Anthropic、危険な機能の初期兆候を示す新しい AI モデルをリリース

より簡単に言うと、重大なリスクを伴う高度な AI 機能を初めて導入するよりも、その機能がまだ控えめなうちに新しいツールの潜在的な悪用に対処する方が良い、と Anthropic は主張しました。こうすることで、状況がさらに危機的になる前に、安全上の懸念に早期に対処できます。

Claude のような AI ツールに伴うリスクは単なる仮説ではありません。実際、OpenAI は、国家支援の攻撃者がサイバー攻撃の計画、脆弱なシステムのテスト、影響力キャンペーンの作成などの悪意のある活動に ChatGPT を悪用した 20 件の事例を明らかにしました。米国大統領選挙が 2 週間以内に迫っているため、Anthropic は悪用の可能性について特に警戒しています。彼らは声明で懸念を表明し、「今後の米国選挙を考慮し、選挙プロセスにおける信頼を損なう可能性のある悪用の試みに厳重に警戒している。

業界のベンチマーク

Anthropic によると、Claude 3.5 Sonnet の改訂版は、さまざまな業界ベンチマークにわたって大幅な機能強化が示されており、特に自律コーディングとツールの利用に関連する分野で優れています。コーディングに関しては、SWE ベンチ検証済みのパフォーマンスが 33.4% から 49.0% に向上し、OpenAI o1-preview のような推論モデルやエージェントティック コーディング用に設計された特殊なシステムを含む、公的にアクセス可能なすべてのモデルを上回っています。さらに、エージェント ツールの使用タスクである TAU ベンチのパフォーマンスが、小売ドメインでは 6.6 パーセント ポイント、より複雑な航空ドメインでは 10 パーセント ポイント向上しました。更新された Claude 3.5 Sonnet は、以前のバージョンと同じコストと速度を維持しながら、これらの改善を提供します。

Anthropic、危険な機能の初期兆候を示す新しい AI モデルをリリース

安心してください。安全対策は整っています

Anthropic は、Sonnet の高度な機能が選挙操作に悪用されることを防ぐ措置を確立しました。これには、クロードがソーシャル メディア コンテンツの作成や政府サイトとのやり取りを求められたときを検出する監視システムのセットアップが含まれます。同社は今後のAIトレーニングでのツール使用時に撮影したスクリーンショットの使用を制限する取り組みも行っている。しかし、Anthropic のエンジニアは、このツールの動作の一部に驚いています。たとえば、あるとき、クロードは予期せず画面録画を停止し、すべての映像を消去しました。面白い展開として、AI 自体がコーディング プレゼンテーション中にイエローストーン国立公園の写真を閲覧したことがあります。その後、Anthropic はその写真を笑いと驚きが入り混じった形で X 上で共有しました。

Anthropic は、この新しい能力を導入する際に、安全を確保することの重要性を強調します。クロードは AI 安全性レベル 2 に分類されており、既存のリスクによりセキュリティを直ちに強化する必要はないことを示していますが、プロンプト インジェクション攻撃などの悪用の可能性については疑問が生じています。これらの懸念に対処するために、同社は選挙関連活動に焦点を当てた監視システムを確立し、不適切なコンテンツの作成やソーシャルメディアの操作などの問題の防止に熱心に取り組んでいます。

クロードの現在のコンピュータの使用状況は遅く、エラーが発生しやすいにもかかわらず、Anthropic はその進歩に期待を抱いています。同社は、速度、信頼性、ユーザーフレンドリーな実装を向上させるためにモデルを微調整する予定です。テスト段階では、開発者はモデルの効率だけでなく安全対策も強化するためにフィードバックを共有することが推奨されます。

 

2024-10-23 18:38