OpenAI 対 Google: Gemini Live がライバル ChatGPT 音声モードに展開

技術の進歩に鋭い目を持つ経験豊富な仮想通貨投資家として、私は OpenAI と Google の間で進行中の戦いに興味をそそられていることを認めざるを得ません。 Google による最近の Gemini Live のリリースは、特に AI アシスタントとのシームレスで自然な対話に対する私の個人的な好みを考慮すると、間違いなくエキサイティングな開発です。

2024 Made by Googleイベントで、GoogleはAIアシスタント「Gemini」向けの「Gemini Live」と呼ばれる音声チャット機能を発表した。この新しい追加は、ChatGPT 用の OpenAI の最新の Advanced Voice Mode と競合することを目的としています。プレミアム ユーザーのみがアクセスできる Gemini Live は、より自然で魅力的な方法で会話を促進するように設計されています。

OpenAI 対 Google: Gemini ライブからライバル ChatGPT 音声モードへ

同社はディスカッション プラットフォーム X で、ChatGPT のアドバンスト モードにおける OpenAI の最新音声機能と競合することを目的とした新製品 Gemini Live を発表しました。

2024 年のイベントでは、Gemini の上級ユーザー向けに新機能が発表されました。この機能は、AI との対話をよりシームレスで構造化しないように設計されており、電話での会話と同じように、ユーザーがいつでも好きなときに一時停止したり、話題を変更したり、ディスカッションを続けたりできるようになります。

Meet Gemini Live: ジェミニとより自然な会話をするための新しい方法です。

アイデアのブレインストーミング
中断して質問する
チャットを一時停止して、チャットに戻る

現在、@Android スマートフォンの Gemini Advanced サブスクライバーに英語で展開中 → …

— Google DeepMind (@GoogleDeepMind) 2024 年 8 月 13 日

最新の Google 音声エンジンの際立った特徴は、数ターンにわたって継続的で感情的に微妙な、本物のような対話を生成できることです。それぞれ自然に聞こえる 10 種類の音声が利用可能で、AI はユーザーの声をリアルタイムで模倣する機能を備えています。このハンズフリー機能により、電話がバックグラウンドにある場合やロックされている場合でも会話が中断されず、ユーザーはチャットを中断することなくマルチタスクを行うことができます。

AI インタラクション強化への移行

その結果、AI アシスタントの Gemini 1.5 Pro および Gemini 1.5 Flash モデルは、他の生成 AI モデルと比較してコンテキスト ウィンドウが大きいため、拡張された複雑なディスカッションを処理できます。この機能により、Gemini Live はより長い会話を継続し、情報をより効果的に管理できるようになります。

音声コントロールに加えて、Google I/O 2024で初めて披露されたマルチ入力機能が年末までにGemini Liveに組み込まれることが確認されています。この機能強化により、AI は画像やビデオなどの視覚的な手がかりを理解して応答できるようになり、適応性が高まります。現在、この機能は Android デバイスでは英語でのみ利用可能ですが、間もなく他の言語と iOS との互換性も追加される予定です。

同社はこの新機能を発表するとともに、近い将来、さらなる機能や自社サービスとの接続も開始する予定だ。今後数週間のうちに、Gemini はカレンダー、Keep、Tasks、YouTube Music などの Google アプリケーションの拡張機能を提供する予定です。これらの改善により、ユーザーは音声コマンドを使用して、プレイリストの作成、リマインダーの設定、スケジュールの整理などのタスクをより簡単に実行できるようになります。

今後数日のうちに、Android ユーザーはアプリ自体内だけでなく、電源ボタンや音声コマンドからも Gemini をアクティブ化できるようになることが予想されます。このアップグレードにより、他のアプリ内でユーザーと Gemini 間のシームレスな対話が可能になり、質問をしたり、仕事に簡単に溶け込む画像などのコンテンツをリクエストしたりすることができます。

高度な音声モードを使用した OpenAI チャレンジ

OpenAI と Google の間の競争中、Google の ChatGPT の高度な音声モードは、初期の限定されたテスト段階で問題に遭遇しました。この革新的な機能は、より現実的な会話を模倣することでチャット エクスペリエンスを向上させるように設計されていますが、リアルな音声対話によりユーザーが意図せず AI に過度に依存する可能性があるため、批判にさらされています。

その結果、OpenAI は、将来の潜在的な発展、つまりユーザーと AI の間の社会的つながりの確立についての懸念を引き起こし、これは人間の相互作用に悪影響を与える可能性があります。

オリジナルの作成者と協力して研究を行っている共同研究者として、SWE-bench の更新バージョンの発売を発表できることを嬉しく思います。この新しいイテレーションは、実際のソフトウェアの課題に対処する際に、人工知能 (AI) モデルの機能をより信頼性の高い評価で提供できるように設計されています。

— OpenAI (@OpenAI) 2024 年 8 月 13 日

これに加えて、同社は AI システムのソフトウェア開発能力の強化にも取り組んでいます。これらの課題に対処するために、同組織は最近、現実世界のソフトウェアの問題を解決する AI モデルの能力をより正確に測定する、慎重に評価された SWE ベンチマーク ベンチマークのサブセットを公開しました。この措置は、AI の進歩が安全かつ日常的な使用において実用的であることを保証するための継続的な取り組みの一環です。

2024-08-13 22:28