OpenAI、生成AIの革新的ニューモデル「GPT-4o」公開

A.Yamada 注目参考：公式発表 2024/05/14 11:30

テキスト、音声、画像を入出力可能

生成AI（人工知能）「ChatGPT」開発で知られるOpenAI（オープンAI）は13日、GPT-4oと呼ばれる新しいAIモデルをリリースした。

本物の人間のように聞こえる、抑揚ある音声会話が可能であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の様々な形式で応答を出力することができる。

ユーザーによる音声入力には、わずか約0.2～0.3秒程度で反応する。これは人間の会話における反応速度と同程度だ。また、ChatGPTが話している間にさえぎることで答えの生成を中断することも可能である。

OpenAIのリサーチャーによれば、こうしたことは、これまでのAI音声アシスタントでは再現が難しかった現実の会話の特徴だ。

OpenAIのサム・アルトマンCEOは、GPT-4oについて「映画に出てくるAIのような気がする」「コンピューターと話すことは、これまで私にとって決して自然には感じられなかったが、今では自然に感じられる」と述べた。

確かに、公開されたデモンストレーションでユーザーのリクエストに応えて話し方の抑揚を変えたり、ジョークに笑ったりする様子は本物の人間の音声のようだ。

現在、すべてのユーザーがテキストおよび画像機能について、GPT-4oを使用することが可能となっている。無料ユーザーも限定アクセスができる形だ。今後数週間で、OpenAIは有料版に、新たなAI音声や画像認識機能などを追加していく。また、利用料は半額になるという。

なお、OpenAIによると、「GPT-4o」の「o」は、「すべての」「あらゆる」などを表わす英語の接頭辞「omni（オムニ）」の意味である。様々な能力を持つことを示唆しているとみられる。

ChatGPTとは

ユーザーの質問に対し、人間との会話感覚で回答を得られるように設計された対話型のAI言語モデル。コンテンツ制作、レポートの作成、ソフトウェアコードの設計など用途は多岐に渡る。

デモンストレーションでは、GPT-4oの様々な使い方が公開されている。例えば、以下のような機能が披露された。

OpenAIによると、GPT-4o開発では、テキスト、視覚、音声にわたる単一の新しいAIモデルをエンドツーエンドでトレーニングした。形式に関わらず、すべての入力と出力を同じニューラルネットワークによって処理することを実現している。

また、OpenAIは、GPT-4oの音声モードには様々な新たなリスクがあることを認識しているとも述べた。今後数週間から数か月かけて、技術インフラなどの他、必要な安全性について取り組んでいくとしている。

すでに、社会心理学、偏見と公平性、誤情報などの分野で70人以上の外部専門家チームとリスクを確認する作業を行い、安全性を向上させたとも説明している。今後も、新たなリスクが発見され次第、それを軽減していく計画だ。

画像はShutterstockのライセンス許諾により使用
「仮想通貨」とは「暗号資産」のことを指します