【AIニュース】ChatGPTがついにマルチモーダルに！画像認識・音声会話機能が追加！

OpenAIからの公式発表（2023/9/25）によると、今後2週間かけてChatGPTに画像認識・音声会話機能が追加されるとのこと。

ChatGPTの画像読み込み機能

画像（写真など）を読み込んで、それについての質問やコミュニケーションをしたり、これまで標準機能ではできなかった音声でのやりとりができるようになります。

・対象：Plus（有料版）とEnterpriseのユーザー

・利用可能なプラットフォーム：Web版 ( chat.openai.com ) およびモバイル (iOS / Android) を含むすべてのプラットフォームで可能

・扱えるファイル形式：PNG (.png)、JPEG (.jpeg および .jpg)、および非アニメーションGIF (.gif)が対象（動画は対象外）。一画像あたりのサイズ制限は20MB。

画像機能に関するOpenAI公式の詳細情報はこちら

ChatGPTの音声会話機能

ChatGPT との双方向の音声会話を行うことができるようになります。

・対象：Plus（有料版）とEnterpriseのユーザー

・利用可能なプラットフォーム：iOS と Android の両方の ChatGPT モバイルアプリで利用できる

・利用可能な音声：5 つのリアルな出力音声から選択。それぞれが独自のトーンとキャラクターを持っている。

音声会話機能に関するOpenAI公式の詳細情報はこちら

ついにハンズフリーで音声会話ができるように！

この新機能では、一度音声会話に入ると、音声会話を終了するまではハンズフリーとのこと。これまでも、スマホの機能を併用すれば、タイムラグはあるもののChatGPTとの音声会話が可能でしたが、その際、読み上げてほしいテキストを選択したり、自分が話したときに送信ボタンを押す、といった動作が必要でした。それが、ついにハンズフリーで会話ができるようになったのです。ますます、AIとのコミュニケーションがストレスなくスムーズにできるようになり、日常生活や仕事、学習に活かせるようになっていきますね。