「Difyで作ったAIと、電話のようにリアルタイムで会話したい」
「カスタマーサポートのボットに、自然な音声応対機能を追加したい」
そんな要望に応える強力なプラグインがDifyマーケットプレイスに登場しました。
リアルタイム音声通信のグローバルリーダーであるAgora(アゴラ)が提供する「会話型AI拡張機能(Conversational AI Extension)」です。
この記事では、DifyとAgoraを連携させ、低遅延でスムーズな音声対話AIを実装する手順を解説します。
Agora会話型AI拡張機能とは?
通常のチャットボットは「テキスト入力→送信→待機→返信」というステップを踏みますが、Agoraの技術を使うことで、人間同士の会話のような「割り込み可能なリアルタイム通話」を実現できます。
主な特徴
- 超低遅延:Agora独自のネットワーク(SD-RTN™)により、ストレスのない会話が可能。
- 柔軟なAIモデル:Difyで構築したLLM(大規模言語モデル)の頭脳をそのまま利用できます。
- TTS(音声合成)の選択:AzureやElevenLabsなど、高品質な音声エンジンを選択可能です。
実装手順(事前準備)
STEP 1:拡張機能のインストール
Difyの「Discover(探索)」ページから、プラグインとして「Agora Conversational AI」を検索し、インストールします。

STEP 2:Agoraアカウントの設定
Agoraコンソールでアカウントを作成し、以下の情報を取得します。
- 新規プロジェクトを作成し、App IDを取得。
- 「Conversational AI Engine」機能を有効化(Active)にします。
- RESTful APIのキーとシークレットを発行します。

STEP 3:TTS(音声合成)の設定
AIの声となるTTSサービスのAPIキーを用意します。
(例:Microsoft Azure Speech Services、またはElevenLabs)
STEP 4:Difyとの連携
Difyの拡張機能設定画面で「新規APIエンドポイント」を作成し、JSON形式で設定を入力します。
// Azureの場合の例
{
"key": "<あなたのAPIキー>",
"region": "eastasia",
"voice_name": "en-US-AndrewMultilingualNeural"
}
設定完了後、提供されるデモページURL(https://<your-dify-host>/convoai-web/index.html)にアクセスすることで、すぐに音声対話をテストできます。

活用事例
高遅延チャットボットとは異なり、リアルタイム通信(RTC)では迅速で自然な対話が求められます。Agoraの「会話型AI拡張機能」はこの要件を完璧に満たすソリューションです。
実装例:日常検索アシスタント
「近くのおすすめコーヒーショップは?」と尋ねると、温かみのあるカスタム音声で即座に応答します:「二つブロック先にBrew Havenという素敵なカフェがありますよ。気分転換にぴったりです!」Agoraの超低遅延SD-RTN™とシームレスな音声⇄テキスト変換技術により、通信状態が不安定な環境でもリアルタイム応答を実現。
Difyでエージェント/チャットフローを公開後、エンドポイントパネルから設定を微調整可能です。Agora拡張機能により、リアルタイム会話機能と音声トーンのカスタマイズが追加され、以下の用途に最適です:
- 個人用アシスタント
- 24時間対応カスタマーサポート
- 営業現場の即応型ツール

活用アイデア:どんな場面で使える?
AgoraとDifyを組み合わせれば、以下のような高度なシステムを短期間で構築可能です。
- 24時間対応の電話予約ボット:飲食店の予約受付や、クリニックの一次対応に。
- 英会話レッスンパートナー:リアルタイムで発音を聞き取り、自然な会話練習ができるアプリ。
- ハンズフリーの業務アシスタント:作業中で手が離せない現場(工場や医療など)での音声マニュアル検索。
ぜひこの機能を活用して、テキストチャットの枠を超えた新しいAI体験を作り出してみてください。
【推奨】業務システム化に有効なアイテム
生成AIを学ぶ



システム化のパートナー



VPSサーバの選定





コメント