MENU

Dify×Gemini 3.0で音声を自動文字起こし!設定ガイド

当ページのリンクには広告が含まれています。

「会議の議事録作成に時間がかかりすぎる」
「音声データを手軽にテキスト化して要約したい」

そんな悩みを、Difyと最新のAIモデル「Gemini 3.0」を組み合わせることで解決できます。

2025年11月にリリースされたGemini 3.0は、前世代の2.0と比較して推論能力とマルチモーダル処理速度が大幅に向上しています。

この記事では、ノーコード開発プラットフォーム「Dify」を使って、この最新モデルを活用し、音声ファイルをアップロードするだけで自動的に文字起こしをしてくれるアプリの作成手順を解説します。

目次

STEP 1:Gemini 3.0 APIキーの取得と設定

まずは、Googleの最新高性能AI「Gemini 3.0」を利用するためのAPIキーを取得します。

1. Google AI Studioでキーを発行

Google AI Studioにアクセスし、「Get API Key」からキーを作成してコピーします。

※既存のプロジェクトがある場合でも、Gemini 3.0を利用するために新しいキーの作成が必要な場合があります。

2. DifyにAPIキーを登録

Difyの「設定」>「モデルプロバイダー」から「Google Gemini」を選択し、取得したAPIキーを入力して保存します。

Dify Gemini設定画面

STEP 2:文字起こしアプリ(チャットフロー)の作成

Difyで「チャットフロー」形式のアプリを新規作成し、以下の設定を行います。

1. 開始ノード:ファイルアップロードの設定

「開始」ノードをクリックし、入力フィールドを追加します。

  • フィールドタイプ:単一ファイル
  • 変数名:audio
  • ファイルタイプ:音声
開始ノード設定

2. LLMノード:Gemini 3.0の選択とプロンプト設定

「LLM」ノードを追加し、以下のように設定します。

  • モデル:gemini-3.0-flash または gemini-3.0-pro ※高速処理を求めるならFlash、複雑な文脈理解が必要ならProを選択してください。
  • コンテキスト:開始ノードの audio 変数を選択
  • ビジョン(Vision)機能:有効化し、同じく audio 変数を選択

システムプロンプトの例:

受け取った音声データの内容を文字起こししてください。 Gemini 3.0の推論能力を活かし、フィラー(「えー」「あー」など)を除去し、適切な句読点や段落分けを行って、ビジネス文書として読みやすく整形してください。 余計な前置きは不要です。文字起こしの内容のみを出力してください。
LLMノード設定

3. 会話の開始設定(任意)

「機能」メニューから「会話の開始」をONにし、「音声ファイルをアップロードしてください」などの案内文を設定しておくと親切です。

STEP 3:動作確認とGemini 3.0の実力

プレビュー画面で音声ファイル(mp3やwavなど)をアップロードし、実行してみましょう。

Gemini 3.0は処理速度が向上しているため、長時間の音声データでも以前より短時間でテキスト化されるはずです。

文字起こし結果

まとめ:最新AIで議事録作成を自動化しよう

DifyとGemini 3.0を組み合わせることで、会議の録音データをアップロードするだけで、即座に高精度な議事録の素案を作成できます。

最新モデルの強力な文脈理解力を活用して、日々の業務効率をさらに加速させてください。

【推奨】業務システム化に有効なアイテム

生成AIを学ぶ

システム化のパートナー

VPSサーバの選定

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

CAPTCHA


目次