Dify×Gemini 3.0で音声を自動文字起こし！設定ガイド

「会議の議事録作成に時間がかかりすぎる」
「音声データを手軽にテキスト化して要約したい」

そんな悩みを、Difyと最新のAIモデル「Gemini 3.0」を組み合わせることで解決できます。

2025年11月にリリースされたGemini 3.0は、前世代の2.0と比較して推論能力とマルチモーダル処理速度が大幅に向上しています。

この記事では、ノーコード開発プラットフォーム「Dify」を使って、この最新モデルを活用し、音声ファイルをアップロードするだけで自動的に文字起こしをしてくれるアプリの作成手順を解説します。

STEP 1：Gemini 3.0 APIキーの取得と設定

まずは、Googleの最新高性能AI「Gemini 3.0」を利用するためのAPIキーを取得します。

1. Google AI Studioでキーを発行

Google AI Studioにアクセスし、「Get API Key」からキーを作成してコピーします。

※既存のプロジェクトがある場合でも、Gemini 3.0を利用するために新しいキーの作成が必要な場合があります。

2. DifyにAPIキーを登録

Difyの「設定」＞「モデルプロバイダー」から「Google Gemini」を選択し、取得したAPIキーを入力して保存します。

STEP 2：文字起こしアプリ（チャットフロー）の作成

Difyで「チャットフロー」形式のアプリを新規作成し、以下の設定を行います。

1. 開始ノード：ファイルアップロードの設定

「開始」ノードをクリックし、入力フィールドを追加します。

フィールドタイプ：単一ファイル
変数名：audio
ファイルタイプ：音声

2. LLMノード：Gemini 3.0の選択とプロンプト設定

「LLM」ノードを追加し、以下のように設定します。

モデル：gemini-3.0-flash または gemini-3.0-pro ※高速処理を求めるならFlash、複雑な文脈理解が必要ならProを選択してください。
コンテキスト：開始ノードの audio 変数を選択
ビジョン（Vision）機能：有効化し、同じく audio 変数を選択

システムプロンプトの例：

受け取った音声データの内容を文字起こししてください。 Gemini 3.0の推論能力を活かし、フィラー（「えー」「あー」など）を除去し、適切な句読点や段落分けを行って、ビジネス文書として読みやすく整形してください。 余計な前置きは不要です。文字起こしの内容のみを出力してください。

3. 会話の開始設定（任意）

「機能」メニューから「会話の開始」をONにし、「音声ファイルをアップロードしてください」などの案内文を設定しておくと親切です。

STEP 3：動作確認とGemini 3.0の実力

プレビュー画面で音声ファイル（mp3やwavなど）をアップロードし、実行してみましょう。

Gemini 3.0は処理速度が向上しているため、長時間の音声データでも以前より短時間でテキスト化されるはずです。

まとめ：最新AIで議事録作成を自動化しよう

DifyとGemini 3.0を組み合わせることで、会議の録音データをアップロードするだけで、即座に高精度な議事録の素案を作成できます。

最新モデルの強力な文脈理解力を活用して、日々の業務効率をさらに加速させてください。

【推奨】業務システム化に有効なアイテム

生成AIを学ぶ

起業のためのシステム化

【シゴトAI】実務で使えるAIスキルを最短習得！評判と特徴 – 起業のためのシステム化実務直結のAI教育「シゴトAI」を解説。スマホ受講やLINEサポートで、初心者でも仕事や副業に活かせるスキルを習得可能。あなたに合った活用法が見つかります。

起業のためのシステム化

45歳からの生成AI！ライフシフトラボで「稼ぐ力」を習得 – 起業のためのシステム化 40代〜60代特化！知識ゼロから3ヶ月で「稼げるAIスキル」を習得するライフシフトラボ。経験×AIで起業・副業を加速させましょう。無料説明会受付中。

起業のためのシステム化

デジハクでAIを仕事に！未経験からプロを目指すマンツーマン講座 – 起業のためのシステム化未経験からAIスキルで稼ぐ力をつけるオンラインスクール「デジハク」。マンツーマン指導と充実のアフターサポートで、副業・フリーランスへの道を最短で切り拓きます。

システム化のパートナー（ミラーマスター合同会社）

ミラーマスター合同会社｜千葉のDX…

Dify自己ホスト型AIチャットボット導入支援 – ミラーマスター合同会社｜千葉のDX・システム開発とデジタル… 中小企業の属人化・問い合わせ対応をAIで自動化。セキュアなDify自己ホスト型チャットボット導入を10万円で専門家が支援。

ミラーマスター合同会社｜千葉のDX…

【製造業向け】業務改善・DX支援コンサル – ミラーマスター合同会社｜千葉のDX・システム開発とデジタル事… 製造業の経営者様へ。生産性向上・コスト削減を実現。40年の現場経験を持つ専門家が貴社のDXを伴走支援します。

ミラーマスター合同会社｜千葉のDX…

中小企業のシステム開発伴走支援 – ミラーマスター合同会社｜千葉のDX・システム開発とデジタル事業創造「誰に頼めば…」とお悩みの中小企業様へ。40年の経験を持つ代表が貴社の開発プロジェクトを成功に導きます。全国対応。

現場知×AI：製造業DX実践ブログ

製造業AI活用の本質｜現場知を資産に変えるミラーマスター – 現場知×AI：製造業DX実践ブログ現場を歩かないITは信じない。40年の経験でAI精度「32.7%の罠」を回避し、10万円から現場知を資産化する「泥臭い」エンジニアリングを提供します。

VPSサーバの選定

起業のためのシステム化

Difyに最適なVPS比較 XServer vs ConoHa DifyでAI構築！XServer VPSとConoHa VPSを徹底比較。初心者におすすめの料金、簡単さ、スペックを解説します。

起業のためのシステム化

エックスサーバーのおすすめは？WordPress・VPS比較国内シェアNo.1「エックスサーバー」のおすすめは？WordPressからVPS、法人利用まで、目的別に最適なプランを徹底解説。

起業のためのシステム化

ConoHaのおすすめは？WINGとVPSを徹底比較 ConoHaのおすすめは？WordPress(WING)、AI(VPS)、FXなど目的別に全サービスを比較。最適なプランが見つかります。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

Dify×Gemini 3.0で音声を自動文字起こし！設定ガイド