MENU

【ワークフロー】Web Content Search and Summarization Workflow:検索結果を自動で要約・一覧化

当ページのリンクには広告が含まれています。

調べ物をする際、Google検索の結果を一つずつクリックし、内容を読み込んで要約し、ExcelやNotionにまとめる作業に疲れていませんか?

Difyの「Web Content Search and Summarization Workflow」テンプレートは、キーワードを入力するだけで、検索、ページ内容の取得、要約、そして一覧表の作成までを全自動で行う強力なリサーチツールです。

この記事では、Tavily SearchとJina Readerという2つの外部ツールを組み合わせた、この高効率なワークフローの内部構成と構築手順を解説します。

目次

テンプレートの概要:全自動リサーチアシスタント

このワークフローは、ユーザーの質問に基づいてWeb検索を行い、上位の検索結果ページに実際にアクセスして内容を読み取り、要約を作成して「URLと要約の対照表」を出力します。

最大の特徴は、検索結果のリスト化だけでなく、中身(コンテンツ)まで踏み込んで要約してくれる点です。

これにより、ユーザーは大量のタブを開くことなく、要約された表を見るだけで概要を把握できるようになります。

Difyで構築する機能概要

本テンプレートでは、以下のロジックでリサーチを実行します。

  1. Web検索(Tavily):ユーザーの質問に関連するURLを収集します。
  2. URL抽出:検索結果から純粋なURLリストを生成します。
  3. 反復処理(Jina Reader):各URLにアクセスし、ページ本文をMarkdown形式で取得します。
  4. 要約(LLM):取得した本文をAIが要約します。
  5. 表作成:すべての結果を統合し、Markdownのテーブル形式で出力します。
Web Content Search and Summarization Workflow ワークフロー図

【重要】最適化モデルのワークフロー詳細(ノード表)

このテンプレートは、APIレート制限(過剰アクセス)を回避するための「Delay(待機時間)」処理や、テキスト整形のコードが含まれている点が技術的なポイントです。

以下は、実際に動作する完成版モデルの全ノード構成と設定内容です。

アイテム名(ノード名)処理内容・設定詳細
開始 (Start)ワークフローの開始 リサーチしたい「質問」や「キーワード」を入力として受け付けます。
TavilySearch (Tool)Web検索の実行 AI検索エンジン「Tavily」を使用し、クエリに関連するWebサイトの情報を取得します。 ※Tavily APIキーの設定が必要です。
コード (Code)URLの抽出(正規表現) Tavilyの出力結果から、httpまたはhttpsで始まるURLのみを正規表現で抽出してリスト化します。 ※API制限回避のため、意図的にsleep(13)等の待機時間が設定されている場合があります。
反復処理 (Iteration)スクレイピングループ 抽出されたURLリストの各項目(item)に対して、以下の処理を繰り返します。
 ∟ Delay  (Code)待機処理 Jina ReaderやLLMへの連続アクセスによるエラーを防ぐため、数秒間(例:5秒)の待機時間を設けます。
 ∟ JinaReader  (Tool)ページ内容の取得 URL先のWebページにアクセスし、本文をMarkdown形式で取得します。 ※Jina ReaderはWebページをLLM向けのテキストに変換するツールです。
 ∟ LLM 2  (LLM)要約の生成 取得したページ本文を読み込み、要点を簡潔にまとめます。 プロンプト:「次のテキストを要約してください…」
 ∟ URLと概要を連結  (Template)データの一時結合 後で表にするために、URLと要約文を特定の区切り文字(例:\SP)で結合します。 形式:{{ URL }}\SP{{ 要約 }}
URLとテキスト概要を分割 (Code)データの整形 反復処理で作成されたリストを、最終的な出力用に辞書形式({‘url’:…, ‘text’:…})に変換します。 改行コードの削除などのクレンジング処理もここで行います。
結果表 (Template)テーブル作成 整形されたデータを、Markdownのテーブル記法を使って一覧表にします。 | URL | Summary | の形式で出力されます。
END (End)完成したリサーチ結果テーブルを表示します。

DifyでWeb Content Search Workflowを構築・有効化する手順

以下の手順で、自動リサーチツールを導入できます。

  1. テンプレート選択:Difyの「探索」からテンプレートを選択し、ワークスペースに追加します。
  2. APIキーの設定:以下のツール設定が必要です。 ・Tavily:検索用APIキー ・Jina Reader:スクレイピング用APIキー(無料枠あり)
  3. 待機時間の調整:「Delay」ノードやコード内のtime.sleep()の秒数は、利用するAPIプランに合わせて調整してください(無料版の場合は長めに設定推奨)。
  4. 動作確認:プレビューで「最新のAIトレンド」などを入力し、テーブル形式で結果が出力されるかテストします。

このテンプレートを活用するメリット

「情報の海」から「必要な雫」だけを自動で抽出できます。

  • 圧倒的な時短:複数のページを開いて読む時間をゼロにし、要約だけをサッと確認できます。
  • 構造化データ化:結果がテーブル(表)になるため、そのまま資料やレポートに貼り付けて利用できます。
  • 最新情報の取得:LLMの学習データに含まれていない最新ニュースも、Tavily検索経由で取得可能です。

まとめ

Web Content Search and Summarization Workflowは、情報収集業務の効率を劇的に向上させるテンプレートです。

競合調査、ニュースのクリッピング、技術動向の把握など、日々リサーチを行うビジネスパーソンにとって最強のパートナーとなるでしょう。

ミラーマスター合同会社では、このような外部ツール連携(Tavily, Jina)を含むDifyワークフローの構築支援や、出力結果をGoogleスプレッドシートやSlackに自動転送するカスタマイズも承っております。リサーチ業務の自動化をご検討の際は、ぜひお気軽にご相談ください。

【推奨】業務システム化に有効なアイテム

生成AIを学ぶ

システム化のパートナー(ミラーマスター合同会社)

VPSサーバの選定

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次