【LLM】AI Agent Builder データストアのチャンク分け比較

AI Agent Builderは、Google Cloudが提供する、コーディングなしでAIエージェントを構築できるツールです。以前はVertex AI Search and Conversationと呼ばれていましたが、2024年のGoogle Cloud NextでVertex AI Agent Builderに改称されました。

Agent Builderを構築する上で、データストアは必要不可欠です。
データストアとは、AIエージェントが情報を取得するための知識ベースとなるものです。
今回は、PDFなどの非構造データをチャンク分けする3つのパーサーについてまとめてみました。

Parser Type
チャンクの区切り方
Layout parserの改ページに対する頑健性
表構造の読み込み
まとめ

Parser Type

前述の通り、データストア作成時に選べるParserは3種類あります。

詳しくは、公式ドキュメント(Parse and chunk documents)をご覧ください。

Digital parser

文書から機械可読テキストを抽出する。
テキストブロックは検出するが、表、リスト、見出しなどの文書要素は検出しない。
他のパーサーを選択しなかった場合は、デフォルトとして使用。
対応可能ファイル：HTML、PDF、DOCX、PPTX、TXT
チャンク設定：任意

OCR parsing for PDFs

検索不可能なPDF（スキャンしたPDFや、インフォグラフィックのような画像内にテキストを含むPDF）がある場合に（OCR）処理をオンにすることを推奨。
段落要素を抽出することができます。
PDFファイルあたり最大80ページを解析可能
対応可能ファイル：PDF
チャンク設定：任意

Layout parser

PDF、HTML、DOCX ファイルのレイアウトを検出します。
テキストブロック、表、リストなどのコンテンツ要素や、タイトル、見出しなどの構造要素を識別。
レイアウトパーサは最大40MBのPDFファイルサイズをサポートしています。
対応可能ファイル：HTML、PDF、DOCX
チャンク設定：必要

チャンクの区切り方

3種類のパーサーそれぞれに特徴があり、パラグラフを意識したチャンク分けが行えているのが、Layout parserでした。以下にそれぞれのチャンク分けの結果とそれを囲った画像を載せています。

Digital parser：ページやブロックごとにチャンク化。パラグラフ構造はあまり意識していない。

“2 BACKGROUND\nLow-Rank Adaptation (LoRA) (Hu et al., 2021) is a\nparameter-efficient fine-tuning…（省略）…Such a mechanism adds to S-LoRA: Serving Thousands of Concurrent LoRA Adapters”

OCR parsing for PDFs：パラグラフ構造を理解しているが、見出しがずれてしまっている。

“Most large language models ( LLMs ) are based on the trans-\nformer architecture ( Vaswani et al . , 2017 ) . The number of\nparameters in an LLM ranges from…（省略）…and their combi-\nnations ( Narayanan et al . , 2021 ; Zheng et al . , 2022 ) . 3 OVERVIEW OF S – LORA”

Layout parser：改ページに対しても頑健に、パラグラフの抽出ができている。

“\n### 2.1 Serving Large Language Models\nMost large language models (LLMs) are based on the trans- former architecture (Vaswani et al., 2017).…（省略）…sequence parallelism (Korthikanti et al., 2023), pipeline parallelism (Huang et al., 2019), and their combi- nations (Narayanan et al., 2021; Zheng et al., 2022). “

見ては分かるよに、Layout parserは改ページに対して頑健であることが分かります。

また、改ページに際して以下のような特徴があります。

Layout parserの改ページに対する頑健性

段組が1列でも2列でもパラグラフでチャンク分けされそう。
ヘッダーが挟まると、それもチャンクに含まれる。
1つのパラグラフが長い場合は、ページやブロック関係なく、トークンリミットあたりで区切られる。

表構造の読み込み

3つのパーサーを比べると、Layout parserはマークダウン形式で表を理解した出力されていることが分かります。

Digital parser：左から右に文字起こしをしたような形式

“…TABLE I\nSTATISTICS OF MULTIMODAL FOGERY DATASETS FOR DEEPFAKE DETECTION. Datasets Real Videos Fake Videos Manipulation Methods No of Subjects Visual Manipulation Audio Manipulation FakeAVCeleb [5] 500 20000 Faceswap, Fsgan,\nwav2lip, RTVC 500 Yes Yes DeepfakeTIMIT [27] 320 320 Faceswap 32 Yes No where yˆ represents the probability of the target class…”

OCR parsing for PDFs：表の上段下段で行き来をしているような形式

“TABLE I STATISTICS OF MULTIMODAL FOGERY DATASETS FOR DEEPFAKE DETECTION . Real Videos Fake Videos Manipulation Methods No of Subjects Visual Manipulation Audio Manipulation Datasets FakeAVCeleb [ 5 ] 500 DeepfakeTIMIT [ 27 ] 320 20000\n320 Faceswap , Fsgan ,\nwav2lip , RTVC\nFaceswap 500\n32 Yes\nYes Yes\nNo 5 where y represents the probability of the target class . …”

Layout parser：マークダウン形式で表構造を捉えられている

“…\n### TABLE I\nSTATISTICS OF MULTIMODAL FOGERY DATASETS FOR DEEPFAKE DETECTION. \n_START_OF_TABLE_\nTABLE_IN_MARKDOWN:\n|-|-|-|-|-|-|-|\n| Datasets | Real Videos | Fake Videos | Manipulation Methods | No of Subjects | Visual Manipulation | Audio Manipulation |\n| FakeAVCeleb [5] | 500 | 20000 | Faceswap, Fsgan, wav2lip, RTVC | 500 | Yes | Yes |\n| DeepfakeTIMIT [27] | 320 | 320 | Faceswap | 32 | Yes | No |\n\n_END_OF_TABLE…”

まとめ

パラグラフと表構造の理解に関しては、Layout Parserが他の2つのパーサーに比べてリッチにチャンク分けがされている印象を持ちました。