データストアとは、AIエージェントが情報を取得するための知識ベースとなるものです。
今回は、PDFなどの非構造データをチャンク分けする3つのパーサーについてまとめてみました。
Parser Type
Digital parser
- 文書から機械可読テキストを抽出する。
- テキストブロックは検出するが、表、リスト、見出しなどの文書要素は検出しない。
- 他のパーサーを選択しなかった場合は、デフォルトとして使用。
- 対応可能ファイル:HTML、PDF、DOCX、PPTX、TXT
- チャンク設定:任意
OCR parsing for PDFs
- 検索不可能なPDF(スキャンしたPDFや、インフォグラフィックのような画像内にテキストを含むPDF)がある場合に(OCR)処理をオンにすることを推奨。
- 段落要素を抽出することができます。
- PDFファイルあたり最大80ページを解析可能
- 対応可能ファイル:PDF
- チャンク設定:任意
Layout parser
- PDF、HTML、DOCX ファイルのレイアウトを検出します。
- テキストブロック、表、リストなどのコンテンツ要素や、タイトル、見出しなどの構造要素を識別。
- レイアウトパーサは最大40MBのPDFファイルサイズをサポートしています。
- 対応可能ファイル:HTML、PDF、DOCX
- チャンク設定:必要
チャンクの区切り方
3種類のパーサーそれぞれに特徴があり、パラグラフを意識したチャンク分けが行えているのが、Layout parserでした。以下にそれぞれのチャンク分けの結果とそれを囲った画像を載せています。
- Digital parser:ページやブロックごとにチャンク化。パラグラフ構造はあまり意識していない。
- OCR parsing for PDFs:パラグラフ構造を理解しているが、見出しがずれてしまっている。
- Layout parser:改ページに対しても頑健に、パラグラフの抽出ができている。
見ては分かるよに、Layout parserは改ページに対して頑健であることが分かります。
また、改ページに際して以下のような特徴があります。
Layout parserの改ページに対する頑健性
- 段組が1列でも2列でもパラグラフでチャンク分けされそう。
- ヘッダーが挟まると、それもチャンクに含まれる。
- 1つのパラグラフが長い場合は、ページやブロック関係なく、トークンリミットあたりで区切られる。
表構造の読み込み
3つのパーサーを比べると、Layout parserはマークダウン形式で表を理解した出力されていることが分かります。
- Digital parser:左から右に文字起こしをしたような形式
“…TABLE I\nSTATISTICS OF MULTIMODAL FOGERY DATASETS FOR DEEPFAKE DETECTION. Datasets Real Videos Fake Videos Manipulation Methods No of Subjects Visual Manipulation Audio Manipulation FakeAVCeleb [5] 500 20000 Faceswap, Fsgan,\nwav2lip, RTVC 500 Yes Yes DeepfakeTIMIT [27] 320 320 Faceswap 32 Yes No where yˆ represents the probability of the target class…”
- OCR parsing for PDFs:表の上段下段で行き来をしているような形式
“TABLE I STATISTICS OF MULTIMODAL FOGERY DATASETS FOR DEEPFAKE DETECTION . Real Videos Fake Videos Manipulation Methods No of Subjects Visual Manipulation Audio Manipulation Datasets FakeAVCeleb [ 5 ] 500 DeepfakeTIMIT [ 27 ] 320 20000\n320 Faceswap , Fsgan ,\nwav2lip , RTVC\nFaceswap 500\n32 Yes\nYes Yes\nNo 5 where y represents the probability of the target class . …”
- Layout parser:マークダウン形式で表構造を捉えられている
“…\n### TABLE I\nSTATISTICS OF MULTIMODAL FOGERY DATASETS FOR DEEPFAKE DETECTION. \n_START_OF_TABLE_\nTABLE_IN_MARKDOWN:\n|-|-|-|-|-|-|-|\n| Datasets | Real Videos | Fake Videos | Manipulation Methods | No of Subjects | Visual Manipulation | Audio Manipulation |\n| FakeAVCeleb [5] | 500 | 20000 | Faceswap, Fsgan, wav2lip, RTVC | 500 | Yes | Yes |\n| DeepfakeTIMIT [27] | 320 | 320 | Faceswap | 32 | Yes | No |\n\n_END_OF_TABLE…”
まとめ
パラグラフと表構造の理解に関しては、Layout Parserが他の2つのパーサーに比べてリッチにチャンク分けがされている印象を持ちました。
コメント