第2章の利用動向分析では、利用者の質問が単一の情報探索から、複数の文書を横断的に参照し統合する必要がある「複合的なクエリ」へと質的に高度化していることが明らかになった。この変化は、一度の検索で回答を生成する従来型のRAGアーキテクチャでは対応が困難であるという、新たな技術的課題を浮き彫りにした。本章では、この課題に対し、どのような技術的アプローチが有効であるかを比較検証によって実証することを目的とする。
利用者が直面する問題は、単一文書の参照のみでは解決せず、複数のマニュアルに分散した情報を横断的に調査したり、エラーメッセージとその発生状況を照合して原因を推論したりするなど、高度な情報統合能力を必要とするものが少なくない。この要求に応えるため、当社は従来のRAGアーキテクチャを問い直し、AIエージェントが質問を複数のサブクエリに分解し、自律的・再帰的に情報を探索・統合する、いわゆる「Agentic RAG」と呼ばれる仕組みを独自に実装した。本レポートで検証するAskDonaの最新バージョン(dona-rag-2.0およびdona-rag-2.5)は、この新しいアーキテクチャに基づいている。
AskDonaの2つの最新バージョンは、データソースの事前処理方法に違いがある。「dona-rag-2.0」は、OCRによる高精度な文字・表認識を特徴とする。一方、「dona-rag-2.5」は、dona-rag-2.0の機能に加え、文書内の図やグラフといった視覚情報の内容をテキスト化し、検索対象に含める機能を備えている。
本検証では、情報の正確性に加え、複数文書にまたがる横断的な調査や専門的な推論といった高度な要求に対し、AskDonaの最新バージョン(dona-rag-2.0及びdona-rag-2.5)と主要なRAGがどの程度の性能を発揮できるかを評価する。具体的に広く利用されているクラウドプロバイダーのサービス(Microsoft社Azure AI Search、Google社Vertex AI Search、Amazon社Amazon Bedrock)とオープンソースフレームワークはLangChainを用いてRAGシステムを構築した。
全システムには、PDF、CSV、HTML形式を含む「富岳」の専門文書239点(合計約16,000ページ以上)を同一のRAGのデータソースとして利用した。そして、「富岳」の運用に携わるR-CCSの専門家が、実際の問い合わせ傾向を反映して選抜した25問の「複合的な質問」を評価用の質問セットとして用いた。各システムが生成した回答の品質は、R-CCSの専門家による厳密な「人的評価」を通じて評価し、その回答精度を検証した。
4.1 検証の設計と評価方法
本節では、比較検証の公正性と再現性を担保するために設定した各RAGシステムの構築条件について詳述する。本検証では広く利用されているクラウドプロバイダーのサービスが提供するRAGシステムとオープンソースフレームワークをAskDona(dona-rag-2.0及びdona-rag-2.5)の比較対象として選定した。具体的には、Microsoft社のAzure AI Search、Google社のVertex AI Search、Amazon社のAmazon Bedrock、そしてオープンソースソフトウェア(Open Source Software、OSS)であるLangChainを用いて、4つのRAGシステムを構築した。
検証にあたり、AskDonaがRAGのデータソースとするPDF、CSV、HTML形式を含む「富岳」の専門文書239点(合計約16,000ページ以上)を全ての比較対象システムに同一のデータセットとして利用した。
本検証の目的は特定のシステムを極限までチューニングすることではなく、異なる技術アプローチの基本的な性能を公正に比較することにある。そこで、各比較対象システムは、それぞれのプロバイダーが推奨する設定や広く認知されたベストプラクティスに基づき、標準的でありながら高い性能が期待できる状態へと最適化を行った。
各システムの性能を最大限に引き出すため、構築にあたってはAskDona(dona-rag-2.0及びdona-rag-2.5)を除くシステムについて以下の共通方針を定めた。
- 同一データソースの利用:全てのシステムで、全く同じ専門文書群をデータソースとして使用する。
- 高性能モデルの採用:回答生成には各プラットフォームで利用可能な高性能な生成モデルを採用。Embeddingには高次元のモデルを優先的に採用する。
- 検索件数(Top-K)の統一:回答生成の根拠として参照する文書チャンクの数を揃えるため、検索件数(Top-K)は全てのシステムで10件に統一する。
- チャンク手法の標準化:本検証では固定長チャンキングを基本とし、各プロバイダーの推奨設定またはデフォルト値に従う。
- 再現性の確保 (temperature設定):回答の揺らぎをなくし、再現性を担保するため、生成モデルのtemperatureは原則として0に設定する。
- 最善なテキスト抽出手法の選択:OCR処理が適用可能な場合は必ず実行し、テキスト抽出の精度を高める。
- 指示プロンプトの統一:各システムに与えるシステムプロンプトは、条件を揃えるため全て同一のものを使用する。
- ベクトルインデックスの作成:検索効率と精度を高めるため、ベクトルデータのインデックスを必ず作成した。
表4.1:比較対象RAGシステムの構築条件詳細
| RAGシステム | Azure AI Search | Vertex AI Search | Amazon Bedrock | LangChain (OSS) |
|---|---|---|---|---|
| 主要サービス | Azure AI Search, Azure OpenAI | Vertex AI Search | Bedrock KB, OpenSearch, S3 | FAISS (CPU), OpenAI API |
| 生成モデル | GPT-4o | Gemini 2.0 Flash | Claude Sonnet 4 | GPT-4o |
| Embeddingモデル | text-embedding-3-large | text-embedding-004 | amazon.titan-embed-text-v2:0 | text-embedding-3-large |
| ベクトル次元数 | 3072 | 768 | 1024 | 3072 |
| チャンク手法 | サイズ: 2000文字 / オーバーラップ: 500文字 | サイズ: 1000文字 / オーバーラップ: 100文字 | サイズ: 300トークン / オーバーラップ: 20% | サイズ: 1000文字 / オーバーラップ: 200文字 |
| 検索手法 | ハイブリッド検索 | ベクトル検索 + キーワード検索 | ベクトル検索 | 近似近傍探索 (FAISS) |
| OCR処理 | Azure AI Vision (Skillset) | Vertex AI Search (Built-in) | なし (S3からの直接取込) | Tesseract (unstructured) |
4.2 評価用質問セットの選定
本検証で用いる質問セットは、情報の正確性に加え、複数文書にまたがる横断的な調査や専門的な推論といった高度な要求が求められる富岳サポートサイトの環境を例として、実際にAskDonaに送信された利用者質問(クエリ)の傾向を分析し、その結果に基づいて設計した。
特に、表4.2-1に記載される定義に沿った質問25問を厳選した。これらの質問は、検索された単一の情報を要約するだけでは回答できない質問や一般的なRAGシステムが構造的に回答生成を困難とする質問(複合的なクエリ)、およびユーザーによる入力間違いを含む質問である。
表4.2-1:評価用質問セットの定義
| 質問カテゴリ | 定義 |
|---|---|
| 情報統合性能を問う質問(複合的なクエリ) | 単一の情報源だけでは回答できず、複数の文書にまたがる情報を多角的な視点から横断的に探索・統合し、論理的に再構成する必要がある質問。 |
| 高精度な検索(リトリーバル)性能を問う質問 | 類似する情報やエラーコードが多数文書内に存在し、その中から最も関連性の高い情報を正確に特定する能力が求められる質問。 |
| 曖昧・不完全な入力への対応性能を問う質問 | 質問文に誤字脱字が含まれる場合や、質問の意図が不明確で、システム側が利用者の真の要求を推論・解釈する必要がある質問。 |
| 意味理解と類推性能を問う質問 | 質問で使われている言葉が、データソースとなる文書内に直接存在しない場合でも、意味的な類似性や文脈から関連情報を特定し、紐付ける能力が求められる質問。 |
| 情報の有無を正確に判断する性能を問う質問 | データソースに「存在する内容」と「存在しない内容」が混在している場合に、存在しない情報を正確に特定し、「その情報はない」と回答に含めることができるかを評価する質問。 |
図4.2-2の質問は、実際に富岳サポートサイトのAskDonaでよく受け付けるエラーメッセージに関する質問である。AskDonaの初期バージョン(dona-rag-1.0)は、ユーザーの質問に対して適切な回答を生成するものの、質問文に質問の背景や前提が不足している場合には、的確な回答が得られにくいという特性があった。一方、AskDona(dona-rag-2.0)は、ユーザーの質問意図を過去のチャット履歴から解釈してサブクエリ化、AIエージェントが自律的かつ再起的に情報を調査・取得することで、より的確で網羅性の高い充実した回答生成を実現している。
4.3 本検証における評価アプローチと評価基準の選定
本検証の評価を決定するにあたり、既存のRAGシステム評価手法を検討した。近年、RAGシステムの性能を自動で評価する試みとして、いくつかのフレームワークが提案されている。例えば、生成された回答の忠実性(Faithfulness)や関連性(Relevance)等を定量化するRAGAs (Es et al., 2023) や、公開QAデータセットを用いてスコアを競うRAG-QA Arena (Lee et al., 2024) といった取り組みがある。これらの自動評価手法は、標準的なRAGプロセスの性能を迅速に把握する上で一定の有用性を持つ。
しかし、本検証では、専門家の知見に基づく人的評価が最も妥当なアプローチであると判断した。その理由として、まず評価対象である「AskDona」が、質問をサブクエリに分解したり、エージェントが自律的・再帰的に情報を探索したりする独自のアーキテクチャを持つ点があげられる。このような複雑な情報処理は、既存の自動評価フレームワークが前提とする単純なプロセスとは異なり、その性能を十分に評価しきれない可能性がある。さらに、本検証の目的でもある社会実装の促進のために必要な「実用性(Practical Utility / Helpfulness)」を専門家の視点から評価することが重要と考えた。
■ 評価プロセスの設計
評価の客観性と信頼性を担保するため、厳格な評価プロセスを設計した。まず、評価は「富岳」の技術と運用に精通したR-CCSの専門家3名が担当した。評価対象としたのは、AskDona(dona-rag-2.0標準モデル、dona-rag-2.5視覚情報処理モデル)および、Microsoft Azure AI Search、Google Cloud Vertex AI Search、Amazon Bedrock、LangChain(OSS)で構築したRAGシステムの合計6つである。
評価手順においては、評価バイアスを排除することを最優先とした。具体的には、どのシステムが生成した回答かを伏せた状態(ブラインド評価)で、各質問に対する6つの回答の順序をランダムに入れ替えて評価者に提示した。さらに、各評価者は独立して評価を行い、互いの結果を閲覧できない状態を確保することで、評価の独立性を担保した。
■ 評価基準の定義
各システムの回答に対し、以下の3つの評価指標をそれぞれ5段階でスコアリングした。評価指標は、RAGAsに代表されるRAG評価フレームワークの考え方を参考に、本検証に適当な評価項目を設定した。
正確性 (Accuracy / Factuality):事実に基づいた回答を生成する能力を厳格に評価する。RAGAsにおけるFaithfulness(回答が文脈に忠実か)の概念を包含。
網羅性 (Completeness / Comprehensiveness):必要な情報をどの程度抜け漏れなく含んでいるかを評価する。RAGAsにおけるContextual RecallとAnswer Relevancyの概念を包含。
実用性 (Practical Utility / Helpfulness):回答が単に正しいだけでなく、利用者の問題解決に実際に役立つかを総合的に評価する指標。納得感、具体的なアクションへの貢献度、専門用語の適切性や論理的整合性(ドメイン適合性)といった実践的な側面を含む。
表4.3:評価指標の定義
| 評価指標 | 評価基準(5点) | 評価基準(3点) | 評価基準(1点) |
|---|---|---|---|
| 正確性 | 全ての事実が正確で、誤情報や幻覚が一切ない。 | 一部に正確な情報も含まれるが、重要な誤情報や幻覚も散見される。 | 回答の大部分が不正確またはハルシネーションで構成されている。 |
| 網羅性 | 必要な情報が完全に網羅され、全ての主張が参照元に裏付けられている。 | 重要な情報の一部が欠落しているか、一部の主張の根拠が不明である。 | 質問の大部分に答えておらず、情報が著しく不足している。 |
| 実用性 | 質問意図に完全に合致し、専門家にとって納得感があり、問題解決に直接役立つ。 | 部分的には有用だが、意図から逸れる部分があるか、内容がやや分かりにくい。 | 質問意図を全く把握しておらず、ユーザーにとって全く有用ではない。 |
4.4 回答精度評価結果
前節で設計した評価プロセスに基づき、6つのRAGシステム(AskDona dona-rag-2.0、dona-rag-2.5および比較対象4システム)に対して25問の「複合的な質問」セットを用いた人的評価を実施した。
スコアは、3名のR-CCS評価者による25問への5段階評価(1〜5点)を各指標(正確性、網羅性、実用性)ごとに集計し、満点を100ポイント(pt)として正規化したものである。
図4.4-1は、各システムについて3つの評価指標の平均スコアを比較したものである。評価の結果、比較対象とした4システムのスコアは50ポイント台から70ポイント台前半の範囲に分布し、その総合平均は約61ポイントであった。これに対し、AskDonaはdona-rag-2.0が83ポイント、dona-rag-2.5が82ポイントとなり、比較対象の平均を20ポイント以上上回る結果となった。
図4.4-2は、各システムについて3つの評価指標ごとのスコアを示したものである。AskDona(dona-rag-2.0)は、全ての比較対象を各指標で上回った。具体的には、Azure AI Search(正確性66pt、網羅性60pt、実用性58pt)に対して、正確性で18ポイント、網羅性で24ポイント、実用性で23ポイント上回った。比較対象の中で最も高いスコアであったAmazon Bedrock(正確性71pt、網羅性67pt、実用性63pt)に対しても、正確性で13ポイント、網羅性で17ポイント、実用性で18ポイント上回る結果となった。同様にLangChainやVertex AIに対しても、dona-rag-2.0が全ての指標で優位なスコアを記録した。
比較対象システムのスコアが最高でも70ポイント台前半に留まったのに対し、AskDonaはいずれのバージョンも80ポイント台のスコアを獲得した。この差は、最終的な回答品質が生成モデル(LLM)単体の性能だけでなく、RAGのアーキテクチャ全体に大きく依存することを示唆している。
この傾向は、比較対象内で最高スコアを記録したAmazon Bedrockの事例からも見て取れる。Bedrockは高性能なLLMを採用しているにもかかわらず、AskDonaはそれを全ての指標で上回った。これは、「複合的なクエリ」へ対応するためには、高性能なLLMを搭載するだけでなく、その能力を最大限に引き出すための高度なアーキテクチャ設計が不可欠であることを裏付けている。
なお、dona-rag-2.0(文字や表情報のみ)が、dona-rag-2.5(視覚情報あり)をわずかに上回った結果は、今回の検証に利用した25件の質問セットが適切な回答生成のためにデータソースに含まれる視覚情報を必要としないものであったことも影響したと推察される。
以上の考察から、本検証は、実務環境における複雑な要求に応えるためには、RAGアーキテクチャ全体の設計が性能を左右する重要な要素であることを実証した。
Chapter 2's usage analysis revealed that user questions have shifted qualitatively — from single-source information lookup to composite queries that require cross-referencing and integrating information across multiple documents. This shift surfaced a new technical challenge: traditional single-shot RAG architectures are ill-equipped to handle it. This chapter empirically demonstrates, via comparative validation, which technical approaches are effective against that challenge.
Many of the problems users face cannot be solved by referencing a single document — they require advanced information-integration: investigating across multiple manuals, cross-checking error messages with the situations in which they arose to infer causes, and so on. To meet this demand, we rethought the conventional RAG architecture and implemented an Agentic RAG design in which AI agents decompose a question into sub-queries and autonomously, recursively explore and integrate information. AskDona's latest versions evaluated in this report — dona-rag-2.0 and dona-rag-2.5 — are built on this new architecture.
The two latest versions differ in how the data source is pre-processed. dona-rag-2.0 is characterized by high-precision character and table recognition via OCR. dona-rag-2.5 adds, on top of dona-rag-2.0, the ability to extract the textual content of visual elements (diagrams, charts) inside documents and include them in the retrieval target.
This evaluation measures how well AskDona's latest versions (dona-rag-2.0 and dona-rag-2.5) perform against major RAG systems on demands that require not just factual accuracy but cross-document investigation and specialist reasoning. Specifically, we built comparable RAG systems using widely-used cloud provider services (Microsoft Azure AI Search, Google Vertex AI Search, Amazon Bedrock) and an OSS framework (LangChain).
All systems used the same RAG data source: 239 Fugaku specialist documents (totaling over 16,000 pages) across PDF, CSV, and HTML formats. Twenty-five composite questions, selected by R-CCS experts familiar with Fugaku operations and reflecting actual inquiry patterns, served as the evaluation question set. Each system's answers were assessed via rigorous human evaluation by R-CCS experts to validate answer accuracy.
4.1 Verification Design and Evaluation Method
This section details the construction conditions imposed on each RAG system to ensure fairness and reproducibility. Comparison targets for AskDona (dona-rag-2.0 and dona-rag-2.5) were chosen from widely-used cloud-provider RAG services and an OSS framework — specifically, Microsoft Azure AI Search, Google Vertex AI Search, Amazon Bedrock, and LangChain.
For the verification, all comparison systems used the same dataset that AskDona uses as its RAG data source: 239 Fugaku specialist documents (over 16,000 pages total) across PDF, CSV, and HTML.
The aim was not to tune any one system to the limit, but to fairly compare the baseline performance of different technical approaches. Each comparison system was therefore optimized to a standard yet high-performance state based on the respective provider's recommended settings and widely accepted best practices.
To draw out the best of each system, the following common guidelines were applied to all comparison systems (excluding AskDona dona-rag-2.0 and 2.5):
- Same data source. All systems use the exact same specialist document set as the data source.
- High-performance models. Each platform's top-tier generation model was used; higher-dimensional embedding models were preferred.
- Unified retrieval count (Top-K). All systems retrieved 10 chunks as grounding for generation.
- Standardized chunking. Fixed-length chunking, using each provider's recommended or default settings.
- Reproducibility (temperature). Generation-model temperature set to 0 by default to eliminate response variance.
- Best-effort text extraction. OCR was applied wherever possible.
- Unified system prompt. The same system prompt was used across all systems.
- Vector index. A vector index was built on all systems to maximize retrieval efficiency and accuracy.
Table 4.1 — Construction conditions of the comparison RAG systems
| RAG system | Azure AI Search | Vertex AI Search | Amazon Bedrock | LangChain (OSS) |
|---|---|---|---|---|
| Primary services | Azure AI Search, Azure OpenAI | Vertex AI Search | Bedrock KB, OpenSearch, S3 | FAISS (CPU), OpenAI API |
| Generation model | GPT-4o | Gemini 2.0 Flash | Claude Sonnet 4 | GPT-4o |
| Embedding model | text-embedding-3-large | text-embedding-004 | amazon.titan-embed-text-v2:0 | text-embedding-3-large |
| Vector dimensions | 3072 | 768 | 1024 | 3072 |
| Chunking | Size 2000 chars / overlap 500 | Size 1000 chars / overlap 100 | Size 300 tokens / overlap 20% | Size 1000 chars / overlap 200 |
| Retrieval | Hybrid search | Vector + keyword | Vector | Approximate-NN (FAISS) |
| OCR | Azure AI Vision (Skillset) | Vertex AI Search (built-in) | None (direct ingest from S3) | Tesseract (unstructured) |
4.2 Selection of the Evaluation Question Set
The question set was designed to reflect actual user-query patterns sent to AskDona in the Fugaku Support Site environment — a setting that demands not only factual accuracy but cross-document investigation and specialist reasoning.
Twenty-five questions were selected based on the categories in Table 4.2-1. These include questions that cannot be answered simply by summarizing a single retrieved fact (composite queries that conventional RAG architectures find structurally hard to answer) and questions that contain user input errors.
Table 4.2-1 — Definition of evaluation question categories
| Question category | Definition |
|---|---|
| Information integration (composite query) | A question that cannot be answered from a single source; requires cross-referencing and integrating multi-document information from multiple perspectives and logically reconstructing the answer. |
| High-precision retrieval | A question where many similar pieces of information or error codes exist in the documents and the most relevant piece must be accurately identified. |
| Handling ambiguous / incomplete input | The question contains typos or unclear intent, requiring the system to infer or interpret the user's true requirement. |
| Semantic understanding and inference | Wording used in the question doesn't appear directly in the source documents — the system must identify related information via semantic similarity and context. |
| Accurate presence/absence judgement | Where the data source contains a mix of present and absent topics, the system must correctly identify what isn't there and say so in the answer. |
Figure 4.2-2 shows an example question — about an error message frequently received by the AskDona instance on the Fugaku Support Site. AskDona's initial version (dona-rag-1.0) generates appropriate answers but tends to fall short when the question lacks background or premise. dona-rag-2.0, in contrast, interprets the user's intent from chat history, breaks it into sub-queries, and lets AI agents autonomously and recursively investigate and gather information — delivering more accurate, comprehensive answers.
4.3 Evaluation Approach and Criteria
We considered existing automated RAG evaluation frameworks — for instance RAGAs (Es et al., 2023), which quantifies Faithfulness and Relevance, and RAG-QA Arena (Lee et al., 2024), which scores systems against public QA datasets. These have utility for rapidly assessing standard RAG processes.
For this verification, however, we judged expert human evaluation to be the most appropriate approach. First, AskDona has a proprietary architecture that decomposes queries into sub-queries and lets agents autonomously and recursively explore information — complex behavior that the simpler process assumptions of existing automated frameworks may not fully assess. Second, the “Practical Utility / Helpfulness” needed for real-world deployment is something present automated methods can't easily measure — it includes specialist judgment of how convincing an answer is and how directly it contributes to problem solving.
■ Evaluation process design
To secure objectivity and reliability, we designed a strict evaluation process. Three R-CCS specialists deeply familiar with Fugaku's technology and operations served as evaluators. The six systems evaluated were AskDona (dona-rag-2.0 standard model, dona-rag-2.5 visual-info model), plus the RAG systems built on Microsoft Azure AI Search, Google Cloud Vertex AI Search, Amazon Bedrock, and LangChain (OSS).
The procedure prioritized eliminating evaluation bias. System identity was hidden (blind evaluation), the six answers per question were presented in randomized order, and each evaluator scored independently without seeing the others' results.
■ Evaluation criteria
Each system's answers were scored on the three indicators below, each on a 5-point scale. The indicators borrow from the RAGAs framework but are adapted to this validation.
Accuracy / Factuality. The most critical indicator — does the system generate fact-based answers without hallucination? Encompasses RAGAs' Faithfulness concept.
Completeness / Comprehensiveness. How thoroughly the answer covers the necessary information. Encompasses RAGAs' Contextual Recall and Answer Relevancy concepts.
Practical Utility / Helpfulness. Beyond being correct, does the answer actually help the user solve the problem? Adds, to RAGAs' Answer Relevancy, the specialist's view on persuasiveness, contribution to concrete action, and domain fit (appropriate jargon, logical consistency).
Table 4.3 — Evaluation criteria definitions
| Indicator | 5 points | 3 points | 1 point |
|---|---|---|---|
| Accuracy | All facts correct; no errors or hallucinations. | Some accurate content, but important errors or hallucinations are noticeable. | Most of the answer is inaccurate or hallucinated. |
| Completeness | Necessary information fully covered; every claim traceable to a source. | Some important information missing, or the basis of some claims unclear. | Most of the question is unanswered; information is markedly insufficient. |
| Practical utility | Fully matches the question's intent; persuasive to a specialist; directly helps solve the problem. | Partially useful, but drifts from intent or is somewhat hard to follow. | Doesn't grasp the question's intent; not useful to the user. |
4.4 Answer Accuracy Results
Following the design above, human evaluation was conducted on the six RAG systems (AskDona dona-rag-2.0, dona-rag-2.5, and the four comparison systems) against the 25-question composite-query set.
Scores aggregate the three R-CCS evaluators' 1–5 ratings across the 25 questions for each indicator (Accuracy, Completeness, Practical Utility), normalized to a 100-point scale.
Figure 4.4-1 compares the average score across the three indicators. The four comparison systems scored in a band from the low 50s to the lower 70s, averaging about 61 points overall. AskDona dona-rag-2.0 scored 83 points; dona-rag-2.5 scored 82 points — exceeding the comparison average by more than 20 points.
Figure 4.4-2 breaks the score down by indicator. AskDona (dona-rag-2.0) exceeded every comparison system on every indicator. Against Azure AI Search (Accuracy 66 / Completeness 60 / Utility 58), dona-rag-2.0 led by 18 / 24 / 23 points respectively. Against the strongest comparison — Amazon Bedrock (Accuracy 71 / Completeness 67 / Utility 63) — it led by 13 / 17 / 18 points. The same was true against LangChain and Vertex AI.
While the comparison systems peaked in the lower 70s, both AskDona versions scored in the 80s. This gap suggests that final answer quality depends heavily on the RAG architecture as a whole — not the generation model (LLM) alone.
The Amazon Bedrock case reinforces this: despite using a high-performance LLM, Bedrock was outscored by AskDona on every indicator. To handle composite queries, simply equipping a system with a strong LLM isn't enough — an advanced architecture is needed to fully exploit that LLM's capabilities.
The slight edge of dona-rag-2.0 (text/table extraction only) over dona-rag-2.5 (with visual-info extraction) likely reflects that the 25-question set used in this validation didn't require visual-info content in the data source to answer well.
Overall, this validation demonstrates that, to meet complex real-world requirements, the design of the RAG architecture as a whole is the deciding factor.