Datawhale AI夏令营 - 大模型多模态RAG-赛题理解 | Life is elsewhere.

Life is elsewhere.

Post on: Aug 10, 2025Last edited: Aug 13, 2025Words 820Read Time≈ 3 min

type

status

date

slug

summary

tags

category

icon

password

1. 项目核心目标

打造能理解图文混排信息的智能问答系统，基于给定 pdf 知识库进行可溯源的多模态问答，涉及多模态检索增强生成等前沿技术。

2. 任务背景

多模态信息处理现状：信息多以图文混排形式存在，传统 AI 技术和多数 LLM 处理此类信息存在局限，如传统技术难处理图表信息，LLM 有知识局限性和模态单一性问题。

解决方案：多模态检索增强生成技术可应对上述挑战，让 AI 既能读文字又能懂图片。

3. 任务要求

输入：财报数据库.zip（含多图文混排财报 PDF）、train.json（问答范例）、test.json（评测问题）。

输出：为 test.json 中每个问题预测答案、来源文件名和来源页码，整理成 JSON 文件提交。

数据处理工具：可考虑 pymupdf（基于规则提取数据）和 mineru（基于深度学习模型提取），Task1 以 pymupdf 为例。

4. 赛题难点

多模态信息有效融合：系统需理解跨模态指代和依赖关系，精准召回相关文本和图像信息。

检索准确性与召回率平衡：解决语义模糊性和信息干扰问题，优化检索策略，提高返回结果质量。

答案生成可控性与溯源精确性：约束 LLM 减少幻觉，准确溯源答案关键信息来源。

针对性评估指标优化：建立模拟评分体系的本地验证集，兼顾答案内容与溯源准确性。

5. 参考解题思路

明确核心任务：构建包含 “content” 和 “metadata” 的核心数据结构，将 content 向量化。

技术方案权衡：对比三种多模态实现路径，选择基于图片描述的方案；调研工具栈，选用 Xinference 部署 Embedding 模型。

构建 Baseline 流程：

预处理：用 pymupdf 解析 PDF，构造核心数据结构，将文本转为向量存入向量数据库。
在线推理：问题向量化，在向量数据库检索，用 LLM 生成答案及来源信息。

6. Baseline 方案

方案思路：

离线预处理：用 fitz 解析 PDF 生成结构化 JSON，再用 Xinference 将文本转为向量存入内存向量库。
在线推理：问题向量化后在向量库检索，构建 Prompt 调用 LLM，解析格式化输出结果。

优点：逻辑清晰，符合 RAG 范式；端到端完整，可立即运行；模块化设计，方便替换模块优化。

不足：存在信息损失；上下文可能割裂；检索策略单一。

核心逻辑：通过process_pdfs_to_chunks函数用 PyMuPDF 提取 PDF 每页文本，生成含文本、元数据的 JSON 文件。

Author:Francis
URL:https://deqiang.wang/article/llm-multirag
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Loading...

🗒️大模型逻辑推理

🗒️Datawhale AI夏令营 - 大模型多模态RAG-方案调整

Catalog

0%