Post on: Aug 10, 2025Last edited: Aug 13, 2025Words 820Read Time 3 min

type
status
date
slug
summary
tags
category
icon
password

1. 项目核心目标

打造能理解图文混排信息的智能问答系统,基于给定 pdf 知识库进行可溯源的多模态问答,涉及多模态检索增强生成等前沿技术。

2. 任务背景

  • 多模态信息处理现状:信息多以图文混排形式存在,传统 AI 技术和多数 LLM 处理此类信息存在局限,如传统技术难处理图表信息,LLM 有知识局限性和模态单一性问题。
  • 解决方案:多模态检索增强生成技术可应对上述挑战,让 AI 既能读文字又能懂图片。

3. 任务要求

  • 输入:财报数据库.zip(含多图文混排财报 PDF)、train.json(问答范例)、test.json(评测问题)。
  • 输出:为 test.json 中每个问题预测答案、来源文件名和来源页码,整理成 JSON 文件提交。
  • 数据处理工具:可考虑 pymupdf(基于规则提取数据)和 mineru(基于深度学习模型提取),Task1 以 pymupdf 为例。

4. 赛题难点

  • 多模态信息有效融合:系统需理解跨模态指代和依赖关系,精准召回相关文本和图像信息。
  • 检索准确性与召回率平衡:解决语义模糊性和信息干扰问题,优化检索策略,提高返回结果质量。
  • 答案生成可控性与溯源精确性:约束 LLM 减少幻觉,准确溯源答案关键信息来源。
  • 针对性评估指标优化:建立模拟评分体系的本地验证集,兼顾答案内容与溯源准确性。

5. 参考解题思路

  • 明确核心任务:构建包含 “content” 和 “metadata” 的核心数据结构,将 content 向量化。
  • 技术方案权衡:对比三种多模态实现路径,选择基于图片描述的方案;调研工具栈,选用 Xinference 部署 Embedding 模型。
  • 构建 Baseline 流程
    • 预处理:用 pymupdf 解析 PDF,构造核心数据结构,将文本转为向量存入向量数据库。
    • 在线推理:问题向量化,在向量数据库检索,用 LLM 生成答案及来源信息。

6. Baseline 方案

  • 方案思路
    • 离线预处理:用 fitz 解析 PDF 生成结构化 JSON,再用 Xinference 将文本转为向量存入内存向量库。
    • 在线推理:问题向量化后在向量库检索,构建 Prompt 调用 LLM,解析格式化输出结果。
  • 优点:逻辑清晰,符合 RAG 范式;端到端完整,可立即运行;模块化设计,方便替换模块优化。
  • 不足:存在信息损失;上下文可能割裂;检索策略单一。
  • 核心逻辑:通过process_pdfs_to_chunks函数用 PyMuPDF 提取 PDF 每页文本,生成含文本、元数据的 JSON 文件。
 

Loading...
大模型逻辑推理

🗒️大模型逻辑推理


Datawhale AI夏令营 - 大模型多模态RAG-方案调整

🗒️Datawhale AI夏令营 - 大模型多模态RAG-方案调整