type
status
date
slug
summary
tags
category
icon
password
1. 项目核心目标
打造能理解图文混排信息的智能问答系统,基于给定 pdf 知识库进行可溯源的多模态问答,涉及多模态检索增强生成等前沿技术。
2. 任务背景
- 多模态信息处理现状:信息多以图文混排形式存在,传统 AI 技术和多数 LLM 处理此类信息存在局限,如传统技术难处理图表信息,LLM 有知识局限性和模态单一性问题。
- 解决方案:多模态检索增强生成技术可应对上述挑战,让 AI 既能读文字又能懂图片。
3. 任务要求
- 输入:财报数据库.zip(含多图文混排财报 PDF)、train.json(问答范例)、test.json(评测问题)。
- 输出:为 test.json 中每个问题预测答案、来源文件名和来源页码,整理成 JSON 文件提交。
- 数据处理工具:可考虑 pymupdf(基于规则提取数据)和 mineru(基于深度学习模型提取),Task1 以 pymupdf 为例。
4. 赛题难点
- 多模态信息有效融合:系统需理解跨模态指代和依赖关系,精准召回相关文本和图像信息。
- 检索准确性与召回率平衡:解决语义模糊性和信息干扰问题,优化检索策略,提高返回结果质量。
- 答案生成可控性与溯源精确性:约束 LLM 减少幻觉,准确溯源答案关键信息来源。
- 针对性评估指标优化:建立模拟评分体系的本地验证集,兼顾答案内容与溯源准确性。
5. 参考解题思路
- 明确核心任务:构建包含 “content” 和 “metadata” 的核心数据结构,将 content 向量化。
- 技术方案权衡:对比三种多模态实现路径,选择基于图片描述的方案;调研工具栈,选用 Xinference 部署 Embedding 模型。
- 构建 Baseline 流程:
- 预处理:用 pymupdf 解析 PDF,构造核心数据结构,将文本转为向量存入向量数据库。
- 在线推理:问题向量化,在向量数据库检索,用 LLM 生成答案及来源信息。
6. Baseline 方案
- 方案思路:
- 离线预处理:用 fitz 解析 PDF 生成结构化 JSON,再用 Xinference 将文本转为向量存入内存向量库。
- 在线推理:问题向量化后在向量库检索,构建 Prompt 调用 LLM,解析格式化输出结果。
- 优点:逻辑清晰,符合 RAG 范式;端到端完整,可立即运行;模块化设计,方便替换模块优化。
- 不足:存在信息损失;上下文可能割裂;检索策略单一。
- 核心逻辑:通过
process_pdfs_to_chunks
函数用 PyMuPDF 提取 PDF 每页文本,生成含文本、元数据的 JSON 文件。
- Author:Francis
- URL:https://deqiang.wang/article/llm-multirag
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!