Exam2X
基于大模型的智能word试卷解析系统,轻松转换成Excel
无论格式多乱,无惧公式图片,通过大模型理解语义进行智能分拣。
支持本地私有化部署,数据安全可控。
为什么要用 Exam2X?
传统方案痛点重重, Exam2X 为您带来全新体验
传统方案
- 手动复制粘贴 - 耗时耗力,容易出错
- 正则表达式匹配 - 规则复杂,覆盖不全
- 固定模板限制 - 用户体验差,格式要求严
- 图片公式处理困难 - 需手动提取,容易遗漏
- 仅对话模式(web版豆包)对大文档处理不稳定 - 上下文限制,准确度下降
Exam2X
- AI 语义理解 - 无视格式混乱,智能识别
- 全媒体自动还原 - 图片、公式、表格一键转换
- 零格式约束 - 像使用 Word 一样自然
- 智能切片技术 - 栈结构跟踪,重叠段落保证完整性
- 本地私有化 - 支持 Ollama/vLLM,数据不外泄
软件工程优化长文档处理
通过智能切片、栈结构跟踪、重叠段落三大技术,解决长文档的幻觉与结构断裂问题。每个片段保持完整的上下文信息,确保大模型始终如第一次般准确。
智能解析流程(原理)
从 Word 试卷到结构化 Excel,全流程自动化处理
准备 Word
无需提前准备模板,无特殊格式要求
文档预处理
强化用户标记、提取并转化全媒体文件为图片
AI 智能切片
栈结构跟踪标题,重叠段落保证试题完整性
输出 Excel
结构化数据,质量检查,去重合并,完美输出
Pandoc
文档转换引擎,最大化兼容各种多媒体格式(图片、MathType、Visio 等)
Playwright
浏览器自动化,将表格和公式渲染为图片,支持 CDP 无障碍模式
LLM 推理
兼容 Ollama、vLLM、DeepSeek、硅基流动等多种推理平台
核心功能特性
软件工程与 AI 的完美结合,重新定义试卷解析体验
AI 智能分拣
摒弃传统正则表达式,通过大模型理解语义进行试题识别。无论格式多混乱,都能准确提取题干、选项、答案。
全媒体还原
自动提取图片、表格、公式(Office Math/MathType)、Visio 等内容并转换为图片,兼容大部分考试系统。
本地私有化
支持接入Ollama/vLLM 本地推理平台,无数据泄露风险。同时兼容 DeepSeek、硅基流动、阿里云百炼等主流 API。
智能切片技术
栈结构跟踪标题层级,重叠段落保证试题完整性。解决长文档处理中的上下文缺失和结构断裂问题。
智能质量检查
自动检查题型必填字段,识别多余题序和选项标记并进行清理,合并去重确保数据质量。
灵活参数配置
支持自定义切片大小、重叠大小、并发数等参数。图片可选择嵌入 Excel 或单独文件夹存储。
快速开始
三步即可完成配置,开始智能解析之旅
安装环境
1、下载程序压缩包: github 蓝奏云(密码:cfcq)
2、安装依赖,下载地址提供了依赖软件,也可以从官方下载:
安装pandoc时,确保勾选 "Add to PATH" 选项或手动添加到系统环境变量。
配置推理平台
在程序目录下修改 .env 文件:
# API 配置(默认使用硅基流动,只需替换自己的key)
API_BASE=https://api.siliconflow.cn/v1
API_KEY=your_api_key_here
MODEL=Qwen/Qwen3-235B-A22B-Instruct-2507
# 本地 Ollama 配置示例
# API_BASE=http://localhost:11434/v1
# API_KEY=ollama
# MODEL=qwen2.5:7b-instruct-q4_K_M
支持的平台:硅基流动(使用 "邀请链接" 完成注册,可得到14元平台配额福利)、DeepSeek、阿里云百炼、OpenAI、Ollama、vLLM 等
运行程序
在命令行中执行以下命令:
# 基础用法
exam2x.exe input.docx
输出文件将保存在 output/时间戳文件夹 目录下
可选参数
根据需要调整以下参数以获得最佳效果
exam2x.exe input.docx --chunk-size 18000 --overlap-ratio 0.1 --max-concurrent 1
--chunk-size --overlap-ratio --max-concurrent --image-mode --debug, -d --api-base --api-key --model 最佳实践
- 优先使用在线推理平台(硅基流动、Deepseek选择大参数量模型)以获得更好的准确度
- 优先选择 instruct 模型而非 thinking 模型
- 使用小模型(7B、8B)时,应减少切片大小以保证精度
- Ollama 用户建议保持并发参数为 1(顺序执行)
常见问题
解答您的疑问,帮助您更好地使用 Exam2X
使用在线大模型推理平台是否会导致数据泄露?
目前所有大模型在训练完成后,其内部"记忆"无法自我增长、自我进化。用户通过接口输入的提示词不会"内化"到模型的权重内。
调用推理平台的接口目前可以认为就是纯"消费"对方的内部知识,且模型一次对话具有上下文长度限制,超出上下文的内容将会被遗忘。部分平台(如 OpenAI)会提炼用户对话作为"记忆",提供更个性化的服务,但这些数据不会被共享,仅供个人使用。
杀毒软件报毒怎么办?
提示找不到 pandoc 怎么办?
1、确保已安装了 Pandoc 文档转换工具,访问 pandoc.org 下载安装。
2、安装时确保勾选 "Add to PATH" 选项,或手动将 Pandoc 添加到系统环境变量。安装完成后重启命令行窗口即可。
程序运行报错怎么办?
支持哪些大模型?
兼容所有 OpenAI 格式 API 的推理平台,包括但不限于:
- 硅基流动(siliconflow.cn)
- DeepSeek
- 阿里云百炼
- OpenAI
- Ollama(本地部署)
- vLLM(本地部署)
如何选择合适的模型?
- 优先选择 instruct 模型而非 thinking 模型
- 优先考虑安全且 无 GPU 算力时,可尝试本地部署 Ollama + CPU 推理 qwen2.5:7b-instruct-q4_K_M 模型
- 小模型(7B、8B)应减少
--chunk-size参数的值 - Ollama 默认不开启多并发,建议保持
是否考虑开发 web 版本?
本地版本需要安装依赖环境、还需要注册推理平台,对于小白用户确实稍微有点吃力,而 web 版本可以实现一键转换,非常方便,之后会考虑实现。
之所以现在选择本地运行方案还是对于成本的考量,web 版需要采购服务器,更需要准备模型服务,对于这种小众需求,靠流量广告利润是覆盖不住的。目前还是希望通过软件找到有相同需求的用户,大家一起发光发热。