告别手动复制,告别固定模版,AI 完美还原试卷

Exam2X

基于大模型的智能word试卷解析系统,轻松转换成Excel

无论格式多乱,无惧公式图片,通过大模型理解语义进行智能分拣。 支持本地私有化部署,数据安全可控。

AI 智能分拣 全媒体还原(图片、表格、visio、mathtype、office公式) 本地私有化

为什么要用 Exam2X?

传统方案痛点重重, Exam2X 为您带来全新体验

传统方案

  • 手动复制粘贴 - 耗时耗力,容易出错
  • 正则表达式匹配 - 规则复杂,覆盖不全
  • 固定模板限制 - 用户体验差,格式要求严
  • 图片公式处理困难 - 需手动提取,容易遗漏
  • 仅对话模式(web版豆包)对大文档处理不稳定 - 上下文限制,准确度下降

Exam2X

  • AI 语义理解 - 无视格式混乱,智能识别
  • 全媒体自动还原 - 图片、公式、表格一键转换
  • 零格式约束 - 像使用 Word 一样自然
  • 智能切片技术 - 栈结构跟踪,重叠段落保证完整性
  • 本地私有化 - 支持 Ollama/vLLM,数据不外泄

软件工程优化长文档处理

通过智能切片、栈结构跟踪、重叠段落三大技术,解决长文档的幻觉与结构断裂问题。每个片段保持完整的上下文信息,确保大模型始终如第一次般准确。

智能解析流程(原理)

从 Word 试卷到结构化 Excel,全流程自动化处理

1

准备 Word

无需提前准备模板,无特殊格式要求

2

文档预处理

强化用户标记、提取并转化全媒体文件为图片

3

AI 智能切片

栈结构跟踪标题,重叠段落保证试题完整性

4

输出 Excel

结构化数据,质量检查,去重合并,完美输出

Pandoc

文档转换引擎,最大化兼容各种多媒体格式(图片、MathType、Visio 等)

Playwright

浏览器自动化,将表格和公式渲染为图片,支持 CDP 无障碍模式

LLM 推理

兼容 Ollama、vLLM、DeepSeek、硅基流动等多种推理平台

核心功能特性

软件工程与 AI 的完美结合,重新定义试卷解析体验

AI 智能分拣

摒弃传统正则表达式,通过大模型理解语义进行试题识别。无论格式多混乱,都能准确提取题干、选项、答案。

全媒体还原

自动提取图片、表格、公式(Office Math/MathType)、Visio 等内容并转换为图片,兼容大部分考试系统。

本地私有化

支持接入Ollama/vLLM 本地推理平台,无数据泄露风险。同时兼容 DeepSeek、硅基流动、阿里云百炼等主流 API。

智能切片技术

栈结构跟踪标题层级,重叠段落保证试题完整性。解决长文档处理中的上下文缺失和结构断裂问题。

智能质量检查

自动检查题型必填字段,识别多余题序和选项标记并进行清理,合并去重确保数据质量。

灵活参数配置

支持自定义切片大小、重叠大小、并发数等参数。图片可选择嵌入 Excel 或单独文件夹存储。

快速开始

三步即可完成配置,开始智能解析之旅

1

安装环境

1、下载程序压缩包: github 蓝奏云(密码:cfcq)

2、安装依赖,下载地址提供了依赖软件,也可以从官方下载:

安装pandoc时,确保勾选 "Add to PATH" 选项或手动添加到系统环境变量。

2

配置推理平台

在程序目录下修改 .env 文件:

              
                # API 配置(默认使用硅基流动,只需替换自己的key)
                API_BASE=https://api.siliconflow.cn/v1
                API_KEY=your_api_key_here
                MODEL=Qwen/Qwen3-235B-A22B-Instruct-2507
                
                # 本地 Ollama 配置示例
                # API_BASE=http://localhost:11434/v1
                # API_KEY=ollama
                # MODEL=qwen2.5:7b-instruct-q4_K_M
              
              

支持的平台:硅基流动(使用 "邀请链接" 完成注册,可得到14元平台配额福利)、DeepSeek、阿里云百炼、OpenAI、Ollama、vLLM 等

3

运行程序

在命令行中执行以下命令:

              
                # 基础用法
                exam2x.exe input.docx
            

输出文件将保存在 output/时间戳文件夹 目录下

可选参数

根据需要调整以下参数以获得最佳效果

示例命令
          
          exam2x.exe input.docx --chunk-size 18000 --overlap-ratio 0.1 --max-concurrent 1
        
--chunk-size
切片大小 默认: 18000
--overlap-ratio
重叠比例 默认: 0.1
--max-concurrent
最大并发数 默认: 1
--image-mode
图片模式 embed(嵌入)/reference
--debug, -d
调试模式 输出详细日志
--api-base
API 地址 覆盖默认地址
--api-key
API密钥 覆盖默认密钥
--model
模型名称 覆盖模型名称

最佳实践

  • 优先使用在线推理平台(硅基流动、Deepseek选择大参数量模型)以获得更好的准确度
  • 优先选择 instruct 模型而非 thinking 模型
  • 使用小模型(7B、8B)时,应减少切片大小以保证精度
  • Ollama 用户建议保持并发参数为 1(顺序执行)

常见问题

解答您的疑问,帮助您更好地使用 Exam2X

使用在线大模型推理平台是否会导致数据泄露?

目前所有大模型在训练完成后,其内部"记忆"无法自我增长、自我进化。用户通过接口输入的提示词不会"内化"到模型的权重内。

调用推理平台的接口目前可以认为就是纯"消费"对方的内部知识,且模型一次对话具有上下文长度限制,超出上下文的内容将会被遗忘。部分平台(如 OpenAI)会提炼用户对话作为"记忆",提供更个性化的服务,但这些数据不会被共享,仅供个人使用。

杀毒软件报毒怎么办?
exe 程序可能会被杀毒软件误报,添加信任即可。我们保证程序无毒、无害。
提示找不到 pandoc 怎么办?

1、确保已安装了 Pandoc 文档转换工具,访问 pandoc.org 下载安装。

2、安装时确保勾选 "Add to PATH" 选项,或手动将 Pandoc 添加到系统环境变量。安装完成后重启命令行窗口即可。

程序运行报错怎么办?
使用 --debug 或 -d 参数查看详细错误信息,根据错误提示进行相应排查。
支持哪些大模型?

兼容所有 OpenAI 格式 API 的推理平台,包括但不限于:

  • 硅基流动(siliconflow.cn)
  • DeepSeek
  • 阿里云百炼
  • OpenAI
  • Ollama(本地部署)
  • vLLM(本地部署)
如何选择合适的模型?
  • 优先选择 instruct 模型而非 thinking 模型
  • 优先考虑安全且 无 GPU 算力时,可尝试本地部署 Ollama + CPU 推理 qwen2.5:7b-instruct-q4_K_M 模型
  • 小模型(7B、8B)应减少 --chunk-size 参数的值
  • Ollama 默认不开启多并发,建议保持
是否考虑开发 web 版本?

本地版本需要安装依赖环境、还需要注册推理平台,对于小白用户确实稍微有点吃力,而 web 版本可以实现一键转换,非常方便,之后会考虑实现。

之所以现在选择本地运行方案还是对于成本的考量,web 版需要采购服务器,更需要准备模型服务,对于这种小众需求,靠流量广告利润是覆盖不住的。目前还是希望通过软件找到有相同需求的用户,大家一起发光发热。

还有疑问?

如有问题或建议,欢迎通过微信或邮件联系

WeChat: Gadd9-Chord Email: 565789229@qq.com