记一次智能搜题软件的开发 - 通成线资讯移动站

记一次智能搜题软件的开发

2024-11-07 19:45

很早之前曾经做过一个图片识别的项目，当时有一项功能是整题识别，即传入数学题的截图，可通过ocr技术识别出图片内容，但当时只限于识别文字，并未作更深一步的处理，现在想来实用性并不强，毕竟大家更需要的是解题思路，而不是让AI读出题干（题干的文字，我都认识，连起来我就不知道怎么下手去做了 = = ），最近刚好有时间，于是尝试来为有娃的朋友做一个搜题神器。

鉴于之前整题识别的开发使用有道智云的良好体验，我再次打开其官方文档，果然找到了拍照搜题服务的开放API，轻车熟路地做了一个简单的批量搜题demo, 下面分享一下开发过程。

API接收的参数较为简单：

字段名类型必填备注 q 要识别的图片，需要base64编码必须是base64编码(baes64前边不要加上data:image/png;base64) appKey 应用ID 可在应用管理查看 salt UUID uuid curtime 当前UTC时间戳（秒） TimeStamp sign 签名 sha256(应用ID+input+salt+curtime+应用密钥);input的生成规则见表下的备注 sha256(应用ID+input+salt+curtime+应用密钥) signType 签名类型 v2 type 上传类型，仅支持base64上传，请填写固定值1 1 searchType 搜索类型，img为图片搜题,text为文本搜题 false img

签名生成方法如下：
signType=v2；
sign=sha256(++++)。
其中，input的计算方式为：= + + （当q长度大于20）或 =（当q长度小于等于20）。

需要注意的是，API对题目图片有如下要求：

规则描述传输方式 HTTPS 请求方式 POST 字符编码统一使用UTF-8编码请求格式表单响应格式 JSON 图片格式 jpg/png/bmp 图片大小 1MB以下文字长度 50个字符以下

Demo开发：

这个demo使用python3开发，包括maindow.py，QuestionClass.py，OcrQuestion.py 三个文件，分别为demo的界面、界面逻辑处理和ocr搜题方法的封装。

界面部分：

UI 部分较简单，主要功能为选择待题目图片、选择批改结果存储路径。其布局代码如下：

其中启动按钮btn_sure的绑定事件search_question_files()来根据题目照片搜题，并在完成后打开结果存储路径:

QuestionClass.py

这里主要配合UI的逻辑，调用搜题方法。

首先定义一个类Question:

start_ocr()方法调用connect()方法依次搜题并保存结果。

从OcrQuestion.py的connect方法获取的结果是json格式，save_result_format()方法,解析从接口取得的接口，格式整理，保存结果到html：

OcrQuestion.py

OcrQuestion.py 中封装请求ocr搜题API的方法，其中最主要的方法是connect()：

API响应结果示例