“合合信息”智能文字识别技术破解传统OCR应用难题
导读:在日前举行的2022中国图像图形大会《ocr前沿技术与产业应用》论坛上,大数据企业合合信息公司自然语言算法研发总监丁凯博士介绍的该公司智能文字识别及图像处理技术,被参加论坛的中科院、北京大学、联想研究院等顶尖科研机构的专家,一致认为是破解难题的“钥匙”。
如何运用先进的智能文字识别技术,破解传统ocr(文字识别技术)应用难题?
在日前举行的2022中国图像图形大会《ocr前沿技术与产业应用》论坛上,大数据企业合合信息公司自然语言算法研发总监丁凯博士介绍的该公司智能文字识别及图像处理技术,被参加论坛的中科院、北京大学、联想研究院等顶尖科研机构的专家,一致认为是破解难题的“钥匙”。
丁凯介绍,尽管ocr技术已经过一个世纪的发展,但现今仍存在文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等亟待解决的问题。ocr技术的进阶路上,文档图像质量的增强是重要的研究方向,需克服页面弯曲、阴影遮挡、摩尔纹、图片模糊等现代文本图像处理中常见的干扰状况。
而合合信息公司智能文字识别及图像处理技术,通过引入ai(人工智能)技术,能够帮助各应用领域简化下游文档处理任务,提升文字识别效率与准确性。
丁凯以弯曲矫正为例,向参加论坛的专家介绍了基于文本行线拟合和坐标变换、基于文本行线优化矫正的方法原理和优缺点。对于这些缺陷,合合信息公司采用的基于位移场网络学习的方法的系统架构,可有效解决多种弯曲文档图像的矫正问题。
同时,为了更好地解决不同业务中存在的文档版式繁杂、训练样本匮乏、模型定制化调优周期长且效率低的问题,合合信息公司推出了textin studio智能文字识别训练平台,可将底层资源、数据、模型训练、集成部署和服务管理应用多个模块整合在一起,针对性解决各项问题,建立业务流程之间的闭环,实现模型自动化训练和部署。
据悉,textin studio生产出了大量不同场景的文档数字化模型,涉及近百种文档图像预处理、文字识别与理解、文档格式转换等方面的服务,较为全面地覆盖了企业和个人工作生活相关的文档类型。目前,合合信息公司通过textin小程序发起了针对高校研究者群体需求发起的限时体验活动,即高校的老师和学生注册并绑定带有“edu”后缀的教育邮箱后,每人一年可免费获得100万次的ocr服务。
此外,在今年中国图像图形大会上,还举行了第三届csig图像图形挑战赛总决赛颁奖仪式。csig图像图形挑战赛旨在促进我国图像图形技术及相关产业的发展和应用,解决企业面临的技术难题,帮助企业引入更多的优秀人才。
由合合信息公司与相关高校及企业生态伙伴组成的参赛队伍,凭借在视觉关键信息理解层面的算法优势与多语言票据识别场景的实践沉淀,不仅获得“中英文购物小票信息理解赛道”单项冠军,还通过终轮现场比拼,荣获了csig图像图形技术挑战赛总冠军。