自写的OCR升级到1.1.0版本,大家还想加什么功能?

2026-05-25点滴生活30

本文转载于9090社区,帖子链接:https://qq9090.top/thread-604419-1-1.html

作者: hkgmy    时间: 2026-5-22 13:18
image.jpg (121.16 KB, 下载次数: 0)下载附件2026-5-22 13:16 上传

目前的改进是:

1、加入表格识别功能,包括本地引擎也可以识别表格
2、加入多种识别场景(需要选择),可以识别门头、票据、证件等
3、只能开启1个实例



大家还想加什么功能?
作者: fachman    时间: 2026-5-22 14:12
请问哪里下载?
作者: cdfhv    时间: 2026-5-22 14:31
识别率怎么样?现在AI识别表格错误还是比较多
作者: 大蓝京人    时间: 2026-5-22 15:14
表格这个很好,我来下1.0体验一下

作者: AaronNJ    时间: 2026-5-22 15:14
牛逼
作者: 大蓝京人    时间: 2026-5-22 15:16
弄个悬浮按钮,快捷键记不住
作者: arqi    时间: 2026-5-22 15:17
膜拜
作者: hkgmy    时间: 2026-5-22 15:18
大蓝京人 发表于 2026-5-22 15:16
弄个悬浮按钮,快捷键记不住
悬浮钮,记下了

image.jpg (3.74 KB, 下载次数: 0)下载附件2026-5-22 15:17 上传
任务栏右键,可以截图,是不是能替代?

另外,快捷键可以自定义
作者: bluepolar    时间: 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降

表格识别能解决的话,还有一个需求:按版式识别。这个太复杂,不知道能不能做出来,可以先从简单的版面开始
以前有程序可以自己定义要识别的区域
这样用户后续编辑的时候方便些

作者: bluelectron    时间: 2026-5-22 15:31
厉害,能识别表格很好


作者: hkgmy    时间: 2026-5-22 15:32
bluepolar 发表于 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降
按版式识别。能具体讲讲吗?效果是什么样的 ?
是非矩形区域?
作者: 大蓝京人    时间: 2026-5-22 15:39
bluepolar 发表于 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降
这样的?
image.jpg (66.03 KB, 下载次数: 0)下载附件2026-5-22 15:39 上传
作者: hkgmy    时间: 2026-5-22 15:43
大蓝京人 发表于 2026-5-22 15:39
这样的?
1、标点符号统一成一种,这个可以做到
2、如果是格式换行,这个现在已经有了
3、我还在想,要不要加入格式整理,只能分段落功能,这样书籍扫描的时候,不会出现一大堆的断行
作者: bluepolar    时间: 2026-5-22 15:44
hkgmy 发表于 2026-5-22 15:32
按版式识别。能具体讲讲吗?效果是什么样的 ?
是非矩形区域?
比如说PPT那种有多个区域内容的,很容易被当成按行识别,用户重新排版时的主要麻烦是要从识别结果的不同行把需要的内容复制出来
如果能识别出不同区域(比如:空间距离、字体字号颜色等等有变化),识别结果也用word等按版面排布,那就更省事了
区域可以是规则或不规则,用户可以用鼠标划出区域边界
作者: bluepolar    时间: 2026-5-22 15:46
本帖最后由 bluepolar 于 2026-5-22 15:48 编辑
大蓝京人 发表于 2026-5-22 15:39
这样的?

要实现估计还是有一定难度的,可以由用户来划分区域,一个区域一个区域的识别
现在用在线识别,经常是要把图片自己分成几个部分传上去识别
作者: java    时间: 2026-5-22 15:48
自动识别屏幕上考题 然后送给AI问答
作者: hkgmy    时间: 2026-5-22 15:53
bluepolar 发表于 2026-5-22 15:44
比如说PPT那种有多个区域内容的,很容易被当成按行识别,用户重新排版时的主要麻烦是要从识别结果的不同 ...
大概明白了
按块识别,不同的块不能识别到一行
类似的情况,还有竖排版、左向右排版

容我想想,怎么实现
作者: hkgmy    时间: 2026-5-22 15:57
java 发表于 2026-5-22 15:48
自动识别屏幕上考题 然后送给AI问答
什么情况才会用到这个需求这要实时扫描屏幕
作者: 大母鸡    时间: 2026-5-22 16:01
我以前用的是大漠插件
作者: njxurong    时间: 2026-5-22 16:42
windows用,还是手机app。我下载了,exe点击打不开呀

作者: hkgmy    时间: 2026-5-22 16:50
njxurong 发表于 2026-5-22 16:42
windows用,还是手机app。我下载了,exe点击打不开呀

windows的

无感启动,可能直接隐藏在任务栏里面了,蓝色图标,文字是OC
image.jpg (7.08 KB, 下载次数: 0)下载附件2026-5-22 16:50 上传
作者: lalpha2000    时间: 2026-5-22 16:52
没调用ai模型吧?
作者: laogeda    时间: 2026-5-22 16:52
大母鸡 发表于 2026-5-22 16:01
我以前用的是大漠插件
shareX

作者: pub    时间: 2026-5-22 17:12
设置识别范围,黑白名单,比如数字表格,只允许在数字,半角标点范围,避免 0o  .。 1l   2z

本文转载于9090社区,帖子链接:https://qq9090.top/thread-604419-1-1.html

“自写的OCR升级到1.1.0版本,大家还想加什么功能?” 的相关文章

今天竞猜,就算赢了,也是亏豆子吧?

作者: 英年早肥    时间: 前天 11:31标题: 今天竞猜,就算赢了,也是亏豆子吧?居然到1.07了,交20%的税,还是开赌场赚钱,怎么着都赚作者: ticaq    时间: 前天 11:34丸...

人均GDP超过全国平均值的城市

作者: 铜锣湾打工仔    时间: 前天 09:30标题: 人均GDP超过全国平均值的城市1dbd9dce8ee8e31d4bf8c08c208a26e.jpg (233.56 KB, 下载次数: 1...

关于这两天小红书洋人涌入,让我想到了墙后的公知泛滥

作者: heike2002    时间: 3 天前其实对于东大来说,这也算建墙的弊端之一,  让公知这帮人钻了空子 随意凭空捏造反正你们信息也不对等无法证明我是胡说八道小红书这段时间的出现 ,让公知们...

基本all in 上涨

作者: cavaliercc    时间: 3 天前 本帖最后由 cavaliercc 于 2025-1-16 13:47 编辑   但看这走势有点焦灼,不会到最后庄家通吃吧作者: 风林火山    时...

太无聊了

作者: Stamp    时间: 前天 15:13活的太明白,太无聊作者: wuyue770    时间: 前天 15:14其实这个状态也挺好啊,说明无病无灾 家庭平静作者: 八个鸭卤    时间:...