AI读指针钟表不太行

2025-09-16点滴生活5

本文转载于9090社区,帖子链接:https://yy9090.top/thread-583831-1-1.html

作者: worldly_guest    时间: 2025-9-15 08:47
IT之家 9 月 14 日消息,一项新研究发现,人类读取指针式时钟的准确率可达 89.1%,而目前最优秀的人工智能(AI)模型准确率仅为 13.3%,该结果凸显出当前语言模型在视觉推理能力方面与人类存在巨大差距。

1.jpeg (87.88 KB, 下载次数: 0)下载附件2025-9-15 08:47 上传

阿莱克・萨法尔(Alek Safar)采用名为“ClockBench”的全新测试,让来自 6 家企业的 11 个大型语言模型与 5 名人类展开正面较量。该基准测试包含 180 个定制的指针式时钟及 720 道测试题,遵循“人类易上手、AI 难突破”的设计思路,这一思路在 ARC-AGI、SimpleBench 等基准测试中也有所体现。
为确保公平性并避免与模型训练数据重叠,萨法尔从零开始构建了该数据集。数据集包含 36 种独特的钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素。每种设计他都制作了 5 个不同的时钟,总共有 180 个时钟。
每个时钟均通过四类问题进行测试:读取时间、时间计算、按特定角度调整指针,以及时区转换。萨法尔根据时钟类型设置了不同的误差允许范围,例如,仅含时针的时钟比同时具备时针、分针、秒针的时钟误差容忍度更高。
萨法尔表示,相较于“人类终极测试”(Humanity's Last Exam)这类侧重知识储备的测试,ClockBench 对 AI 模型的难度更高。测试结果表明,即便面对看似简单的视觉任务,AI 与人类的差距仍十分显著。
谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的准确率位居榜首,Gemini 2.5 Flash 紧随其后,准确率为 10.5%。GPT-5 排名第三,准确率 8.4%,且调整模型的推理预算对提升准确率效果甚微。

2.jpeg (26.9 KB, 下载次数: 0)下载附件2025-9-15 08:47 上传


Grok 4 模型表现垫底,准确率仅 0.7%,这一结果颇为出人意料,因为该模型在其他基准测试中常常表现出色。Grok 4 将 63.3% 的时钟判定为“无效”,但实际上 180 个时钟中仅 37 个显示的是“不可能时间”。这种极度谨慎的方式意味着,从技术层面来讲,Grok 4 的正确答案数量最多,但这只是通过随机将时钟标记为无效实现的。
Anthropic 公司的 Claude 4 Sonnet(准确率 4.2%)与 Claude 4.1 Opus(准确率 5.6%)表现同样不佳。研究还发现,61.7% 的时钟未能被任何一个 AI 模型正确读取。
相较于准确率,误差的严重程度更能反映问题本质。人类读取时间的中位误差仅为 3 分钟,而表现最佳的 AI 模型中位误差达 1 小时,性能最差的 AI 模型误差约为 3 小时,对于 12 小时制时钟而言,这几乎和随机猜测差不多。

3.jpeg (66.23 KB, 下载次数: 0)下载附件2025-9-15 08:47 上传


IT之家注意到,部分钟面特征对 AI 而言难度极高:当钟面采用罗马数字时,AI 准确率降至 3.2%;采用圆形数字时,准确率仅为 4.5%。此外,秒针、彩色背景及镜像布局也会对 AI 的判断造成干扰。
仅含时针的时钟对 AI 而言相对容易(准确率 23.6%),这得益于其更高的误差容忍度。采用阿拉伯数字和基础表盘的标准时钟,也能让 AI 取得相对更好的成绩。

4.jpeg (142.71 KB, 下载次数: 0)下载附件2025-9-15 08:47 上传

测试还获得了一个意外发现:当 AI 模型成功读取时间后,它们在时间计算、指针调整或时区转换任务中几乎都能得出正确结果。这意味着,AI 面临的挑战并非“进行时间相关的数学运算”,而是“从视觉信息中读取时间”这一初始步骤。
萨法尔认为,背后原因可能有三点:其一,读取指针式时钟对视觉推理能力是一项严峻考验;其二,罕见或特殊的钟面设计在训练数据中出现频率极低;其三,将钟面视觉信息转化为文字描述,对当前 AI 模型而言很可能是一项难题。
ClockBench 被定位为一项长期基准测试。其完整数据集目前处于保密状态,以避免污染未来 AI 的训练过程,但已有一个规模较小的公开版本可供测试使用。
尽管 AI 在该测试中的得分普遍较低,萨法尔仍看到了希望:性能最佳的模型表现优于随机猜测,且展现出基础的视觉推理能力。不过,这些能力能否通过“扩大现有方法规模”得到提升,还是需要全新技术路径来突破,目前仍是一个待解的问题。
一年前,中国一项研究也曾发现多模态语言模型存在类似的能力短板,但当时的结果要好得多。彼时,GPT-4o 模型在包含“读时钟、读仪表”的仪表盘任务中,准确率达到 54.8%。而此次 ClockBench 测试中,AI 的最高准确率仅为 13.3%,这一差距既表明新基准测试难度显著提升,也反映出 AI 的时钟读取能力并未取得明显进步。

作者: yanxin    时间: 2025-9-15 08:51
现在的所谓人工智能大都基于大语言模型,做图像识别需要别的组件转换,如果不能有效识别指针图像,那不过是转换组件如何转换成大语言模型可以用的数据上有问题
作者: 602032119    时间: 2025-9-15 09:00
AI只是个工具,使用之前要训练的,读的不准说明作者就读的不准,明显训练的人有问题
作者: qtom    时间: 2025-9-15 09:02
钟表问题也是小学生遇到的难题之一,更别说现在视觉识别能力只是相当于人类幼儿水平的AI了
作者: worldly_guest    时间: 2025-9-15 09:30
把图发给DS问了下,也不行,只认出六个钟面,时间也不对:

1.jpeg (87.88 KB, 下载次数: 0)下载附件2025-9-15 09:29 上传

要确定钟表的时间,需识别‌时针(短针)‌和‌分针(长针)‌的位置,结合钟表刻度(12小时制或24小时制)判断:

1. 第一行左钟表
时针接近 ‌10‌,分针指向 ‌6‌(对应30分钟)。
时间:‌10:30‌
2. 第一行中钟表
时针接近 ‌10‌,分针指向 ‌6‌(对应30分钟)。
时间:‌10:30‌
3. 第一行右钟表(24小时制)
时针接近 ‌19‌(对应下午7点),分针指向 ‌6‌(对应30分钟)。
时间:‌19:30‌(或下午7:30)
4. 第二行左钟表
时针接近 ‌9‌,分针指向 ‌8‌(对应40分钟)。
时间:‌9:40‌
5. 第二行中钟表
时针接近 ‌10‌,分针指向 ‌1‌(对应5分钟)。
时间:‌10:05‌
6. 第二行右钟表(24小时制)
时针接近 ‌11‌,分针指向 ‌1‌(对应5分钟)。
时间:‌11:05‌(或上午11:05)
总结各钟表时间
10:30
10:30
19:30(或下午7:30)
9:40
10:05
11:05(或上午11:05)
作者: worldly_guest    时间: 2025-9-15 09:31
另,发给百度AI,装死,根本不回答!
作者: 一叶知秋叶原    时间: 2025-9-15 09:38

问题很大啊


360截图20250915093733471.jpg (194.98 KB, 下载次数: 0)下载附件2025-9-15 09:37 上传
作者: worldly_guest    时间: 2025-9-15 09:43
一叶知秋叶原 发表于 2025-9-15 09:38
问题很大啊
这个图也不太符合实际,按图上面刻度大概在12.5左右,看下刻度精确值应是12.2
作者: 一叶知秋叶原    时间: 2025-9-15 09:45
worldly_guest 发表于 2025-9-15 09:43
这个图也不太符合实际,按图上面刻度大概在12.5左右,看下刻度精确值应是12.2 ...
呵呵

你也不会


作者: worldly_guest    时间: 2025-9-15 09:52
一叶知秋叶原 发表于 2025-9-15 09:45
呵呵

你也不会
那您说这两个各是多少:

0.jpg (168.89 KB, 下载次数: 0)下载附件2025-9-15 09:52 上传


1.jpg (139.7 KB, 下载次数: 0)下载附件2025-9-15 09:52 上传
作者: 一叶知秋叶原    时间: 2025-9-15 09:56
worldly_guest 发表于 2025-9-15 09:52
那您说这两个各是多少:

首先告诉你,我上面发的图,读数是16.2mm


另外,你这图拍得不清楚,看起来好几条线都是对齐的


360截图20250915095501036.jpg (49.32 KB, 下载次数: 0)下载附件2025-9-15 09:56 上传



作者: worldly_guest    时间: 2025-9-15 10:00
一叶知秋叶原 发表于 2025-9-15 09:56
首先告诉你,我上面发的图,读数是16.2mm
对,是16.2,把那个边线看成标线了!不好意思

本文转载于9090社区,帖子链接:https://yy9090.top/thread-583831-1-1.html

“AI读指针钟表不太行” 的相关文章

199的电信套餐下个月到期了。。。现在有啥便宜点的不。。

作者: Lautumn    时间: 2025-1-7 11:13标题: 199的电信套餐下个月到期了。。。现在有啥便宜点的不。。我要求不高啊,只想要个稳定的宽带,300M500M都够,因为我就是看剧...

最近路上乱开的人越来越多了

作者: 为梦燃烧    时间: 前天 18:29行人直接穿红灯过马路,看都不看,直接在你车子前面就走过去;电瓶车各种穿红灯还逆行,经常在左侧盲区里出现电瓶车;汽车在路上各种不打灯乱变道。哎~~~最近突...

真假?银行贷款这也不准那也不准?

作者: 守法良民    时间: 4 天前1000025248.jpg (93.22 KB, 下载次数: 0)下载附件4 天前 上传这咋整,连本人名下转账都不可以?会有监控吗?作者: 城南浮云    时...

顺势减了三层仓

作者: 大母鸡    时间: 3 天前Screenshot_2025-01-15-14-54-08-204-edit_com.hundsun.stockwinner.gszq.jpg (48.79 K...

降低低密度脂蛋白的方法有哪些

作者: honey2004    时间: 昨天 11:18适量吃红肉居然也有用。作者: 笨熊    时间: 昨天 11:20多运动,多补充优质蛋白质作者: 委座    时间: 昨天 11:41没啥用,...