新澳门六合彩开奖公告 苹果新 Siri 超等碗知识测试大翻车,准确率仅 34%
发布日期:2024-07-04 22:59:37 点击次数:96
IT之家 1 月 24 日音信,一项针对假造助手 Siri(新版)的测试自满,其在回应超等碗历史关联问题时施展稀奇恶运。测试效果标明,新版 Siri 在 58 届超等碗的冠军包摄问题中,仅正确回应了 20 次,准确率仅为 34%。

IT之家谨防到,这次测试由 One Foot Tsunami 的 Paul Kafasis 盘算推算并实验。他逐个参议新版 Siri 从第一届到第六十届超等碗的冠军得主,并纪录其回应。效果自满,新版 Siri 的施展令东说念主失望,尤其是在某些问题上出现了彰着的极度。举例,新版 Siri 屡次极度地将 33 次超等碗冠军归于费城老鹰队,而骨子上该队历史上仅获取过一次冠军。此外,新版 Siri 的回应中还出现了与问题无关的足球信息,以至在某些情况下提供了极度的超等碗届数信息。
尽管新版 Siri 如实给出了一些一语气准确的谜底,举例正确回应了第五至第七届超等碗的冠军,但其在第十七届至第三十二届超等碗的问题上一语气 15 次回应极度,突显了其的局限性。并且,当被问登科十六届超等碗时,新版 Siri 以至冷落用户向 ChatGPT 寻求谜底,此后者则提供了正确谜底。这一双比进一步流露了新版 Siri 与更先进的 AI 系统之间的差距。
测试在开动 iOS 18.2.1 并启用 Apple Intelligence 的缔造上进行,同期在行将发布的 iOS 18.3 测试版和 macOS 14.7.2 中也发现了同样问题,标明这一问题在苹果多个平台上大宗存在。Kafasis 已将测试效果整理成 Excel 和 PDF 纪律的表格,供公众查阅。
受 Kafasis 测试的启发,Daring Fireball 的 John Gruber 也对新版 Siri 进行了同样的体育问题测试,并将其与 ChatGPT、Kagi、DuckDuckGo 和 Google 的施展进行了对比。效果自满,其他 AI 系统均能正确回应问题,而新版 Siri 则屡屡答错。更恶运的是,Gruber 发现,旧版 Siri(即未启用 Apple Intelligence 的版块)在无法回应问题时,会提供一组网页运动,其中第一个运动经常能提供部分正确谜底。而新版 Siri(启用 Apple Intelligence 并集成 ChatGPT 功能后)的施展却更差,不仅回应极度,并且每次尝试齐会给出不同的极度谜底。
Gruber 对此辩驳说念:“新版 Siri 的回应不仅透顶极度,并且看似合理,这是最恶运的极度边幅。更令东说念主难以置信的是,Siri 在一个如斯受接待的主题上施展得如斯愚蠢。”他还指出,新版 Siri 连一半的超等碗问题齐不可答对。
事实上,Siri 的举座施展永久以来一直备受诟病,Gruber 对其“看似合理但骨子极度”的回应的品评,也反应了刻下 AI 聊天机器东说念主在回应知识性问题时大宗存在的“幻觉”问题 —— 即自信地提供误导性或透顶极度的谜底。
据悉,苹果正在开采一款基于先进大谈话模子(LLM)的更智能版 Siri,展望将使其概况更好地与 ChatGPT 等聊天机器东说念主竞争。更智能版 Siri 可能因循捏续对话,并提供同样于 ChatGPT 或 Claude 的匡助和视力。展望苹果最早会在 2025 年的大众开采者大会(WWDC)上发布 LLM 版 Siri,但真贵上线可能要比及几个月后。这意味着 LLM 版 Siri 将行动 iOS 19 的更新内容推出,iOS 19 展望在 2026 年春季真贵上线。
如果排除这些奖励活动带来的观看人数激增,12月的第二高峰值仅为4.8万人。与此同时,《漫威对决》12月的峰值观看人数达到了27.5万人,即便在没有掉宝时也保持了较高的热度。