新澳门六合彩开奖公告苹果新 Siri 超等碗知识测试大翻车，准确率仅 34%

发布日期：2024-07-04 22:59:37 点击次数：98

IT之家 1 月 24 日音信，一项针对假造助手 Siri（新版）的测试自满，其在回应超等碗历史关联问题时施展稀奇恶运。测试效果标明，新版 Siri 在 58 届超等碗的冠军包摄问题中，仅正确回应了 20 次，准确率仅为 34%。

IT之家谨防到，这次测试由 One Foot Tsunami 的 Paul Kafasis 盘算推算并实验。他逐个参议新版 Siri 从第一届到第六十届超等碗的冠军得主，并纪录其回应。效果自满，新版 Siri 的施展令东说念主失望，尤其是在某些问题上出现了彰着的极度。举例，新版 Siri 屡次极度地将 33 次超等碗冠军归于费城老鹰队，而骨子上该队历史上仅获取过一次冠军。此外，新版 Siri 的回应中还出现了与问题无关的足球信息，以至在某些情况下提供了极度的超等碗届数信息。

尽管新版 Siri 如实给出了一些一语气准确的谜底，举例正确回应了第五至第七届超等碗的冠军，但其在第十七届至第三十二届超等碗的问题上一语气 15 次回应极度，突显了其的局限性。并且，当被问登科十六届超等碗时，新版 Siri 以至冷落用户向 ChatGPT 寻求谜底，此后者则提供了正确谜底。这一双比进一步流露了新版 Siri 与更先进的 AI 系统之间的差距。

测试在开动 iOS 18.2.1 并启用 Apple Intelligence 的缔造上进行，同期在行将发布的 iOS 18.3 测试版和 macOS 14.7.2 中也发现了同样问题，标明这一问题在苹果多个平台上大宗存在。Kafasis 已将测试效果整理成 Excel 和 PDF 纪律的表格，供公众查阅。

受 Kafasis 测试的启发，Daring Fireball 的 John Gruber 也对新版 Siri 进行了同样的体育问题测试，并将其与 ChatGPT、Kagi、DuckDuckGo 和 Google 的施展进行了对比。效果自满，其他 AI 系统均能正确回应问题，而新版 Siri 则屡屡答错。更恶运的是，Gruber 发现，旧版 Siri（即未启用 Apple Intelligence 的版块）在无法回应问题时，会提供一组网页运动，其中第一个运动经常能提供部分正确谜底。而新版 Siri（启用 Apple Intelligence 并集成 ChatGPT 功能后）的施展却更差，不仅回应极度，并且每次尝试齐会给出不同的极度谜底。

Gruber 对此辩驳说念：“新版 Siri 的回应不仅透顶极度，并且看似合理，这是最恶运的极度边幅。更令东说念主难以置信的是，Siri 在一个如斯受接待的主题上施展得如斯愚蠢。”他还指出，新版 Siri 连一半的超等碗问题齐不可答对。

事实上，Siri 的举座施展永久以来一直备受诟病，Gruber 对其“看似合理但骨子极度”的回应的品评，也反应了刻下 AI 聊天机器东说念主在回应知识性问题时大宗存在的“幻觉”问题 —— 即自信地提供误导性或透顶极度的谜底。

据悉，苹果正在开采一款基于先进大谈话模子（LLM）的更智能版 Siri，展望将使其概况更好地与 ChatGPT 等聊天机器东说念主竞争。更智能版 Siri 可能因循捏续对话，并提供同样于 ChatGPT 或 Claude 的匡助和视力。展望苹果最早会在 2025 年的大众开采者大会（WWDC）上发布 LLM 版 Siri，但真贵上线可能要比及几个月后。这意味着 LLM 版 Siri 将行动 iOS 19 的更新内容推出，iOS 19 展望在 2026 年春季真贵上线。

如果排除这些奖励活动带来的观看人数激增，12月的第二高峰值仅为4.8万人。与此同时，《漫威对决》12月的峰值观看人数达到了27.5万人，即便在没有掉宝时也保持了较高的热度。

新澳门六合彩开奖公告

新澳门六合彩开奖公告 苹果新 Siri 超等碗知识测试大翻车，准确率仅 34%

澳门六合彩

新澳门六合彩开奖公告苹果新 Siri 超等碗知识测试大翻车，准确率仅 34%