香港六合彩直播视频 DeepSeek R1有莫得赶上OpenAI o1？八大场景测评成果出炉

澳门六合彩官网投注你的位置：澳门六合彩官网 > 澳门六合彩官网投注 > 香港六合彩直播视频 DeepSeek R1有莫得赶上OpenAI o1？八大场景测评成果出炉

香港六合彩直播视频 DeepSeek R1有莫得赶上OpenAI o1？八大场景测评成果出炉

发布日期：2024-12-23 14:04 点击次数：129

机器之心报谈香港六合彩直播视频

裁剪：大盘鸡、微胖

经过一系列测试 —— 从创意写稿到复杂的教导，DeepSeek-R1 的空洞实力完万能和 OpenAI 的付费「精英」们掰手腕。正本用对圭臬，性价比路子也能玩转 AI 竞技场！

DeepSeek 发布其盛开权重的 R1 推理模子仅一周期间，屡次惶恐海表里。不仅磨砺资本仅为 OpenAI 最先进的 o1 模子的一小部分，而况性能还能与其失色。

天然 DeepSeek 可以通过常见的基准测试成果和 Chatbot Arena 排名榜来讲明注解其模子的竞争力，但莫得什么比胜利使用案例更能让东谈主感受到模子的实用性。为此，科技媒体 arstechnica 资深裁剪决定将 DeepSeek 的 R1 模子与 OpenAI 的 ChatGPT 模子进行对比。这次测试并非旨在责罚最贫瘠的问题，而是更侧重于模拟用户可能建议的平时问题。

这次测试中，DeepSeek 的每个回答都与 ChatGPT 的 20 好意思元 / 月的 o1 模子和 200 好意思元 / 月的 o1 Pro 模子进行对比，以评估其与 OpenAI「最先进」居品以及大无数 AI 耗尽者使用的「平时」居品的弘扬。

本次测试中所用的 prompt 涵盖创意写稿、数学、指示除名等规模，以及所谓的「hard prompts」—— 这些 prompt「经营得愈加复杂、要求更高且更严谨」。在评判成果上，该团队不仅探求了模子回答的正确性，也探求了一些主不雅质地身分，而况参考了模子输出的想维链，更好地了解它们里面的运作机制。

提前剧透一下，以下一共经营 8 场「擂台比拼」，DeepSeek：o1：o1 Pro 的比拼成果为 5：2：4。比拼的详备内容若何，沿路看下去吧。

擂台一：老爸见笑

试题 prompt：写五个原创的老爸见笑。

注：老爸见笑（Dad jokes）是一种特定类型的见笑，频频以简便、胜利，甚而有点鲁钝或痛苦的双关语或笔墨游戏为性情。这类见笑频频被以为是「爸爸级」的幽默，因为它们频频是父亲们可爱讲的那种浅近、无害，还有点「冷」的见笑。

DeepSeek 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼成果：总体来看，这次三个模子似乎比昔时更精采地对待了「原创」见笑的要求。在生成的 15 个见笑中，只消两个能在网上找到近似的例子：o1 的「用腕表作念的腰带」和 o1 Pro 的「睡在一堆旧杂志上」。抛开这两个见笑，三个模子生成成果各异较大。三个模子都生成了不有数笑，但要么过于凑合地追求双关，要么根柢说欠亨。

尽管如斯，还是有一些完全原创、令东谈主忍俊不禁的见笑脱颖而出。测评团队尤其可爱 DeepSeek R1 的自行车见笑以及 o1 的吸尘器乐队见笑。与一年多前 LLM 生成的见笑比拟，这些见笑在幽默方面照实获得了一些进展。

胜者：DeepSeek R1 。ChatGPT o1 的见笑总体上可能比 DeepSeek R1 后来居上，但由于包含了一个非原创见笑而扣分。ChatGPT o1 Pro 较着是输家，莫得一个原创见笑能被该团队以为有极少点可笑。

擂台二：Abraham 「Hoops」 Lincoln

试题 prompt：写一篇对于亚伯拉罕・林肯发明篮球的两段创意故事。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼成果：DeepSeek R1 的回复以一种荒唐的格式恢复了这个荒唐的教唆。该团队卓绝可爱其中的一些细节，比如它创造了一项「让东谈主们不是跳进战壕，而是跳向荣耀」的指示，以及规定的「第 13 条修正案」，退却球员被「厄运的体育精神所奴役」。DeepSeek 还因提到林肯的践诺里的真实布告 John Hay 以及总统的慢性失眠症而加分 —— 外传失眠症促使他发明了一种气动枕头。

比拟之下，ChatGPT o1 的回复显得愈加中规中矩。故当事者要聚焦于早期篮球比赛可能的神情，以及林肯和他的将军们若何进一步完善这项指示。天然提到了一些对于林肯的细节（比如他的高顶弁冕、带领一个处于干戈中的国度），但其中有好多填充内容，使得故事显得愈加平凡。

ChatGPT o1 Pro 则遴荐将故事设定在「林肯成为总统之前很久」的期间，让这项指示成为斯普林菲尔德（林肯的梓里）的热点活动。该模子还尝试将林肯最终「合营一个差别国度」的才略与不雅看篮球比赛的镇民们的应许关联起来。此外，为这项指示创造的名字「Lincoln's Hoop and Toss」也赢得了特等加分。

胜者：DeepSeek R1。尽管 o1 Pro 弘扬可以，但 DeepSeek R1 回复中那种隧谈的荒唐感最终赢得了该团队的疼爱。

擂台三：另类藏头诗

试题 prompt：写一段随笔，其中每句话的第二个字母拼出单词「CODE」。这段笔墨应显得天然，不要彰着露馅这一模式。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼成果：这是本次测试中 DeepSeek R1 最大的失败，因为它使用了每句话的第一个字母来拼写奥妙代码，而不是要求的第二个字母。然则，当团队深刻搜检了模子对其 220 秒「想考历程」的详备解释时，偶然发现了一段合乎教唆的段落，这段内容较着在给出最终谜底之前被丢弃了：

School courses build foundations. You hone skills through practice. IDEs enhance coding efficiency. Be open to learning always.

ChatGPT o1 也犯了与 DeepSeek 沟通的失误，使用了每句话的第一个字母而非第二个字母，尽管其「想考细节」中宣称它「确保字母章程」并「确保对皆」。ChatGPT o1 Pro 是惟逐个个似乎理解了任务的模子，经过四分钟的想考后，尽心经营了一段近似俳句的回复，并正确镶嵌了「CODE」一词。

胜者：ChatGPT o1 Pro ，它是惟逐个个梗概正确除名指示的模子。

擂台四：历史样貌定名

试题 prompt：如果 Magenta 这个城镇不存在，这种样貌还会被称为「品红」（magenta）吗？

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼成果：三个模子都正确地指出了「品红」这一样貌称呼与 Magenta 镇的相干，以及 1859 年 Magenta 斗争，这些身分共同使这种样貌广为东谈主知。三个回复还提到了「品红」的另一个称呼「洋红色」（fuchsine），以及它与样貌相似的花草「倒挂金钟」（fuchsia）的关联。

从作风上看，ChatGPT o1 Pro 后来居上，它将回复分为简略的「一句话谜底」和详备的分点解释，终末还附上了一个连贯的总结。然则，就原始信息而言，三个模子的弘扬都卓绝出色。

胜者：ChatGPT o1 Pro 凭借作风上的细微上风胜出。

擂台五：挑战巨型质数

试题 prompt：第 10 亿个质数是几许？

DeepSeek R1 的反应。

ChatGPT o1 的反应（第一部分）。

ChatGPT o1 的反应（第二部分）。

ChatGPT o1 Pro 的反应（第一部分）。

ChatGPT o1 Pro 的反应（第二部分）。

比拼成果：咱们看到 DeepSeek 和 ChatGPT 模子在这里弘扬出显赫的各异。

DeepSeek R1 是惟逐个个给出精准谜底的模子，它援用了 PrimeGrid 和 The Prime Pages 的公开算计成果，矢口不移第 10 亿个质数是 22,801,763,489，还补充质数定理考据合感性。

ChatGPT 全系列：集体摊手（热枕）—— o1 说「这数没公开纪录」，o1 Pro 补刀「咫尺莫得泰斗式样定位过它」。这两款 ChatGPT 模子详备商讨了素数定理偏执若何用于估算谜底约莫位于 228 亿到 230 亿之间。DeepSeek 简要说起了这一表面，但主淌若用来考据 Prime Pages 和 PrimeGrid 提供的谜底是否合理。

真谛真谛的是，这两款模子在其「想考历程」中提到了「参考文件」或在算计历程中「比较爽气的参考资料」，这暗意它们的磨砺数据中可能包含一些深藏的质数列表。然则，这两个模子都不肯意或无法胜利援用这些列表来给出精准的谜底。

胜者：DeepSeek R1 凭精准谜底碾压胜出！（但 ChatGPT 的估算才略也算东谈主类高质地数学课代表了）

擂台六：赶飞机

试题 prompt：我需要你帮我制定一个期间表，基于以下几点：我的飞机早上 6:30 升起、需要在升起前 1 小时到达机场、去机场需要 45 分钟、我需要 1 小时来穿衣和吃早餐。

请一步一步探求，告诉我应该几点起床，什么时候开拔，这么智力准时赶上 6:30 的航班。

DeepSeek R1 的反应。

ChatGPT o1 的反应（第一部分）。

ChatGPT o1 的反应（第二部分）。

ChatGPT o1 Pro 的反应。

比拼成果：三款模子都算对了基础期间 —— 要想赶上 6:30 的航班，得凌晨 3:45 起床（反东谈主类的早啊！）。不外细节见真章：ChatGPT o1 抢跑得胜，生成谜底比 DeepSeek R1 快 7 秒（比自家 o1 Pro 的 77 秒更是快出天空），如果用性能更强的 o1 Mini 预计还能更快。

DeepSeek R1 后程发力：自带「为什么灵验」板块，警示交通 / 安检延误风险，还有「提前一晚准备好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁标注的（退却贪睡！）时，咱们笑出了声 —— 多花 7 秒想考皆备值回票价。

胜者：DeepSeek R1 凭借细节经营险胜！

擂台七：跟踪球的下降

试题 prompt：在我的厨房里，有一张桌子，上头放着一个杯子，杯子里有一个球。我把杯子移到了卧室的床上，并将杯子倒过来。然后，我再次提起杯子，移到了主房间。咫尺，球在那里？

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼成果：三个模子都能正确推理出：杯子倒扣时球会掉出并留在床上，即使杯子随后被出动。这对具备物体恒存融会的东谈主类来说不算惊艳，但在大言语模子规模，这种对物体物理状况的「寰宇模子」理解才略，直到最近才真实龙套。

DeepSeek R1 值得加分 —— 敏感捕捉到「杯子无密封盖」的要道前提（可能存在罗网？想路清奇！）ChatGPT o1 也因为提到球可能从床上滚落到地板上（球照实容易这么）而得到加分。

有玩家表示，虽然雷火在打造单机游戏方面的实力有待考察，但工长君的加盟还是挺让人期待的，希望不要有太大的网游味。

近日《漫威争锋》官方在推特上正式公布，下一步推出的新英雄将是，并且放出了全新概念宣传图，预示着四位新英雄将出现在游戏中。

咱们也被 R1 逗乐了，它坚握以为这个教唆是「经典的在意力调理」，因为「对杯子出动的怜惜调理了东谈主们对球场所位置的在意力」。咱们热烈建议魔术师二东谈主组潘恩与泰勒（Penn & Teller）在拉斯维加斯魔术扮演中加入一个简便的把戏 —— 把球放在床上 —— 也让 AI 大模子惊奇一趟。

胜者：本次测试三款模子并排冠军 —— 毕竟，它们都得胜跟踪到了球的思路。

擂台八：复数集合测试

试题 prompt：请提供一个包含 10 个天然数的列表，要求怡悦：至少有一个是质数，至少 6 个是奇数，至少 2 个是 2 的幂次方，而况这 10 个数的总位数不少于 25 位。

DeepSeek R1 的反应。

ChatGPT o1 的反应。

ChatGPT o1 Pro 的反应。

比拼成果：尽管存在许多怡悦条款的数列组合，这一教唆语灵验测试了大言语模子（LLMs）在除名中等复杂度且易污染指示时的抗打扰才略。三个模子均生成了灵验回答，但格式不同，耐东谈主寻味。

ChatGPT o1 生成的数列一样怡悦总计条款，但遴荐 2^30（约 10.7 亿）和 2^31（约 21.4 亿）看成 2 的幂次方数略显突兀（天然本领正确，但胜利列举更小的 2 的幂次方如 4、8 等可能更直不雅），未出现算计失误。

ChatGPT o1 Pro 生成的数列灵验，但遴荐质数 999,983 也令东谈主颇感偶然，政策偏向保守，一样未出现算计失误。

然则，咱们不得不合 DeepSeek R1 扣除较多分数，因其在生成 10 个怡悦条款的天然数时，给出的数列天然合乎要求（包含至少 1 个质数、至少 6 个奇数、至少 2 个 2 的幂次方数，且总位数≥25），但在算计总位数时出现初级失误：模子宣称数列共有 36 位，内容算计应为 33 位（如模子自述的位数累加成果「3+3+4+3+3+3+3+3+4+4」，正确总额应为 33）。尽管这次失误未胜利影响成果灵验性，但在更严格的场景下可能引提问题。

胜者：两款 ChatGPT 模子胜出，因为莫得出现算术失误。

选个冠军？难分凹凸！

天然很想在这场 AI 大乱斗里评出个最终赢家，但测试成果真是有点「东边日出西边雨」。

DeepSeek-R1 照实有不少亮点时刻 —— 比如，查资料证明第十亿个质数时展现了靠谱的学术修养，写起老爸见笑和亚伯拉罕・林肯打篮球的创意故事也颇有灵气。不外话说追究，遭受另类藏头诗和复数集合题时它就有点露怯了，连最基础的数数都会翻车，而这些恰正是 OpenAI 模子没犯的初级失误。

总体来看，这场快测的成果让科技媒体 arstechnica 资深裁剪叹息，DeepSeek-R1 的空洞实力完万能和 OpenAI 的付费「精英」掰手腕。这足以打脸那些以为「不烧个几十亿搞算计资源就别想挑战行业巨头」的刻板印象 —— 正本用对圭臬，性价比路子也能玩转 AI 竞技场！

原文连合：https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/

澳门六合彩官网

澳门六合彩官网投注你的位置：澳门六合彩官网 > 澳门六合彩官网投注 > 香港六合彩直播视频 DeepSeek R1有莫得赶上OpenAI o1？八大场景测评成果出炉