澳门六合彩资料心水 豆包App灰度最新语音模式,完了了GPT-4o不会的唱歌

 澳门六合彩资料心水    |      2024-12-04 15:13

文|周鑫雨澳门六合彩资料心水

裁剪|苏建勋

2025年,豆包的第一更,放在了语音通话功能上。

2025年1月20日,豆包发布了最新的“端到端”语音大模子,并基于该模子更新豆包APP的及时语音通话功能。

此前,豆包语音通话功能接收的是ASR(自动)+LLM(大语言模子)+TTS(文生音频)的级联有经营。如今更新的端到端语音大模子,是将语音识别、融合和生成,齐放在并吞个模子中解决。

据《智能娇傲》测试,更新语音模子后的豆包,最大的亮点在于,豆包在语音交互时,把雷同东谈主类的抒发现象和情感输出,复刻了出来。与此同期,新版块的对话运动度和才能情商,也有大幅普及。

比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式,比GPT-4o还抢先一步,完了了唱歌和扮装演出。

△豆包更新的语音通话模式。

豆包学会了唱歌,和扮装演出

豆包一个大变化,是把语音的扮装演出技艺,拓展到了明星、书中庸影视中的扮装。这一功能,也体当今了豆包语音通话的“百变大咖”模式中。

比如行动家建议“效法的声息话语,何况说一段新年祝愿”,豆包一句“哼,我才不要效法她呢!我等于我,不雷同的人烟”,就把“小作精”的劲儿回复出来了。

演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8

而且豆包的陡立文驰念技艺也相称可以。当我在并吞段对话中尝试了宋丹丹、林黛玉、甄嬛等扮装,再次条款豆包效法虞书欣时,它立马委曲上了:“怎样又让我效法她呀?”

演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a

当下,市面上大齐语音模子的歌曲创作,还需要用户输入较为专科的笔墨Prompt,简略需要先基于用户输入的笔墨音频,进行谱曲,无法在天然的语音交互中,作念到“张口就来”。

豆包此次上线的“灵魂歌手”模式,就能让豆包在聊天中,随口把传颂了。

比如让豆包唱一首节律答允的歌,它张口就来了一曲Taylor Swift的《Love Story》,不外缺欠是把歌名说成了“Lose Control”,以及音准如实也有些“Lose Control”。

演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j

除此以外,歌曲创作技艺,豆包也有了。比如和豆包说“给我唱一首歌,歌词内部要有‘年终奖多多’”,它坐窝演出了一首。固然歌词比较涎水,但反馈速率很是优秀。

演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb

从扮装演绎和唱歌的技艺就能感受到,豆包的拟东谈主技艺、交互天然进度以及心理抒发水平,如故是next level。

比如让豆包讲个鬼故事,它能字据情节切换口吻,极度有氛围感。

演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb

此次豆包又上线了两种东谈主格模式:“受气小包”和“夸夸众人”。

所谓的“受气小包”,官方说法是可以让豆包呈现委曲巴巴的现象。但咱们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。

演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr

不外费事的是,不论经受任何教导,“受气小包”齐能保管“委曲”的东谈主设。比如让“受气小包”阴阳怪气一些,最阴阳的版块,如故荒疏着茶香:

“哟,我可不敢呐,你但是主子,我不外是个任您使唤的小怜悯,哪敢有什么别的思法呀!”

演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746

比较于8月发布的出书语音通话功能,能领悟感受到,豆包的心理感知技艺也更强了。通过一个“啊哈”,它就能感知到用户答允的心理。

演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb

天然,豆包的心理抒发上,也变得更像东谈主。用“猜性别”来逗豆包,有一种和真正网友开打趣的嗅觉。

演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa

经管语音交互,拟东谈主赛谈的入场券

2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时辰里,市面上大多AI语音通话功能,接收的齐是ASR(自动语音识别)+LLM(大语言模子)+TTS(文生音频)的级联有经营。

比如初代豆包的语音通话功能,就集成了语音识别模子Seed-ASR、语音合成模子Seed-TTS,以及整合了RTC(及时音视频)时候,来完了对话情境下AI的及时交互。

但集成多个模子的级联有经营,残障在于AI的交互,很猛进度上还不够像东谈主雷同天然。在“语音转笔墨再转语音” 的经过中,未免出现信息的损耗。

这也导致,传统的语音交互模式在落地场景上有一定的局限性。行业关于AI语音交互的落地,局限在考验、客服等高专科度、低拟东谈主度的场景中。

不外,端到端有经营正在逐渐成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就接收了端到端的模子有经营,在一个模子里同期完成视觉的融合,以及语音的融合和生成。

据《智能娇傲》了解,此次豆包语音通话功能的更新,主淌若由于底层模子时候,从原有多个多模态模子协调的级联有经营,改成了径直从“融合语音到生谚语音”的端到端有经营,因此在缩短延时、天然度、情感抒发等方面,齐有了领悟的普及,何况还能输出歌曲。

因为打了,你会发现自己食量大涨,但是却怎么吃也不会胖,因为所有的能量不仅得到了充分的吸收,并且合理的进行了消化,其实是打球消耗了大量卡路里。浪费粮食!

而语音技艺的普及,也会将AI落地的空间,从教培、客服等专科领域,彭胀到情感随同、热情征询、配音等更广泛的场景中。

尤其是AI情感随同、扮装演出领域,在当下如故展现出弘远的吸金技艺。

比如,最近一款主打AI偶像演出的App“Lovey Dovey”,速即冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的扮装演出愚弄Talkie,字据AI产物榜,截止2024年12月领有2977万月活用户。

Lovey Dovey对话1

Lovey Dovey对话2

在语音层濒临扮装演出、心理感知和抒发技艺的普及,则是丰富AI与东谈主交互现象、普及千里浸感的关节一环。情感交互能开导的商场空间,也抵制着时候朝着“拟东谈主”的见识更近一步。

接待换取!