我刷抖音看有人说现在用数字人可以做无人直播,我搜了看了几家公司的,腾讯和讯飞好像只能做短视频,没有看到有做直播的选项,其他好几个做数字人的看介绍都很好,但不像腾讯、讯飞那样在网站页面就可以试用体验,所以不知道实际功能和效果,万能的乎友,有懂的朋友说一下吗?
说说我的观点,希望可以给你一些参考
当前数字人市场就是群魔乱舞!有炒概念蹭概念的,有投机的,有收割韭菜的,当然也有几家真正做事的,其中在短视频直播赛道,最好的数字人莫过于“南慕容北乔峰” ,南慕容是南京硅基智能,北乔峰是北京风平智能,这两家的数字人是目前最好的选择。
这两家公司估计很多人没听过,但如果你深入了解这个市场,或者是这个圈子的人,硅基智能和风平智能一定是避不开的。另外,南慕容北乔峰这个说法,也是我听圈里的一些从业者说的。这半年多来我为一家投资机构做过关于数字人市场的调研,所以这个市场里的人和事知道一些。
我为什么说数字人市场群魔乱舞?就是因为数字人的界定太宽泛了,你看,有人做几段会动的CG动画人,甚至只是几张概念图,你可以说他做的是数字人;你再看,有人融入AI技术,可以实时说话实时互动的以假乱真的人,也可以叫数字人。但不用我说,大家都知道这两种数字人的差别。
前两年元宇宙概念被资本超的很热,怎么算元宇宙?是不是看到过有的公司设计个数字人形象,就说自己是元宇宙概念公司?现在ChatGPT火了,数字人又被带火了一波,肯定还会有浑水摸鱼会包装概念的公司。
我们来看一份调研报告里面提到的数字人市场,虽然还不成气候但可以看到里面上百亿的市场规模已经比较可观,但真有这么大吗?这要看你怎么理解数字人了,还是我上面说的,如果你认为烧个几百万、几千万做数字人的概念包装这样的资本游戏也算,那么市场规模就有这么大。
我不是要贬低数字人市场,只是我认可的数字人,应该是可以创造真正价值的数字人。现在怎么样的数字人可以创造价值?可以帮助我们可以帮助我们提高生产力,降低成本的,都是有价值的数字人,不管你谁做智能客服、智能医生、智能销售也好,还是用AI生成短视、做直播也好,或者是其他一些更专业的应用。至少不管对企业还是对个人,是真正可以用得上的、创造利润的。
从创造利润的角度看,现在什么样的数字人可以做到这点,并且是可以落地的?对,AI驱动的数字人,解决的问题也没有那么高深玄妙,就是取代真人去做短视频、做直播,或者做销售、客服、教师等等各种其他可以取代真人劳动的数字人。这段时间ChatGPT爆火之后,很多人在讨论的人工智能会不会让我们丢工作的问题,实际上肯定是会的,对于资本对于资本来说,数字人的价值就是取代真人。
其实你在抖音、快手、视频号等等平台肯定刷到过数字人口播短视频,数字人直播的。只是有些数字人就是真人形象,不仔细看你不一定看得出来。
更大一些的,比如大V刘润、吴晓波,都公开展示过自己的数字人,现在刘润的号里面很多短视频就是用的数字人做的,如果不跟你说,你看得出来吗?另外还有央视主持人王冠,歌手黄新淳,也都使用过数字人做节目或者直播。
再来说说几家真正做数字人的公司,比如腾讯、科大讯飞、百度、中科深智、风平智能、硅基智能、杭州花脸、魔珐科技、配播精灵、闪剪、汉全元宇宙、相芯科技、人人电商等等。这里面也大致分为两种,一种是方向性比较强的数字人,比如专门面向做文娱传媒、智能客服、代言等等,大部分公司可能都用不到。另外一种就是应用很广泛的,用来做直播短视频的,这类可能大多数公司,还有部分个人都需要,更简单点说就是做抖音快手视频号的公司都可能需要。这就算为什么吴晓波说2023年每家公司都可能需要一个数字人的道理。
为什么我说南慕容北乔峰,也就是硅基智能和风平智能是国内做短视频直播数字人领域最头部的两家公司?因为他们的数字人和技术方案已经遍布市场。如果你发现某些其他做数字人业务的公司,功能和效果和这南慕容北乔峰的高度相似,很可能用的就是这两家公司的数字人。
所以选择数字人,硅基智能和风平智能是很难避开的。这两家的数字人目前整体效果半斤八两,所以主要看价格、服务和后期产品发展的预期。但这两家公司都在快速发展扩张,所以产品、价格和服务的天平是随时变化的,下面我说一下两家公司的整体基调,提供参考。
为什么圈里有人称硅基智能和风平智能为南慕容北乔峰呢?原因有两个,一是地理位置,硅基智能在南京,风平智能在北京,一南一北。第二点是两家公司的企业文化和市场战略的原因,简单的总结,南慕容硅基智能类似于联想,可能更注重销售;北乔峰风平智能类似于华为,可能更注重技术投入。
从两家公司公开的介绍和他们发过的PR稿件看。硅基智能最开始做智能电话外呼业务,这个业务比较注重销售,变现营收能力也比较好,所以硅基智能的生存状况比较好,并且由于天然的重销售重运营,所以在切入数字人赛道之后,这方面也是强项,会营销会做品牌,所以硅基智能虽然入场的时间并不算早,但很快就打出了名气,打开了市场占有率。
风平智能最开始做的是基于大模型智能文章和短视频生成方案,生产了海量的保险文章和视频搞了保险查查,也就是最近比较热的AIGC概念,但是在几年前AIGC并不很被看好,市场前景不太明朗,很难变现,属于中长线的投资,早期营收情况不佳。所以风平智能本身的传统,更擅长做研发,而市场营销不擅长。幸运的是风平智能正好踩在了AIGC和AI数字人这个风口上,就算不擅长做品牌做市场,因为技术和产品不错,也被推到了数字人的最前沿。但问题也比较凸显,就是面对迅速爆发的市场需求,他们的销售和品牌跟不上公司发展。
因为公司的文化基因不一样,也造就了两个公司的数字人业务市场策略的不同。硅基智能充分发挥了品牌和销售方面的优势,聚焦抖音本地生活直播市场,迅速转化成销售额,比如大量吸纳各种代理商,收取加盟费用,特别是本地生活类,据说硅基智能收割了80%的传统代理商,光加盟费就收了2个亿(PS:5.29更新信息,后经过考证似乎数字存在水分,有研究员去过他们南京总部,接待人员说是已经有200家代理商,16800元视频代理和10万的代理商占半数,30万50万80万代理费少数,那可能整体收入不足3000万)。但也存在风险,如果技术和后续服务跟不上,可能真的变成割韭菜了,比如现在用数字人做直播其实有一个不可避免的问题,可能会被平台判定为录播。平台的规则虽然不是针对数字人,但数字人如果无法像真人那样互动,那么很容易就被判录播,甚至会被封号。硅基在没有完全解决这方面问题之前,依然在大规模的做销售拉代理。
风平智能是技术基因公司,品牌和销售方面缺少经验,这导致他们产品虽然不错,但在品牌知名度和销售业绩方面比较吃亏。他们更强倾向于做好技术和产品,尤其注重数字人+大模型的AI数字人解决方案,已经涵盖了银行保险、基金证券、医疗、新东方等一系列的大客户,据说大客户收入都小1个亿了,加了大模型的AI数字人这块对大客户应该有很强吸引力;在直播方面,通过代理与有经验有实力的客户、经销商合作,或者只是提供技术方案支持,把产品销售和服务交给更擅长更专业的合作伙伴来做。所以也有一种说法是风平智能收割了80%的独立品牌,据说几十家数字人品牌商都是用风平智能的技术方案甚至OEM贴牌生产。
还有一点是在技术方案和产品力的提升上,比如投入了很多在服务器算力上,比如生成10分钟的数字人视频,风平智能耗费时间只要20分钟左右的时间,比多数平台都快。另外一些特性,比如风平智能是把视频和直播做到一个本地化软件,客户只需要一次付费就能同时拥有视频和直播两款产品;另外视频生产上的一些细节也会比较好,比如其短视频本地化生产高质量确保了分发的时候不会被抖音快手平台限流,比如是唯一一个可以支持本地高达20G的高清视频作为背景的,这对有高质量要求的大企业帮助很大,可以做各种大屏幕的演示展览。还有风平智能号称在研发结合ChatGPT的数字人大模型,数字人可以联动ChatGPT实现交流互动。
总之各有个的优势和问题,南慕容硅基智能优点是会营销重销售,市场感敏锐抓到机会就可以实现快速转化。但不足是可能会太注短期收益,就像慕容复那样,虽然一直在努力拉拢各方势力,但一些行为也容易得罪人,比如曾出现过因利益冲突泄露客户隐私、切断技术支持等事情。北乔峰风平智能更注重修炼内力,技术研发和产品是优势,更多大客户解决方案经验。不足是不懂营销,品牌传播不够,这是典型的技术型公司的特点。
所以两家公司的数字人怎么选,主要看你更倾向于哪种格调,至少目前来看两家的技术水平相当,硅基智能现阶段的品牌和售前服务会更好更积极,侧重本地生活直播会有更多服务的代理商。如果是注重大模型的AI数字人大客户,智能风平智能产品力优势会逐渐凸显。
7 月 4 日我开始测试 WAV2LIP 商业版,效果堪称数字人直播领域的全球天花板。现在初步决定不进行商用,但好处不能不讲。使用体验更新如下。
瑕不掩瑜。这仍是我至今为止唯一”半推荐“的方向。半推荐的意思是:向部分人有保留地推荐。如果你是小成本视频制作者,估计做条视频出来也没啥人看,就图一乐,或者想记录点什么,那 WAV2LIP 商业版还是值得考虑的方向。但如果你是专业制作者,建议你还是另觅他途,乱拍一条小成本的视频会严重浪费你写口播稿的时间。
将口播换成录音,门槛的降低是显而易见的。拍过口播视频的人都知道,对着镜头容易紧张,没有提词器容易头脑卡壳。全世界最简单的口播当然是对着稿子用口头语读一遍,但这种口播的视觉效果负分。
WAV2LIP 等一众换嘴 AI 相当于用负分视频的成本和门槛在做普通视频。这对于工作流的改变是革命性的,只是作品的感染力还很差。
它可以让原来毫无还手之力的草根制作者拥有过得去的制作能力,但对于本来就像那么回事的专业 Youtuber 来说其实是在自降格调。目前来说,它只适合用来做营销号。
哪个都不靠谱,简答完毕。
以下技术代表了 2023 年 5 月初的最高水平,你将就着看吧。
Stable Diffusion 作为目前唯一可以生成高质量连续帧的“准动画” AI,可以有限地用于娱乐,但还是没法拿来赚钱。
目前 SD 存在三个严重问题:
由于 SD 动画的诸多弊端,所以现在的玩法都是生成几十秒的跳舞视频,靠高速移动来掩饰闪烁,靠超短时长来降低成本。这类内容在 B 站和小红书上超多。
但如果让 SD 生成一个虚拟主播坐在摄像机前带货,ta 的脸会一直闪,还会以每四秒一元的速度烧钱。
实在不行也可以用 D-ID 做俩人杵着对话。一逗一捧是不可能了,但至少可以把内容表述完整。
这方面技术效果最好的是微信视频号 AI.Talk,出过几个爆款,暂无变现方式。
但 D-ID 的成本同样不低,单人大约是每小时 120 美元,双人至少 × 2。如果你对生成结果不满意,已生成的影像也一律不退款,需要你自己掏钱再生成。
如果想省钱,又对自己的技术很有信心,可以考虑开源平替版本 SadTalker。不过这个开源项目还很不成熟,画面鬼畜,只能用来搞笑。
本技术简单粗暴,就是换脸。用来做短视频或直播都很容易,微信上面一堆小视频号和直播号在搞这个。直播流量很低,但小视频十万点赞的已经很多了。
但是注意,这不是数字人直播。它的背后需要有人类演员,也需要完整的背景,甚至还需要相对完美的打光。总之,它只能把你的脸给换了,其余整个画面和声音都是原来的。想要让它自行直播,让主人躺赚,那显然是不可能的。而寻找靠谱的人来扮演 AI 背后的人,并不容易,也并不便宜。这种技术相对于传统视频和直播并无明显优势。
另外还要考虑技术新旧的问题。DeepFake 的原理是生成式对抗网络,和 2023 年 AI 画图的原理完全不同,算是一种过时技术,过去两年没有大更新了。选择这种技术的弊端是显而易见的,它只能换脸,而且未来恐怕也不会有什么改善。但反过来你也可以这么想:年少不知师姐好,过时技术也散发着一种成熟的魅力。和现在所有的前沿技术比起来,DeepFake 以假乱真的程度是碾压的。它甚至还有一个 Deep Face Live 的分支,可以用于低质量的直播。
目前微信小视频上面做 DeepFake 方向的,十有八九是在“吃 AI 的饭,砸 AI 的锅”。一群刚学会换脸的小营销号,每天主题就是表演换脸,然后散布恐慌,告诉观众 AI 太可怕了,最终落脚点都是“国家早该管管”。对于此事,我的看法很简单:AI 没他们吹的那么神,但也远远超过了政府的监管能力。总有女生担心自己的脸被人拍下来之后拿去做 AI AV,呵,她们不仅高估了 AI,也高估了自己那张脸。墙外一堆专业网站在做这个,用的都是美若天仙的演艺圈小花。说句不正确的大实话:训练你的人脸模型,和训练迪丽热巴老师的人脸模型,成本并无差别,就你长成这样又没流量,不花钱还想我免费帮你做个脸?
还有微信上的 DeepFake 直播,十有八九是卖课的。把开源软件下下来,再 238 一套卖给观众。这波操作相当内行。
墙内的 DeepFake 生态相当糟糕,墙外倒是真有这个产业。不过如果真的要卷出去,内卷路上的对家也茫茫多。TikTok 上面一堆换脸特效大 V,源源不断地贡献着优质短视频,有个模仿阿汤哥的已经可以做到摘眼镜不穿帮、手指在脸上滑动——做过 AI 的都知道这有多难。我估计他后期编辑了很多,不太可能是 AI 一气呵成的。更庞大的市场在百度搜不到的地方,也就是上面说到的 AI AV 网站,里面各色华人女星也是应有尽有——如果在上面搜不到,说明她还不够红。亚洲人里换脸量排名第一的是周子瑜,真是软实力。
这跟 AI 没关系,纯粹是个 3D 动画片玩法。在暗场、动作简单的情况下,勉强可以逼近真人。
目前一套入门级动捕设备 8 万;一套定制版 3D 人模型 20 万,换衣服另计。二者合计,做一个人需要 28 万,两个人需要 48 万……余此类推,量大未必从优。但这只是入门款,和真人有辽阔的差距,超写实的最好准备 300 万。
不建议购买那些 2 万的动捕设备,否则模型可能永远处于骨折状态。
想知道目前墙内非定制版的最高级水平,可以看看“赛博演猿”。他们那个还真的可以做直播,至于效果嘛,公道自在人心。如果那个你都不满意,恐怕数字人直播就真的不适合你了。
顺便一说,这个不是新技术。如果你竟然需要从我这里看科普,说明真是没做起来。
截至 2023 年 5 月,题主你的需求恐怕很难被满足。这不是你的错,是世界还没赶上你的思路。
前几年 IT 从业者是很苦逼的,整个世界跟静止了一样,我都去合成生物学公司里帮了四年的忙,看看有多少产业交叉的机会。如果你强行要求数字人去直播,也会发现这个领域已经静止了好几年。你还没陷入这个泥潭,没必要像那些已经身不由己的人一样,去做一些明知不可为的事。关于这个故事,我在后面附录里说吧。
如果到这里你还能坚持,那就继续吧。随心所行即为正路,愿小小的幸运偶尔光顾你。
今天我惊喜地发现,沉寂已久的假数字人又活过来了。是的,这些数字人都是假的,其实他们是真人。
自从 ChatGPT 今年二月走红,假 AI 就没断过。二月份大家还比较遮掩,只是伪造 ChatGPT 出丑的对话,写弱智段子蹭流量。现在则是赤裸裸地诈骗了,他们拍下自己的真人视频,然后说这就是 AI 生成的。
他们甚至还开发出了一种“AI 模型训练技术”,通俗地说就是绿幕抠像。他们骗用户拍一段自己的视频,换个背景就去报喜:“恭喜你终于拥有了自己的专属数字形象!”
这么做的唯一目的就是骗钱。
行规是 8 千块钱一套卖给用户做“专属数字形象”。骗子告诉韭菜们,只要买了这套东西,就可以无人值守去做带货直播,躺着都能赚钱。
这种骗局一点都不新鲜。
以我不专业的观察,至少在 2015 年就出现了“活人假扮 AI”的骗术。
那时候股灾,基金经理成了过街老鼠,指数才是宠儿。这没办法,毕竟只有大盘指数基金才能永远不输给大盘指数,这是个循环论证。
很多基金经理顺势摇身一变,就当上了量化交易的大神。建立一个新指数基金很简单,等比例买入 5 只指数基金,就能合成一只新指数基金。而赚钱的方法更简单,买 5 只手续费 0.8% 的基金,再以 1.2% 的手续费卖出去就行了。
今年 ChatGPT 破圈,只是让韭菜丰产技术顺势蔓延到了 AI 圈,但并没有什么新东西。
总之,人工智能在彻底改变世界之前,又被世界彻底改变了一次。
潮流的尽头是复古,历朝历代骗钱的原理都差不多。虚构一个不劳而获的人,去忽悠一群想不劳而获的人,最终养活一群真正不劳而获的人,AIGC 的第一桶金也是这么挖出来的。
顺便一说,这群假数字人贩子,大多数都是搞元宇宙出身的。
那个圈子的人,真正的 IT 老炮都敬而远之。他们有个习惯,年年都是元年。你要是听不懂这个梗,以后还要挨坑的。
他们 2015 年吹 HTML5,2016 年吹比特币,2017 年吹 AGI,2018 年吹 VR,2019 年吹元宇宙,疫情三年没法搞峰会,纯线上吹 Web3 没吹起来,现在刚放出来又重操旧业。
但凡跟他们吃过一顿饭,题主你都问不出这个问题。
全文完。
数字人直播的优势
1. 不受时间和地点限制:虚拟数字人主播可以24小时全天候在线,不受时间和地点的限制,这使得企业可以在全球范围内随时开展直播活动,提高直播的覆盖率和影响力。而真人主播则需要考虑工作时间、休息时间和时差等问题,限制了其直播的时间和地点。
2. 降低人力成本:真人主播需要支付薪资、社保等费用,并且还需要考虑到工作时间、健康状况等问题。而虚拟数字人主播则完全没有此类问题,这大大降低了企业在直播行业中的成本压力。
3. 保证直播内容的稳定和连贯性:虚拟数字人主播在直播时不会出现口误、失误、疲劳等问题,保证了直播内容的稳定和连贯性,增强了用户的粘性和信任感。而真人主播则可能因为各种因素出现失误和疲劳等问题,降低了直播的质量和用户体验。
4. 保证直播内容灵活性和个性化:虚拟数字人主播可以根据企业的需求和用户的喜好,创造出更加个性化的直播内容,从而缓解内容同质化的现象。而真人主播则在形象、性格和表现等方面受到一定的限制,难以满足企业和用户的多样化需求。
现在虎芒将前沿的数字人技术与直播设备融合,不用繁琐的直播间搭建、不用高成本的直播设备、不用高难度的操作软件,用虎芒灵动屏智能直播机设备,一台设备就是一个直播团队,简单快速就能进行数字人直播。
数字人不会疲劳、不受场地和时间的限制,可以24小时全天候在线,也不会出现口误、失误等意外情况,保障了直播内容的稳定性。不需要考虑真人主播薪资,不需要复杂的直播间搭建,只需一台虎芒灵动屏设备,大大降低商家在直播行业中的成本。
目前不少商家采用真人+数字人双循环直播的方式。虎芒灵动屏支持真人直播和数字人直播一键切换,无需断播,无感切换。
在高流量时段采用真人直播,真人直播更有“人情味”,互动性更强,能够及时回答直播间用户提出的各种问题,直播氛围更好。在低流量时段或者主播比较疲惫时采用数字人直播,填补空闲时间段,抢占闲时流量,覆盖更多用户, 24小时全天候直播不放过任何时段的商机。
随着AI技术的进步,数字人直播已经成为了一种新兴的直播形式。它以其独特的魅力吸引了大量的观众,为我们的生活带来许多新可能。
那到底什么是数字人直播呢?
数字人直播是通过虚拟现实技术、深度学习和语音合成等技术创建的人工智能形象,可以表现出类真人的行为、表情、语音和动作,让用户感觉自己跟真人聊天一般。
数字人直播作为一种新型的互动方式,具有许多独特的优势:
① 它能够突破传统直播平台的限制,实现无限量的主播克隆。这意味着用户可以根据自己的需求和兴趣,轻松创建和管理多个数字人主播,实现个性化的内容输出。
② 替代重复的流程化工作,轻松实现24小时全天候直播。现在数字人主播形象已经与真人形象无异,表情动作自然流畅,可以替代掉商家直播过程中部分重复、繁琐、流程化的工作;并且主播可以24小时全天候在线,不受时间和地点的限制,在一定程度上降低人力成本,这也是数字人助播的最大价值。
③ 数字人直播还具有强大的IP打造能力。通过克隆自己或他人的数字人形象,用户可以快速建立自己的品牌形象,并通过短视频等形式进行持续的内容输出。这种方式在知识类、培训类等领域尤为适用,可以帮助老师和专家们扩大影响力,吸引更多的学生和粉丝。
目前来说,数字人直播主要应用于电商、教育、金融、医疗等行业,刘润、张琦都已经在平时的短视频和直播中运用到特制的数字人分身,高流量时间段用真人直播,低流量时间段用数字人直播,覆盖更多的用户,帮助企业或商家实现低成本营销,用最低的成本抢更多的流量。
希曼智能是专业的数字人智能创作服务,提供百种语言、2D数字人、3D虚拟数字人等产品,满足不同场景下的数字人需求,有需要的小伙伴可以戳这里:
希曼智能-2D数字人|虚拟数字人|AI短视频创作|数字人直播
https://www.zhihu.com/video/1670813411188387840通过AI数字人制作短视频,已经成为了当下的一种热潮,但是,如何制作数字人,很多人却并不是很清楚,那么小编今天就来同大家分享一下,如何在制作数字人虚拟主播,以及生成虚拟主播的这些平台各自的优缺点,为他们提前去坑排雷。
一款制作短视频的软件,但其在市场上的嗅觉那是绝对的灵敏,只要最新有什么事物或产品出现,那基本上都可以在剪映里找到。
当然,对于当下较火的AI数字人,剪映自然是不能缺席。想要使用剪映数字人制作短视频,并不复杂,只要在制作的时候,将右上角的数字人放在视频中就可以了,好处就是一气呵成,制作十分方便,但缺点也很明显,目前里面的数字人种类不是很多,并且以大众的审美来看,真的都谈不上好看,而我们做短视频,当然系统视频里的主播长得眉清目秀、英俊帅气,在这一点上,剪映还比较缺乏。
二、腾讯智影,腾讯的数字人
腾讯智影是腾讯推出的一款云端AI数字人短视频制作工具,里面有很多的模版,创业者可以根据自己的短视频内容选择相应的模版,一键生成。
这是针对大众的利用数字人生成视频的工具,需要收费,收费的模式也延续了其一贯的作法,各种周边收费产品层出不穷,好的模版收费,选择数字人主播收费,选择不同的衣服收费,选择不同的声音收费,总之,你想要用自己理想的数字人模特生成一段不错的视频,正常情况下,付费的效果才会更加理想。
三、专帮灰豚数字人
灰豚数字人是一款由温州专帮科技公司推出的数字人系统平台,这是一家技术开发公司,跟前面两款数字人平台不一样的是,它的使用范围更加广泛,除了可以制作短视频,还可以用于数字人直播,同时还提供OEM源码贴牌。
平台里提供的公共模特选择量非常丰富,有上百个,各种服装穿越了几个朝代,对于想制作一些有特色的短视频就非常符合。另外,平台上的配音也非常丰富,除了传统的男声女声童声之外,还开发有方言、粤语、英语等一些国际语言,如果将这些语言应用到短视频中,可以起到与众不同的效果。
当然,目前数字人的制作平台远不止以上三种,但这三种因为其卓越的技术,可以作为行业的代表进行参考,创作者可以根据自身的需求去选择适合自己的平台,达到自己的宣传推广目地。