今天在 #WAIC 内看到了 #集之互动 的数字人,初步交流一下发现它的作用是作为 WAIC 的客服,答疑解惑。
同事问了几个问题,我自己也去体验了一下,发现该属于超级前期的一种答疑,类似我们在电商平台机器人答疑数字人版。
它的回答非常“生硬”,一股“AI味”,当然本来就是生成式AI。初步来看,和prompt 有一定关系,再者和它底层的大模型也有一定的关系。
通过多次提问能看得出来它是基于知识库进行回答问题的,有些问题没有它会告诉我们知识库没有相关问题,而在提问的时候会因为同音字的问题而难以匹配。
大模型对比传统的关键字匹配最大的好处是基于语义,但是用户通过声音来输入的时候,同一个发音可能有很多种写法,不得不感慨中文的博大精深,没办法的事情。
但是同音字输入后,数字人经过语音转文字后就会出现在知识库匹配不到答案的情况,所以如何解决多模态输入问题也是一个难题。
在用微信输入法的时候,我也曾经在内测群反馈过类似的文字:语音转文字如何解决同音字问题?比如 jike 他有即刻,极客,即可。那输入法怎么能够识别出来我想要的呢?(
m.okjike.com)
为此,我更希望数字人能真正解决用户的问题,并且是问一步至少想三步。举个例子:
当我们问:有哪些教育行业展商推荐?目前是给出了两个品牌,当然没有可视化表达出来,也就是多模态输出。
我希望它可以直接把展商分布图展示出来,然后先告诉我有哪些是教育行业,分别在什么地方,并且可以主动问我一些需求(比如你是想了解成年教育还是少儿教育?等),然后进一步给我推荐,最后可以针对不同的展商给出详细介绍。
她应该是“导游”,而不是“电话客服”,前者会让我们视野更加开阔,获取更多的信息,后者仅仅是解决我当前的问题,并且还是非常简单的回答,并没有进一步的介绍,极其机械。
互联网到移动互联网,最重要的是用户场景变化,而下一个时代是AI时代,我估摸着体验更改优,解决方案更改智能(用户体验上来说)。
举个例子,用电脑进行购物需要绑定银行卡,然后输入密码;手机上发生了极大的变化,可以直接通过微信支付或者支付宝(刚开始阶段,现在也是普遍方式)完成下单。
然后我就在想,从产品层面来说,比如像支付这种场景,用二维码的方式可能也会有很多的问题。接下来会用什么新的方式去解决这个方案呢?但是我还没想到,但是一定会有,我觉得会更加的流畅,体验一定会很好。
数字人同理,他作为某种角色的分身,甚至是我们自己的分身,它应该是可以有一些「人的特征和灵活性」,而不是仅仅从外观上看起来是个人。
当然,目前的AI才刚刚开始,我相信未来会很好,体验会更棒!保持一份期待。毕竟数字人,不能外观上看起来是人,而是真的要数字化某个人、某种角色,只有这样才能真正在实际应用发挥价值。
Ps. 视频经同事授权转发。