1024AI+家庭论坛｜科大讯飞朱家泉：多模态融合，大屏进入交互新时代

发布: 2022-11-22 10:00 | 作者: MSCBSC | 来源: 移动通信网 | 字体: 小中大

飞象网讯 伴随5G+AICDE技术的不断发展，智慧家庭进入加速发展阶段，一个全新的智慧家庭时代正在来临。在家庭数字化浪潮背景下，科大讯飞积极用AI赋能行业生态，用人工智能助力智慧家庭产业走向新高度。

11月19日，由科大讯飞主办的全球1024开发者节AI+家庭论坛在合肥奥体中心成功举办。本次论坛以“聚力AI 智连万家”为主题，围绕数字时代的新形势、新发展，现场嘉宾分享了智慧家庭领域的最新实践与前沿思考，共话数字化家庭的未来，见证“AI+家庭”的创新前行之路。

会议现场，科大讯飞副总裁朱家泉发表了题为《多模态融合，大屏进入交互新时代》的精彩演讲。

以下是演讲内容分享：

各位现场的嘉宾朋友们，线上线下的合作伙伴和开发者们，大家下午好！

很高兴今天又能在1024舞台上跟大家分享，目前科大讯飞基于大屏交互的合作进展以及取得的新成果。

机遇：大屏交互从语音迈入多模时代时机已经成熟

首先跟大家分享一下电视大屏人机交互发展历程。从1925年第一台电视开始，直到1955年电视才首次出现红外遥控，历经了大半个世纪。讯飞和长虹在2015年才在国内首次做出智能语音遥控电视。从2015年开始，讯飞和业界很多合作伙伴一直都在致力于如何能够提升电视大屏的人机交互体验，我们于2018年开始跟广科院设立联合语音创新实验室，致力于把最好的语音体验提供给中国的电视用户。3年前，2019年的1024大会，讯飞携手诸多合作伙伴一起向业界推出了国内第一个电视大屏语音操控系统iFLYHOME OS。截止到现在，我们有什么具体的新进展呢？

首先来看一组数据，当前讯飞和国内的主流运营商、互联网电视厂商，以及很多的智能终端合作伙伴一起携手合作，把整个iFLYHOME OS推向了千家万户。截止到今年11月，在电视端累计的语音用户数超过2.1亿，日语音交互次数达到1.5亿，累计语音交互次数突破600亿次。正是因为合作伙伴与讯飞的共同努力推动，应该说中国的电视大屏正式迈入了语音交互时代。

但是伴随我们的用户和使用次数的增长，我们也在实际的运营和访谈中发现，当前的语音交互还有很大的不足。对用户来说，从交互体验到应用服务，有很多个性化、特性化和多样化的需求还达不到满足，尤其是很多用户觉得现在的人机交互不够自然，没有情感。另外在服务领域，除了影视服务之外，在教育、康养、健身、家庭办公等多个领域的应用服务也没法提供。诸多的体验和服务的不满足，都是当前我们在人机交互领域还需要进一步提升的关键因素。

从市场环境来看，用户侧，一方面现在摄像头、远场设备，包括正在推出来的儿童陪护机器人，还有健身镜，基于用户多模态的语音交互使用习惯，我们觉得已经逐步养成。讯飞侧，AI技术不断成熟，从语音、视觉、认知三大块方向有超过100多项核心技术，已经开始逐步应用和研发，这种市场环境下，我们觉得中国电视大屏人机交互发展需要迈入一个新时代。

因此，今天讯飞联合中国移动、中国电信、中国联通、广科院等合作伙伴，我们一起在“1024开发者节”这个重大的活动当中，向业界发布科大讯飞iFLYHOME OS 2.0，来助力电视大屏的人机交互，从语音正式迈入多模态新时代。

3大提升：iFLYHOME OS 2.0能听、会说、效果好

在业界，讯飞第一个将以虚拟人为媒介的强视觉多模态交互系统搬上电视大屏。它相对于传统的人机交互，在能听、会说、使用效果层面上得到了极大的提升，同时我们也把能聊、会认、安全等更大的创新功能能力叠加到了iFLYHOME OS 2.0当中，使得我们的大屏虚拟人真正能做到“能听会说、能看会认、能理解会思考”。

在能听层面上它有什么样的新的能力提升呢？

我们的2.12亿用户一直有一个问题困扰着语音提供商，那就是方言。中国有诸多的方言体系，虽然讯飞现在在电视端已经支持20多种方言，但是有一个场景始终没法满足，电视的终端是在家庭下，不是私人终端，它是合家欢的终端，使用的场景有孩子、老人、年轻人，每个人在人机交互中的语音使用习惯不同，老年人偏向于方向，孩子偏向于用普通话。但是在业界现在的解决方案中，基本上都是需要用户手动切换识别引擎，讯飞在满足家庭多代同堂的场景下率先提出了混合识别，我们现在支持7种方言的免切换，使得在合家欢的场景下所有的用户都可以用自己熟悉的语言习惯，和我们的电视进行人机交互。

另一个大幅度的能力提升是降噪，一旦把远场识别功能加入了，在客厅环境下它有很多复杂的噪声，包括电视机声音、厨房声音以及家里电器的声音，有人说一用扫地机器人，语音识别就不行了，因为它太吵了。讯飞使用最新的多模降噪技术，把多模态的语音进行合理分离，充分解决了在客厅场景下这种复杂噪音的问题，较传统的降噪有50%的效果提升，94%的平均准确率，使得我们远场交互真正在家庭场景下能够得到使用，使得家庭使用更舒心。

让设备能听得清，也要让它能够很好地表达出来，语音合成是我们当前在电视人机交互中很多用户不满意的核心问题之一。他们一直跟我反馈，说我们现在的语音合成太机械化，太呆板，没有情感。因此我们在2.0的版本中采用讯飞最先进的极致拟人合成能力，在昨天的发布会中已经提出来了，我们让虚拟人的交互更有情感，它到底是什么样的体验呢，我们先看一个小视频。

这是基于现在实际的系统做的模拟，我想问一下现场的嘉宾，你们能听出来哪些是合成、那些是人声吗？其实我也不知道，我们的产品经理把实际发音人和系统合成音做了混合对话设计，他把它藏在了里面。

可以说我们极致虚拟人的语音合成，让虚拟人交互更有情感，它还有10+其他年龄、性别、场景发音人增加到电视大屏当中去。

设备能听会说，不代表它能懂，我们觉得如何让用户有更好的体验，我们在2019年联合杭研、福建移动在行业首发了一套基于大屏的人机交互评价体系和标准，我们叫“懂有畅快暖”用户体验体系。这个体系一提出，得到了很多行业人士的认可，端到端的交互成功率从86%提升到91.8%，让端到端的服务体验更加完善。

3大创新：iFLYHOME OS 2.0能聊、会认、更安全

除了三大能力提升之外，还基于诸多场景做了核心的功能创新，有代表性的主要有三个：

第一个“能聊”。我们在做用户访谈时，他们说现在的人机交互是简单的任务性、指令性交互，就是一问一答，我想看中央一套，我们帮他放中央一套；我想看刘德华的电影，我们就帮他放刘德华的电影，但是一旦跳出任务指令，AI就显得非常傻。

所以在新一代的人机交互当中，把讯飞最先进的情感型对话纳入了2.0系统，它可以通过机器人的多情绪识别表达，让现在的虚拟人具备实时新闻热点能力，具备文学、历史知识，也具备政治、军事知识，可以跟大屏前的用户做多场景下的复杂对话。而且这个功能有一个非常大的拓展，人一旦和虚拟人建立了信任、情感之后，我们就可以基于这种情感式的对话，挖掘更多的基于用户在内容上的个性化、场景化的服务推荐和需求，这项功能也会开放给所有的运营商、服务合作伙伴。

第二个“会认”。从传统的语音和现在的图像、视频识别相结合，刚才何总在做元宇宙介绍的时候也多次强调，这是我们多模态识别核心。现在的电视大屏正是因为摄像头和机顶盒、电视业务相结合，使得我们面向多人场景下的图像、声音多模态融合识别技术有了更多广泛的应用场景。现在在家庭看电视的情况下，可能有多个角色，但是这多个角色都可以跟我们电视进行人机交互。如果只是传统的语音识别，我们很难做到清晰的声音定位和远场角色识别。有了图像之后，可以把声音和人脸识别检测结合，还有主论坛发布的唇形识别相结合，使得我们的语音识别指令能够更加清晰定位到用户，让远场的交互更加清晰、更精准。

第三个“更安全”。电视业务运营商和服务提供商都知道，对于电视大屏内容安全是我们做电视业务从业者非常关注的。讯飞基于当前整个声音+文字的监控技术，基于语义的敏感内容识别，我们和广科院有非常深的研讨，使得我们现在基于电视大屏语音转文字的能力可以在新的2.0产品中隆重上线。它为我们在电视大屏端创造出更多的应用场景，包括很多合作伙伴说的怎么样才能把大屏的轻社交属性做好，能不能上弹幕的功能，还有用户反馈说运营商有一些很老、很早的视频，这些视频内容没有字幕，能不能把讯飞的字幕转写，把听见转写能力加上去，因此我们在iFLYHOME OS 2.0当中把整个的转写、翻译能力也实时提供给应用的合作伙伴，使得我们真的在大屏社交方向上，可以在电视大屏上做新的应用探索。

刚才我把基于iFLYHOME OS的三大能力提升和三大功能给大家做了简单的介绍。

大家一直说“耳听为虚，眼见为实”，那么它真实的效果怎么样呢，我们的小伙伴做了一个视频，请看大屏幕。这是我们做的一些简单的功能视频模拟，展览馆的科技馆、生活馆都有对应的展区，也欢迎我们的合作伙伴们、开发者们到展厅现场体验我们最新的基于电视大屏的人机交互系统，也欢迎大家能给我们提出更多的宝贵性的改进意见。

所有2.0的功能也面向全行业做全能力的逐步开放，包括给合作伙伴有标准化的虚拟人快速定制系统，还有面向多领域的垂直方向上的能力下沉，包括刚才讲的大屏轻社交、大屏康养、大屏政务、大屏教育等多个领域，都可以做到很好的语音语义、多模态识别支持。同时针对合作伙伴，也把整个接口进行了标准化的对接，使得我们的各项开发工作可以更加高速、高效、快捷。

未来我们会持续地把很多多模态的最新技术与现在的iFLYHOME OS 2.0系统相结合，提供给诸多的产品、应用、合作伙伴，包括情绪感知、体感识别、表情识别、远场手势识别能力，会陆续的在我们的系统当中定期发布。

举一个简单的场景——远场手势识别。上半年，有一个合作伙伴是做棋牌的，他很想把现在很火的象棋、围棋搬到电视大屏上，怎么都找不到解决方案，为什么呢？不管是用遥控按键，还是语音，都没有办法解决在电视大屏场景下去下棋这个核心场景。我们用远场手势识别，让爸爸、爷爷坐在沙发上，用两个简单的动作，一拿，一放，就能解决在电视大屏当中的棋牌场景落地。我坚信我们把诸多的新技术放到多模态解决方案中，会给未来大屏端的应用和服务带来更多的创新以及更大的广阔的发展空间。