21世纪经济报道 赵晓悦 北京报道
移动客户端“今天最后一班从北京开往上海的高铁什么时候发车?”再次遭遇航班取消的A先生,万般无奈之下掏出手机,对着朋友推荐的一款名叫“出门问问”的微信公众账号发出了以上求助指令,仅仅数秒钟,“出门问问”给予了备选答案。
这只是移动互联掀开的语言浪潮里琐碎的日常情景之一。
每天,数以亿计的语音信息,通过语音识别技术被机器转化为文字;它们中的一部分,又以机器学习的方式,被解析出具体的意义,在人机交互中,为用户的语音搜索提供答案。
据统计,Google25%的移动搜索结果来自语音,这一比例在百度亦突破10%;在Siri前后涌现的一批第三方语音助手,正在迅速占领国内智能终端,为用户提供各式信息查询服务和类Siri的简单娱乐功能;而在智能电视、导航、语言学习等领域,远离大众视线的语音公司正在提供最基础的技术支持。
然而,在长达半个世纪关于人工智能的构想中,智能语音的到来却着实显得有些姗姗来迟。
最关键的助推力来自云的成型。“过去,庞大的计算量构成了识别准确率提高的门槛,也限制了识别的应用场景(往往只能是专用领域),而现在的云端计算、移动互联网等终端的便捷接入,使语音识别越来越成为一种普遍服务能力”,关注人脸识别、语音分析等人工智能技术的联想之星执行董事刘维向记者表示。
在中国工业和信息化部披露的未来三到五年规划中,智能语音技术和产业推进作为工作重点,“智能语音真正成为移动互联网入口”被官方正式提出。
不过,对于行业内的创业者们而言,如何将创新技术带向市场,则是一场旷日持久的战役。从最早登上资本市场的科大讯飞,到后起的分布于语音识别和语义分析环节上的大小公司,难免在2B和2C的商业模式之间抉择挣扎。是做横向的技术服务商,还是做纵深的产品提供者?入口当前,语音链条上的各家企业该如何破解产业化难题?
识别之困
走在北京海淀某高校的校园里,你可能会被人冷不丁地叫住,邀请你用自己的乡音,照着本子,对着他手里的移动设备,念一段日常生活的对白。
同样的一幕,换不同的文本,重复成百上千次。这看似“笨重”的工作,却是智能语音流水线的开端。
在语音技术公司云知声正式成立前半年,在招兵买马的同时,基础语音数据的积累已经借由外包公司悄然开展。而这些线下采集的珍贵的海量数据,能够为机器提供更多模拟学习的样本。
云知声联合创始人、CEO梁家恩将语音识别的过程描述为:“通过麦克风捕捉用户发出的声音,将声波信号转换成机器可以处理的‘发音特征’,再结合发音词典和汇集各类词汇排列组合的语言模型,比对搜索出最接近声音波形的句子”。简要地说,机器不必理解句子的意思,就能将语音自动转化为准确的文字。
这是语音技术需要攻破的第一关隘。在国内,从事语音识别技术的创业者大致分为两个“门派”,一派来自清华,另一派来自中科院。梁家恩所在的中科院自动化所从上世纪80年代起致力于语音领域的研究,与清华几乎同时起步。而据一位业内人士撰文估计,全国从事语音技术的专业人才不超过一百人。
梁家恩在大学阶段即见证了“同门”——科大讯飞的崛起。而在移动互联网爆发之前,科大讯飞和捷通华声聚焦于语音合成领域,这项在二战后广为使用的技术,让机器可以念出文本,但随后,科大讯飞又聚焦于语音识别。
不惧科大讯飞和其他众多语音搜索类劲敌,云知声凭借一套被称作深度神经网络的核心技术,迅速站稳脚跟。这项技术增强了在口音和噪音环境下的识别效果,可以单独将识别错误率下降30%以上。而思必驰也使用深度神经网络技术实现了语音识别性能的提升,百度亦在今年年初专门成立了深度神经学院对此进行研发。
在梁家恩看来,语音识别的好处在于统计框架的完整性,“算法和框架在学术界都是公开的,并没有太大差异”,但在这个情况下,要进一步做好只能凭硬功夫,“一样的系统架构,实验室环境下朗读做到90%识别率容易,但在海量用户和实用环境下做到90%的难度还是相当的高”,梁家恩告诉记者。
理解之惑
“如果只有语音识别,我们最多实现了聊天,”梁家恩说,“加上语义理解才能跟真正的业务挂钩。”
在语音产业的下游,语义分析可以所是语音识别的接力。简要地说,语义分析是对输入的句子进行分析,理解句子的逻辑关系,并根据逻辑关系构造用户需要的反馈结果。语义分析应用的经典形式是问答或对话——需要先理解用户的输入,然后生成答案,或者生成需要用户补充的问题。
“旅游垂直搜索去哪儿是由用户填表格,自然语义分析是替用户直接把表格填了”,出门问问创始人李志飞打了个比方。语义分析将文字转化成标准化的表格,利用开放API的数据支持,对接垂直的搜索。
李志飞毕业于约翰霍普金斯大学语言语音处理实验室(CLSP),在获得红杉资本和真格基金投资、确定回国创业之前,他在谷歌研究院开发谷歌翻译产品,其博士研究方向正是人工智能分支之一的机器翻译领域。
李志飞指出,声音的被理解和被识别所面临的技术问题是迥然相异的。对语音识别来说,最大的问题是噪音,不同场景中的环绕声和不同人群使用的方言,声音信号千变万化。而语义分析的难点在于,同样意思的句子,有着各种不同的用词和语序,“比如南方航空公司和南航,上海和魔都”。
师从国内语义分析专家、北京交通大学贺仲雄先生的虫洞CEO俞志晨告诉记者,语义分析的技术路线分为两种:一是靠规则库做匹配,把语言规则化以后进行配对;另一种是依靠机器学习的方式,通过智能网络,训练算法。“而一个成熟的语音产品一定会使用后者”,他表示,不过,在早期阶段往往采用两者结合的方式。
但同处语义分析环节,两位创业者却选择以不同的方式抵达用户。
早期定位于实用性功能搜索查询的虫洞,在Siri出现后受到启发,以对话的交互方式串联了原有的一系列功能。俞志晨认为,查询信息是一场连贯的过程,需要不断反馈和交互,才能得到准确的信息,而用户也希望在说完后得到有人情味的回答。
而李志飞让出门问问回避了Siri式的对话“调戏”场景,用户一次语音换一个答案。他的理由是,人们在对话中会反问很多问题,甚至把机器当作自然人与之聊天。“对话管理是下一阶段。现在先弄清楚一句话本身是什么意思——这是基本功”,李志飞说。
刘维表示,从技术上讲,为了让机器理解人的语言,确实需要从语音到文本、文本到理解两个部分,但如果这两个环节割裂开来处理,很难真的理解自然语言。
对风险投资者来说,语音市场的爆发有赖于两个环节基本技术的共同成熟。刘维认为,只有这样,才能从更高的层面,也就是人机对话系统的层面,整合两个技术、更加人工智能的去通过多轮次对话,反复和用户交流,真正去理解用户的自然语言,而不是简单的“语音听写”和“文本搜索”。
模式之争
对于一个技术密集的语音行业来说,需要攻克的不只是技术难题,而更具挑战性的当属市场的开拓。
在Siri让更广阔的人群了解语音的面容之前,一些先行者已经开始从行业应用率先寻找语音市场的“登陆点”。
教育领域或许是第一个兵家必争之地。
在自动化所的五年时间里,从事语音识别核心技术研发的梁家恩,就和同事们共同开发了一套英语口语评估系统。
而在欧亚大陆的另一端,高始兴和几位剑桥大学的师生联合创办的思必驰公司,也将海外汉语口语教育作为首块战场。整套语音识别、合成和评测技术,配上高涨的语言学习热情和时兴的资质考试,听上去颇有默契、顺理成章的商业模式。
但思必驰的实践并不顺利,高始兴发现,在一个初生的市场,关键并不在于“技术有多好”,“实际上,用户对技术的理解还隔着好几层”。
2008年,分散而捉摸不定的汉语口语市场让思必驰折戟回国,重新选择以英语口语评测为切口,开始二次创业,以第二代智能语音分析和人机对话技术为基础,思必驰在国内首次实现了针对对话交流能力的评测,并成为国际上第一个为英语考试口试提供完整机器评测的语音公司。
当思必驰为新东方等英语教育公司开发出人机对话的口语学习系统时,梁家恩的评估系统却卖给了语音行业的龙头企业科大讯飞。而在今年6月25日,科大讯飞以自有资金4.8亿元收购广东启明科技,收购溢价达580%,后者又是一家口语考试测试系统提供商。
显然,竞争日趋激烈的教育行业已无法承担全部的登陆重任。思必驰正悄然将基于深度神经网络的语音识别和语音合成等技术应用在车载系统等智能设备领域。“车载天然以语音交互为主”,俞志晨亦预测,车载导航和穿戴式设备将是语音行业中早期的市场爆发点,虫洞选择与深圳乐投等相关公司合作开发语音。
而上述一切储备,似乎都为语音在移动互联端的登陆做出预演。人们可以数出应用市场、浏览器、APP和手机桌面四个已经成型的移动互联入口,语音则是呼声日渐高涨的入口候选者。
对于完全诞生在移动互联时代的出门问问而言,先行者们的路径,显然并不用过多参考。从今年4月起,为微信用户提供生活服务查询的出门问问公众号,以每月数倍的增长,迅速累计起超过10万的用户,成为微信官方推荐的十大应用之一,远超其早一月上线的Android移动端。