繁体|设为首页|加入收藏|网站地图|RSS
请选择搜索分类 新闻 图片 图片模型 专题

场景应用成智能语音决胜关键

2016-04-21 17:19:19来源:人民网
穿越到手机

微信扫一扫 分享更精彩

评论:0条评论字号:T|T

场景应用成智能语音决胜关键

柏可林 摄

谷歌、微软、科大讯飞等科技公司在智能语音方面的带动作用,使得我们在日常生活中已经不乏看到语音技术的应用。虽然触摸屏和键盘仍然是今天人机交互主要媒介,但未来语音交互或可与之平分天下。智能语音的发展将推动人工智能的发展,使我们的生活变得更轻松更美好。

英语口语考试,你的考官不是人,而是一台计算机,它直接给你打分;一边开车一边对你的车说话下命令,“帮我打电话给妈妈”、“帮我买明天去北京的机票”、“带我去最近的面馆”;躺在病床上,不用动身体,直接开口对空调说“把温度调到26度”。

语音直接说话下命令,代替按键、触摸屏,是人更自然的体验。语音技术正让机器像人一样用语音交流。

4月13日,科大讯飞发布公告,预计4月18日复牌交易,目前正在收购北京乐知行教育的股份。科大讯飞正努力从基础技术提供商,转型为应用服务提供商,因为后者利润率远高于前者,而此次收购教育软件公司就是其拓展“语音+教育”的重要一步。

谷歌美国公司语音技术人员向《国际金融报》记者透露,谷歌正在各项服务中全面融入语音技术。微软的开发者大会提出“对话即平台” (Conversation as Platform)计划,简单说就是“想让你对机器说句话就把事给办了”。微软CEO纳德拉表示,语音指令正成为键盘、触摸屏之后的新一代人机对话方式。

当下正是转型关键期,各大企业的竞争也从单纯技术水平转变到应用场景的用户,“语音+各个应用场景”成为这百亿市场的制胜关键。

科大讯飞:从幕后到台前

科大讯飞自称占中文语音市场70%份额,以其为案例,或许可对这个行业略窥一二。

科大讯飞董秘江涛透露,目前科大讯飞在企业端和终端消费者端的业务占比分别是80%和20%,公司的目标是今后使这两块比重倒置,此次收购教育软件公司也是其“语音+教育”的重要一步。

科大讯飞要让终端消费者成为自己主要的用户?而科大讯飞目前的客户还是以政府、国企为主,这家具有国企背景的公司,如何能抓住互联网时代终端消费者的心?

面对记者的这一提问,科大讯飞并没有给出明确的回答,或许科大讯飞看到了市场未来的大势,但具体怎么落地实施,仍需时日来摸索。

于是记者试图从其目前技术中,梳理出科大讯飞可能的方向。要具体应用于终端消费者,首先需要确定在什么场景下、谁来用这项服务、用户有哪些需要,因此,服务的场景、用户特征需要首先锁定。换句话说,需要锁定垂直细分领域,再根据这一领域的具体场景配置技术。

比如,机器自动翻译应用在手机端。科大讯飞称,“随声译”功能达到了大学英语六级水平,一秒钟内能实现中英语音互译。

据科大讯飞公司介绍,在广东、江苏、上海、重庆、山东等10余省市的中高考英语听说考试中,开始试点用机器当考官,全年累计测试考生数近1000万。此外,用机器来改作文,也已经在安庆、合肥、湖南等地试点应用。

目前打客服电话需要通过一层层语音提示、按键,能否一次性直接得到想要的答案?“智能客服未来会替换掉50%以上的人工。”科大讯飞公司向《国 际金融报》记者表示。安徽(科大讯飞起家的地方)省移动公司目前用科大讯飞的技术,可以基本实现语音直接搜索答案。科大讯飞为中国联通建设的智能语音客服 ——语音导航系统的试点建设,为其节省了20%以上的人工成本。另外,政府背景的金融机构、国家电网、航空公司、政府机关、医疗机构、广电行业,以及速运 行业等主要呼叫中心,正在使用科大讯飞的机器语音应答。

目前已有31款车在出厂前搭载了科大讯飞的智能语音系统。同时,在政府基础设施建设上,科大讯飞也与江西、广西、吉林等省展开合作。

《国际金融报》记者还发现,科大讯飞开放云平台、投资创业公司支持创业者,这些都是科大讯飞寻找终端消费者市场的方法。科大讯飞告诉记者:“我 们现在每天都在分析云平台上的创业者,有哪些值得我们去投;在看我们产业链的上下游,哪些能跟我们最优势互补。比如在教育中做内容的、做教育应用的等。”

科大讯飞打算从幕后跳到台前,但这直接把自己变成了客户的竞争对手。一位业内人士向记者坦言,“科大讯飞的八麦技术只自己用,对外只卖五麦,这让客户担心,科大讯飞并没有为客户提供最好的服务。”

而互联网终端消费者的应用场景,大部分被BAT(百度、阿里、腾讯)等互联网公司占据。于是,语音技术公司直接从基础技术提供商,成为了抢占终端消费者的互联网公司对手,这家从语音技术起家的公司,需要另外开辟BAT并不擅长的终端用户。

之前,科大讯飞的模式是:提前在技术上布局、积累,等待“风口”到来后爆发。创新工场董事长兼CEO李开复表示:“大部分价值数十亿美元的中国 软件公司全都是借助互联网的爆发完成了积累,科大讯飞走的却是一条艰苦的发展之路——他们很早就研发了语音识别的尖端技术,寻找早期的使用者,挖掘出一个 当时并不存在的市场。”

在互联网时代,基础技术提供商的危机在于,无法直接接触终端消费者,而被其他公司层层“剥削”利润,往往容易受到巨头价格战和免费模式的绞杀,这是许多基础技术提供商压力剧增的重要原因,也是科大讯飞不得不转型的关键。

科大讯飞目前的策略就是,为大部分领域提供底层的技术服务,但是在人机交互(如电视、手机、汽车的应用)、儿童教育领域、国家信息安全传播三大分支领域,跳脱单一的技术提供商角色,提供深化的应用服务。

全球许多科技公司都有这个特点:靠科技驱动,而对消费者的实际需求缺少切实的充分考量。他们的口号是:在火车出现前,人们只会说,“我想要一匹更快的马”。开创前沿科技的人认为,消费者是被动的,消费者需要被技术引导,而不是“技术大佬”来服务消费者。

然而,语音技术有点尴尬。它既不被认为是“科技巅峰”技术,也不被认为是消费者普遍的基本需求。高低两头都不占优势。

不得不正视的问题是,用语音来实现人机对话,是消费者的刚性需求、不得不用吗?在哪些情况下是刚性需求,哪些情况下是锦上添花或玩具?针对记者 的这一提问,业内各家公司都没有给出明确回答。“用户最基本的需求还没满足,何况语音这种非刚性需求。”科大讯飞上市前,关注并投资过该公司的一位股权基 金董事总经理告诉《国际金融报》记者。

阿里云的技术人员说:“关键是,你要找到用户真正刚性的需求,而且是用户真正需要,不是你想象的以为别人需要。用户愿意付费或者离不开的应用场景是什么?”

“出门问问”首席技术官(CTO)雷欣向《国际金融报》记者表示,某些场景下语音确实是刚需,比如开车时不方便接电话、不方便输入文字等。然而,“出门问问”也没有再举出更多语音作为刚需的场景。

因此,各公司基本都开放了自己的语音云平台,免费提供多项服务,一方面吸引用户提供数据,一方面从中找到语音技术的“用武之地”。

行业格局:基本都to B

以后开会时,现场速记就可以由机器自动完成。机器语音识别率可以达到95%左右,远超过人类速记员的速度和准确率。

不会外语听不懂外国视频?用YouTube的人都知道,不论哪部视频,YouTube可以自动显示其字幕,也可以自动翻译成用户需要的语言。

不会外语怎么跟外国人打电话?机器可以直接帮你把声音相互翻译成彼此的语言。

语言是人类区别于动物的重要标志,是人类智力最基本也最高级的体现形式之一,企业正让机器也可以像真人一样机智地执行命令。

4月13日,百度宣布公司部门重构。百度董事长兼CEO李彦宏宣布,今后他将把人工智能作为自己工作的三大重点之一。人工智能将成为互联网后人类科技新高地,这几乎已成全球共识,但如何切入?智能语音是一些公司选择的切入口。

语音技术目前主要包括:说话下命令、通过语音判断身份(如银行密码、保险锁、公安刑侦)、需要语音的场合(电话客服、口语考试)的自动服务、语音与文字的互相转化等。而语音识别只是其中最基本的功能。

起步阶段的语音市场,总量并不大,但《国际金融报》记者发现,该产业在国内只有五六家公司,相比于万亿规模却百舸争流的“红海市场”,该领域每家公司分到的市场空间并不小。

目前哪些公司在做语音技术?它们有什么区别?

总体而言,多数公司是整个互联网、物联网的基础技术提供商,基本都是to B(即机构用户)而不是to C(终端消费者)。科大讯飞公司体量最大,多数项目来自政府合作;思必驰、云知声目标市场最接近,都是车载后市场(即出厂后配置的)、家居物品、机器人, 其基础技术散在各个垂直细分领域,随客户公司的领域而随时变化;谷歌在中国投资的“出门问问”(约占一成股份),目前产品主要是语音输入的手表。

值得注意的是,《国际金融报》记者发现,智能语音领域并不是BAT、谷歌、苹果等所谓的巨头最领先,它们针对消费者提供终端应用产品,而不代表 其技术最强。“苹果公司的Siri做了这么多年,不还是个玩具吗?”阿里巴巴一位技术人员对《国际金融报》记者说。针对终端消费者的这些互联网公司,基本 不对外输出技术,BAT也通过投资创业公司来获取语音技术。

其中,百度语音达到专业水平,“所有技术全都是百度自己开发。”其技术人员向《国际金融报》记者表示。记者试用了百度医生,只需对手机说“我肚 子痛”,百度医生就显示了十几位相关医生的信息供选择。阿里巴巴、腾讯相对较弱,BAT基本把语音作为自己现有产品的附加功能,如阿里基于产品搜索服务电 商平台,微软聊天机器人为了得到聊天数据,并没有实际功能。

如果说过去几十年,全球语音行业的关键瓶颈是识别的准确率等技术问题,那么今天,机器听打比人工速记的准确率更高,下一步语音公司的核心竞争力又在哪?

阿里云一位技术人员对《国际金融报》记者说,“如果只是语音识别,对错都一目了然,所以你可以给机器数据,反复地训练它。而语音执行命令,就涉及各个场景,需要大量知识库,只要是无法明确量化、对错标准模糊的场景,就很难训练机器,因为它不知道你想让它怎么做。”

需要特别注意的是,《国际金融报》记者发现,尽管各家公司都号称自己是以语音为切入口的人工智能公司,但语音技术本身严重同质化,若目标细分市场再继续同质化,而缺少各家自己的特色,市场发展可能不会如人们想象的乐观。

为什么不做to C?第一,不敢直接把客户变成竞争对手;第二,公司体量较小、数据不足、对终端消费者理解不深。用业内的话说,“把终端消费者交给专门做产品的公司,我们专心做to B的软件”。

科技公司正推动机器不仅能听懂语音的指令,更重要的是能理解、会思考,并帮你解决问题。比如,“帮我买明天去北京的机票”,语音识别非常简单, 但要确定起降机场、航空公司、价格、选时间段,而被选择的信息可能是不标准的。机器人相当于人几岁的年龄才能独立完成买机票这项任务呢?以此为例,不少公 司正在积极探索类似的应用场景。

未来趋势:垂直细分

智能语音产业并不是以大取胜,并非范围铺的越大、叫得越响、效果就越好。一些小型创业公司反而在某些单点技术上成为最优。

例如,在真实场景中,噪音、被打断、离太远听不清,非常常见,因此不是简单一个识别率的问题而已。思必驰是一家只针对智能硬件厂商提供语音解决 方案的公司,“在去年7月推出‘打断纠正’的智能交互技术,科大讯飞比它晚5个月,思必驰的语音输入板比科大讯飞早一年,但在严重噪声干扰中,准确率明显 高于科大讯飞、百度语音。2015年发现了机器人对远场交互、声源定位的刚需,在去年12月推出环形‘6+1’远场麦克风阵列,讯飞是今年3月推出的。” 思必驰公司市场负责人龙梦竹介绍。

但创业公司既要避开互联网大公司,又要开辟科大讯飞已经抢占市场之外的其他领域。

“我们专注的是交互,而不是识别。语音交互好不好,重点不在于识别准确率,而是垂直场景下的语义理解,以及后端服务。举个例子,如果你对机器说 ‘帮我放一首许巍的《生活不止眼前的苟且》’,如果机器回答你‘抱歉,找不到您要的服务’。用户只会觉得是交互不好,不智能。其实核心问题是,后端的内容 不够。”龙梦竹告诉记者。

因此,“阿里年初投了思必驰,重点不是资金,而是我们看中阿里能带来的资源,比如高德、虾米音乐、神马搜索、云os等。”龙梦竹告诉记者。

这些创业公司需要非常专注在某一垂直细分领域,针对具体场景来为客户量身定制开发技术。“我们不做客服、不做教育、不做智慧城市,专注在车载、 家居、机器人三个垂直领域的解决方案。车载后市场中,思必驰大约占45%市场。我们也没做方言,没做英语。但2014年以来的订单快速增加,证明了在专业 领域的技术水平。”思必驰公司市场负责人告诉记者。

另一家to B的基础技术公司云知声的CEO黄伟向《国际金融报》记者表示,“在应用层面,公司提供AI芯(智能芯片)、AIUI(智能界面)、AI Service(智能服务)三大解决方案。”

人工智能芯片,即把智能程序植入芯片,例如针对空调的程序植入芯片后就可以装入各家公司的产品中,目前云知声芯片已经在美的、格力、华帝、海信 植入芯片。“与讯飞、百度相比,云知声的技术定位是重点解决基于物联网设备的智能服务,尤其是从芯片级的紧密配合,直到打通云端服务。”黄伟表示。

智能界面,即人机交互界面,包括车载后市场(即出厂后车主自己配置的工具)、智能家居(在家具中植入智能语音程序)、智能机器人等。

而智能服务,是基于开放平台的SDK(软件开发工具包)。在这一方面,医院或许是个大市场。例如,医生不用再手写病历,直接说话即可自动录入。 不仅如此,黄伟介绍,“云知声希望实现智能语音交互的知识问答、病历查询,进行健康风险预测和患者分群分析。目前合作伙伴包括北大医信、飞利浦医疗、北京 协和医院、北京大学人民医院、江苏省肿瘤医院等。”

除了to B市场,“出门问问”是一家做2C(面向消费者)方向软硬结合的公司,谷歌公司占其一成股份。公司推出了智能手表Ticwatch,以及针对安卓穿戴、谷歌眼镜的智能语音操控应用、中文智能手表操作系统Ticwear。

总体而言,智能语音产业将呈现“多点开花、群星闪耀”的市场格局,但前提是能理解用户真实需求,否则不理解用户的语音将难以作为人工智能的切入口,而停留在语音只是语音的阶段。当下,正是该领域决胜负的关键战略期。

网友评论

排行

点击评论关注