近日来,资本领域的第三方独立调研机构弘则研究在上海举办了针对新兴产业的年终策略会,会上,来自TMT、医疗及高端设备在内的行业专家,分享了相关领域发展现状和未来的发展方向,其中聚熵智能CEO何永作为人工智能领域的专家,向与会者分享了自己对于人工智能的理解和思考。
人工智能近期成为热门话题,人们甚至担心人工智能超过人类智能以后的伦理问题。而何永认为这个讨论还为时过早。下面是何永关于人工智能的一些分享:
数学还是伦理:人工智能将成为伦理问题?
近期关于人工智能的讨论很多,比如说人工智能会不会超越人类等比较哲学的讨论,更有甚者,把机器人智能问题上升到了伦理高度。
对此,专注于人工智能领域创业的何永认为,就目前来看,人工智能更多的是数学问题,还没到需要上升到伦理讨论的阶段。
目前的人工智能在一些逻辑推理方面可以说已经超过人了,比如下象棋,大多数人已经无法战胜计算机了。不过在认知领域人工智能还有很多路要走,机器人在理解这个世界,认知情感、做出决策等领域可以的事情还非常有限。
何永认为,这几年人工智能技术相对于之前是有长足的发展的。这主要取决于软件和硬件下面几个方面的发展。
一,随着摩尔定律,硬件成本不断的降低,海量计算和存储变得廉价。
二,随着云计算的普及,大规模分布式计算变的非常容易,任何公司都可以非常容易的构建自己的数据中心。
三,像神经网络这样的机器学习算法的的发展,让之前很多的不可能变成可能。大家都知道谷歌之前让机器自发认识一只猫,只要你用足够多猫的数据训练你的系统。这个放在其他领域也成立,通过大数据训练,机器可以做很多此前只有人才能做的事情。
四、因为前面这些先决条件,海量的数据可以被积累下来并进行处理分析。
通过现在的人工智能,在限定的领域已经可以很好完成相关的工作。我们聚熵是最早做手机语音助手的企业,从2012年开始,装机有千万等级。通过语音助手,我们积累的大量的用户数据,这让聚熵可以做很多的事情。
技术现状:语音突发猛进、语义难度不小
目前语音识别和语义理解是当下人工智能领域最热门的话题。据何永介绍,聚熵智能在这两方面比较有经验的。
识别技术在过去的几十年里,一直沿用和优化的模型是HMM模型,就是所谓的隐马尔科夫模型,无论是学术界还是工业界都是以HMM为根基而展开工作,虽然也能够实现语音识别的功能,但在精确度上已经达到了一个瓶颈,可以优化的空间已经被挖掘的很小了。
2006年的时候,加拿大多伦多大学的Hinton教授首次提出了深度学习的概念,建立在这个概念之上,产生了许多高效的算法,如深度神经网络,卷积神经网络等等。研究发现这些算法对语音识别和图像识别的效果提升特别显著。
深度学习的概念提出来之后,特别是当时的DNN,就是常说的深度神经网络,给语音识别带来了惊喜,不但突破了瓶颈,而且精度提升了一个量级,所以像谷歌,微软等也都开始转向使用深度学习的框架训练模型。聚熵目前也采用DNN训练我们的语音模型,并且取得了非常好的识别效果。
目前语音识别的难度第一在于模型的训练调参,另外模型训练出来的好坏也有不确定性,这就需要大量的试验。因为每次调参后都要重新训练,训练中的计算量非常庞大,训练的周期会相对来说比较长。这些是目前在识别领域遇到的问题。
为了应对上面所说的问题,主要有这么几个解决方案。
一,加大对算法的研发投入,不断对算法进行调优,我们现在有很多专业的研究人员专门进行算法的研究。
二、如之前所说的计算资源的成本下降,所以现在非常流行高性能并行计算,会用机群去跑模型,减少所用时间。
三、探索新硬件的应用,目前流行的除了CPU还会使用GPU去跑模型,减少训练周期从而达到最好的训练效果。
总体来说,现在的算法和硬件已经可以比较好的解决语音识别的问题。
虽然深度学习在语音识别和图像识别中都达到了非常好的效果,但在语义理解中的贡献却没有那么大。语义理解也是一门非常难的科目,对同一个意思每个人的表达都会不一样,特别是中文博大精深,表达同一句话的时候也不见得每次都是一个意思,而且在口语中,中文的语法省略又是特别严重的,所以在中文的语义理解里面挑战非常大。中文可以说是最难做的语义识别的语言。
语义理解在全领域中的发展的确比较缓慢,如果没有给定的限定环境,计算机不能够很好理解用户的意图,总是给人文不对题的感觉。从算法层面上其实也很难去解决一个无限集合的有限化的问题。
幸运的是聚熵智能发现在某个特定领域中的现在机器的语义理解的表现还是非常不错的,比如我们的音乐领域,经过我们的技术优化,目前小智管家机器人在音乐领域、紫能家居控制领域的识别率可以到达99%,这个是非常难得的。
聚熵之所以可以做语音和语义,是因为我们有比较好的积累,包括数据上和技术上。之前说了,训练模型需要大量的数据,在这方面我们有很好的积累,除了业界通过的训练样本,我们还有大量真实用户积累下来的海量数据。另外聚熵最早进入了相关领域,为自己积累了相关的数据来研究相应的算法。
突破与瓶颈:理论突破带来应用爆发
和上面所谈及的语义以及语音的发展相辅相成的在广义的人工智能领域,将会呈现类似的情况,各种“识别”由于理论的突破,将迎来应用的爆发期。在限定领域,通过算法的优化,机器将可以做更多的事情。而在更加深层次的、类似人类情感的人工智能上,突破还有赖于新的算法或者硬件上的新的发现。
在可以预见的将来,人工智能在传统的“模式识别”领域将理解迎来大量的突破和应用。机器在试验环境中已经能很好的识别各种声音、文字、图片甚至是行为。未来几年,这些技术将大范围的实际的应用结合,为人们生活带来巨大的改变。
未来几年,语音、计算机视觉技术将成为很多相关行业的标配。很可能5年内,遥控成为历史,按键和触摸屏的使用也大大减少,语音成为主要的控制方式。而在安防等领域,基于模式识别和行为预测的人工智能将大大减少安防领域的人力配置,但提供更好的监控和预警。包括自动驾驶这样集成多种人工智能技术的综合应用将大大方便人们的生活。
在模式识别和专业领域之外,新的算法和硬件可能为人工智能带来突飞猛进的变化。目前谷歌已经宣称通过量子计算机将某些计算的速度提高到现有硬件的一亿倍。配合硬件的发展,将有大量的新的算法和应用开发出来,就像目前大规模并行计算使得深度神经网络算法成为主流,相信新的硬件也会带来新的软件算法。
另外,人工智能和生命科学的结合,也可能带来意想不到的结果。也许在某个时间点,人和机器将结合成为一种新的生命形态。当然这些可能有点扯远了,但随着技术的发展,一切都有可能。
电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。
作为今日头条青云计划、百家号百+计划获得者,2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者,曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。
投稿、商务合作请联络微信公众号
声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。