近日,清华大学-中国工程院知识与智能联合研究中心与中国人工智能学会吴文俊人工智能科学技术奖评选基地联合发布《2019年人工智能发展报告》,评选出人工智能13个重点领域,包括深度学习、计算机视觉、语音识别、机器人学等热点前沿技术,包括基础和应用研究与发展趋势。
深度学习在图像、声音等感性问题上取得了突破
机器学习是一门多学科交叉的学科,专门研究计算机如何模拟或实现人类的学习行为来获取新的知识或技能。
1950年,艾伦·图灵创造了图灵测试来判断计算机是否智能。图灵测试认为,机器如果能和人类对话,不能被识别为机器,那么它就是智能的。这种简化使图灵能够令人信服地解释“思维机器”是可能的。
后来,ibm科学家亚瑟·塞缪尔(Arthur Samuel)开发的跳棋程序驳斥了普罗维登斯关于机器无法超越人类的论断,他创造了“机器学习”这个术语。
但是从60年代中期到70年代后期,机器学习的发展几乎停滞不前。无论是理论研究还是计算机硬件限制,整个人工智能领域的发展都遇到了很大的瓶颈,而神经网络学习机由于理论上的缺陷也没能达到预期的效果。直到韦伯在神经网络的反向传播(bp)算法中提出多层感知器模型,机器学习才得以复兴,直到今天,bp算法仍然是神经网络体系结构的关键因素。
神经网络研究者提出了用bp算法训练多参数线性规划的思想,成为深度学习的基石。在另一个谱系中,昆兰提出了一个非常著名的机器学习算法,具体是id3算法,目前在机器学习领域仍然很活跃。
机器学习迎来了爆发期。神经网络研究领域的领军人物hinton在2006年提出了神经网络深度学习算法,大大提高了神经网络的能力。辛顿和他的学生salakhutdinov在《科学》上发表了一篇文章,引发了学术界和工业界的深度学习浪潮。
2015年,为纪念人工智能概念诞生60周年,lecun、bengio和hinton发起了深度学习联合评论。深度学习可以使具有多个处理层的计算模型学习具有多层次抽象的数据表示,这些方法在许多方面带来了显著的改进。深度学习的出现,在图像、声音等感知问题上取得了真正的突破,如此接近实际应用,人工智能被推向了一个新的时代。
计算机视觉已经产生了诸如人脸识别和智能视频监控等应用
计算机视觉,顾名思义,就是分析研究计算机用人眼“看”的智能,即对客观三维世界的理解和识别依赖于智能计算机的研究科学。
计算机视觉技术利用摄像头和计算机代替人眼,使计算机具有分割、分类、识别、跟踪、判别、决策等功能。
david marr的书《视觉》的出版标志着计算机视觉已经成为一门独立的学科。在计算机视觉40多年的发展过程中,虽然提出了大量的理论和方法,但总体来说,计算机视觉经历了三个主要过程:马尔代夫计算视觉、多视图几何和分层三维重建、基于学习的视觉。
目前,调整计算机中的“深层网络”来提高物体识别的准确性,似乎相当于从事“视觉研究”。Mal的计算视觉分为计算理论、表达式与算法、算法实现三个层次。因为Mal认为算法的实现不影响算法的功能和效果,所以Mal的计算视觉理论主要讨论两个部分:“计算理论”和“表达式与算法”。
Mal认为大脑的神经计算和计算机的数值计算没有本质区别,所以Mal不讨论“算法实现”。从目前神经科学的进展来看,“神经计算”和数值计算在某些情况下有本质区别,比如神经形态学计算,但一般来说,“数值计算”可以“模拟神经计算”。至少从现在开始,“算法的不同实现方式”并不影响Malr计算视觉理论的本质属性。
20世纪90年代初,计算机视觉从“萧条”走向“繁荣”,主要得益于以下两个因素:一方面,目标应用领域从对精度和鲁棒性要求高的“工业应用”转变为要求低的应用,尤其是那些只需要“视觉效果”的应用,如远程视频会议、考古、虚拟现实、视频监控等;另一方面,已经发现基于多视图几何理论的分层三维重建可以有效地提高三维重建的鲁棒性和准确性。
多视角几何的代表人物是法国英里亚的福杰拉斯、美国通用电气研究所的哈特里和英国牛津大学的塞塞曼。hartely和zisserman在2000年合著的书对这方面进行了系统的总结。大数据需要全自动重建,全自动重建需要反复优化,需要大量的计算资源。举个简单的例子,如果要对北京中关村地区进行三维重建,为了保证重建的完整性,需要获取大量的地面和无人机图像。如果采集到10000幅地面高分辨率图像(4000×3000)和5000幅高分辨率无人机图像(8000×7000),三维重建应该匹配这些图像,选择合适的图像集,标定摄像机位置信息,重建场景的三维结构。这么大的数据量,人工干预是不可能的,所以整个三维重建过程必须全自动化。
基于学习的视觉是指以机器学习为主要技术手段的计算机视觉研究。根据基于学习的视觉研究,文献中有两个阶段:21世纪初以流形学习为代表的亚空方法和目前以深度学习为代表的视觉方法。
近年来,海量数据的不断涌现和计算能力的快速提高给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的机遇和挑战。因此,计算机视觉已经成为学术界和工业界公认的具有前瞻性的研究领域,一些研究成果已经在实践中得到应用,催生了人脸识别、智能视频监控等诸多高度展示的商业应用。
语音识别应用于工业、通信、医疗等行业
语音识别是一门新的学科,它允许机器识别和理解说话者的语音信号内容。目的是将语音信号转换成文本字符或命令。理解说话人的语义内容,让他理解人类的言语,是一种非常自然有效的人机交流方式。
语音识别的研究工作可以追溯到20世纪50年代。1952年,at t贝尔研究所成功地研究了世界上第一个语音识别系统audry系统,它能识别10种英语数字发音。该系统识别一个人说出的孤立数字,并严重依赖于每个数字中元音共振峰的测量。
计算机的应用促进了语音识别技术的发展。将电子计算机用于语音识别,提出了语音识别技术的一系列新理论——动态规划线性预测分析技术,较好地解决了语音信号生成的模型问题。20世纪70年代,语音识别研究取得了具有里程碑意义的巨大成就。随着自然语言理解的研究和微电子技术的发展,语音识别领域取得了突破性进展。这一时期的语音识别方法基本采用传统的模式识别策略。
后来语音识别的研究更进一步。这一时期取得了重大进展:隐马尔可夫模型(hmm)技术不断成熟和完善,最终成为语音识别的主流方法;基于知识的语音识别越来越受到重视。在连续语音识别过程中,除了识别声学信息外,我们更多地利用各种语言知识,如构词、句法、语义、对话背景等,帮助进一步的语音识别和理解。同时,在语音识别研究领域,也产生了基于统计概率的语言模型;人工神经网络在语音识别中的应用研究正在兴起。Ann具有很好的区分复杂分类边界的能力,显然对模式识别很有帮助。在这些研究中,大多采用基于反向传播算法(bp算法)的多层传感网络。
语音识别技术逐渐走向实用化,在特征参数的建模、提取和优化方面取得突破性进展,使系统更具适应性。许多发达国家和著名公司投入大量资金开发和研究实用的语音识别产品,从而出现了许多有代表性的产品。例如,ibm开发的中文viavoice系统和dragon开发的Dragon Disper系统都具有说话人自适应能力,可以在用户使用过程中不断提高识别率。
进入21世纪后,深度学习技术极大地推动了语音识别技术的进步,大大提高了其识别准确率,其应用得到了广泛的发展。2009年,hinton将Deep Neural Network (dnn)应用于语音的声学建模,取得了当时在timit上的最佳结果。2011年底,微软研究院的俞东和李征将dnn技术应用到大词汇量的连续语音识别中,大大降低了语音识别的错误率。从此语音识别进入了dnn-hmm时代。dnn带来的好处是不再需要假设语音数据的分布,相邻语音帧的拼接也包含了语音的时序结构信息,使得状态的分类概率显著提高。同时,dnn还具有很强的环境学习能力,可以提高对噪声和口音的鲁棒性。
目前,语音识别技术已经逐渐应用于工业、通信、商业、家电、医疗、汽车电子和家庭服务等各个领域。比如现在流行的手机语音助手将语音识别技术应用到智能手机上,可以实现人与手机的智能对话,包括siri语音助手、智能360语音助手、百度语音助手等。
机器人越来越接近有机生命
机器人广义上包括所有模拟人类行为或思想的机器和其他生物(如机器狗、机器猫等)。)。目前,智能机器人已经成为世界范围内的研究热点之一,也是衡量一个国家工业化水平的重要标志。
机器人技术首先应用于工业领域。然而,随着机器人技术的发展和各行业需求的提升,以及计算机技术、网络技术和微机电系统技术等新技术的发展,近年来,机器人技术正从传统的工业制造领域迅速扩展到医疗服务、教育娱乐、勘探测量、生物工程、救灾等领域,满足不同领域需求的机器人系统得到了深入研究和发展。在过去的几十年里,机器人技术的研究和应用极大地推动了人类的工业化和现代化进程,逐渐形成了机器人的产业链,使得机器人的应用范围日益广泛。
随着机器人在工业生产中的出现,对机器人技术的研究也在不断深入。1961年,麻省理工学院林肯实验室将装有触摸传感器的遥控机械手的驱动部分与计算机相连,从而形成了一个可以通过触摸来确定物体状态的机器人。随后,以电视摄像机为输入的计算机图像处理和目标识别的研究工作也相继取得了成果。1968年,j·麦卡锡和斯坦福人工智能实验室的其他人研究了一个新课题——用手、眼睛和耳朵开发一个计算机系统。因此,智能机器人的研究形象逐渐变得丰满。
自20世纪70年代以来,机器人产业蓬勃发展,机器人技术发展成为一门特殊的学科。首先,工业机器人开始在汽车制造业的装配线生产中大规模应用。然后,日本、德国、美国等发达国家开始在其他工业生产中使用机器人。
后来,机器人变得越来越聪明。这种机器人具有多种传感器,能够融合多种传感器获得的信息,能够有效适应不断变化的环境,具有很强的自适应性、学习能力和自主功能。
智能机器人的发展主要经历了三个阶段,即可编程试教、再现机器人、具有感知和适应能力的机器人、智能机器人。涉及的关键技术有多传感器信息融合、导航定位、路径规划、机器人视觉智能控制和人机界面技术。
21世纪,随着劳动力成本和技术的不断提高,许多国家纷纷进行制造业的转型升级,出现了机器人代替人的热潮。同时,随着人工智能的快速发展,服务机器人已经开始进入普通家庭的生活。
世界上很多机器人技术公司都在大力发展机器人技术,机器人的特性也越来越接近有机生命。最近,波士顿动力公司在机器人领域的成就成为人们关注的焦点,其产品spot,一只机器狗,atlas,一个双足类人机器人,令人叹为观止。Spot的功能很高级,可以去你告诉它去的目的地,避开障碍物,极端情况下保持平衡。Spot还可以携带多达四个硬件模块,为公司提供其他机器人完成特定任务所需的任何技能;Atlas掌握了倒立、360度翻转、旋转等多项技能。在表演了跑酷、背空翻筋斗等特技后,阿特拉斯掌握了一项新技能——体操,这又一次让人们大开眼界。
(记者杨舒采访)
标题:[科学技术]人工智能发展的热点透视 机器人与有机生命越来越接近
地址:http://www.heliu2.cn/xw/9902.html