近几年,经常会听到有人谈论人工智能(AI)、机器学习、神经网络、深度学习等AI流行术语。但是,可能很多人(甚至一些业内人士)并不是很清楚这些术语的真正意思,经常会“滥用”这些术语。下面就来解释下这四个AI术语的含义和相互关系。
外围最大的一个圈用来表示人工智能,它除了包含机器学习,还包含非机器学习。所谓非机器学习就是人教机器学,过去叫专家系统。举个例子,如果我们设计智能驾驶无人车,就把“红灯停,绿灯行,黄灯亮了等一等”这些人类驾驶经验全部总结出来,然后把情况和处理方式一一对应地输入到电脑中,就是告诉机器“如果遇到这种情况,就那样处理”。现实问题是,人类驾驶过程中遇到的情况多到根本无法穷尽,这条路最终证明走不通。所以,专家系统在20世纪80年底热了一阵就冷下去了。
但是,人类对计算机科学的期望越来越高,要求它解决的问题越来越复杂,非机器学习根本不能满足人们的诉求。于是有人提出了一个新的思路——能否不为难程序员,让机器自己学习呢?
机器学习就是用算法解析数据,不断学习,对发生的事做出判断和预测的技术。从大的分类来说,机器学习是现在人工智能的主流。它的特点是用大量历史数据和算法“训练”机器,让机器从数据中自己找规律,学会如何执行任务。正是因为要处理海量数据,所以大数据技术尤为重要,“机器学习”也是大数据技术上的一个应用。
神经网络是机器学习的联结主义流派的核心方法,起源于神经科学,核心思想是对大脑进行仿真,也是现今最火的一个分支。考虑到人学习知识是通过大脑的神经元的连接来完成的。科学家通过模仿人脑机理发明了人工神经元,多个神经元的连接,就形成了神经网络,神经元是构建神经网络的最基本单位。
为了让机器能够学习更多更复杂的东西,我们就需要用更多的神经元。人的大脑由1000亿个神经元构成,人脑神经元组成了一个很复杂的三维立体结构。三维太复杂,所以神经网络只能简化和处理二维结构,神经元不能到处去连接,把很多神经元分为输入层、隐藏层和输出层,只允许上一层的神经元连接下一层的,这样一层层连接起来。按照神经网络中间层(也就是隐藏层)的层数,可以分为浅神经网络和深度神经网络。
多层的深度神经网络就叫做深度学习。理论上只要中间层神经元和连接足够多可以完成任意复杂的事情,并且能得到更有意义的特征。近年来深度学习在计算机视觉、语音识别等领域十分流行,比如人脸识别、语言翻译等。
从上面的相关描述来看,人工智能、机器学习、神经网络、深度学习是逐个包含的关系。但今天大家用这四个术语的时候,大多数情况下说的是一回事,就是神经网络或深度学习。甚至可以说,这几年人工智能的大爆发,其实是神经网络的大发展,或者说是深度学习的大飞跃。
人工智能的五大核心技术及应用
人工智能的发展成为趋势已是必然。计算机视觉、机器学习、自然语言处理、机器人和语音识别是人工智能的五大核心技术,各个技术领域也在大放异彩,它们均会成为独立的子产业。
计算机视觉是指计算机从图像(或视频)中识别出物体、场景和活动的能力。计算机视觉技术运用由图像处理及其它技术所组成的序列,将图像(或视频)分析任务分解为便于管理的小块任务,比如图像分类、目标检测、图像分割、图像重构、图像生成等,还有视频分类、检测、生成以及追踪等技术方向。
计算机视觉有着广泛的应用,包括医疗影像检测被用来提高疾病预测、诊断和治疗;人脸识别被支付宝、高铁检票或者网上一些自助服务用来认证使用者身份;视频监控能在安防及交通等领域用来识别危险并预警;工业视觉检测能在智能制造环境下提升生产质量和效率。
机器学习的核心在于从数据中自动发现模式,模式一旦被发现便可用于判断和预测。例如,把交易时间和地点、价格及交易是否正当等信用卡历史数据用来训练机器学习系统,系统就会学习到预测信用卡欺诈的特征模式。训练的历史数据越多,预测就会越准确。
针对那些产生大量数据的活动,机器学习几乎拥有改进一切性能的潜力。所以,它在生活和工作中的应用场景非常广泛,包括交通预测、商品推荐、垃圾邮件过滤、智能客服以及公共卫生等。从技术领域来看,机器学习在计算机视觉等其它AI技术领域也扮演着重要角色,比如在计算机视觉领域,机器学习能在海量图像中通过不断训练和改进视觉模型来提高其识别对象的能力。
自然语言处理是研究人与计算机之间用自然语言进行有效通信的各种理论和方法,是指计算机拥有人类般的文本处理的能力。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。
一个自然语言处理系统用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它对计算机和人类的交互方式有许多重要的影响。例如,自动识别一份文档中所有的时间、地点和人物;在一些合同文档中,将各种条款与条件提取出来并制作成可读性强的表格。这些任务通过传统的文本处理软件根本不可能完成。
最早的自然语言处理应用领域就是机器翻译,比如谷歌翻译、百度翻译等,能够将一种自然语言自动生成另一种自然语言。此外,自然语言处理能够分析邮件中的文本内容,判断出邮件是否为垃圾邮件;检测在线评论中的差评信息;自动提取民事诉讼或政府调查中的某些含义等等。
将机器视觉、自动规划等认知技术整合至极小却高性能的传感器、制动器等硬件中,这就催生了新一代的机器人,它有能力与人类一起工作,能在各种未知环境中灵活处理不同的任务,也是最令人期待的AI子产业。
从应用层面,机器人大致可分为:第一,工业级机器人,像富士康这种生产流水线制造企业已经应用得很好了。人工成本越来越高,用工风险越来越大,而机器人则可以解决这些问题。第二,监护级机器人,它可以在家里或医院里作为老弱病残孕等特殊人群的护工,帮助他们做一些复杂的事情。随着中国人口老龄化,对监护级机器人需求其实更迫切。第三,探险级机器人,用来采矿或者探险等,大大避免了人类操作所要经历的危险或完成人类不可能完成的任务。
语音识别就是让机器识别和理解语音,并把语音信号转变为相应的文本或命令的技术。语音识别也被形象地称作“机器的听觉系统”。语音识别主要包括特征提取、模式匹配准则以及模型训练等三个方面的技术,也使用一些与自然语言处理相同的技术。所以,同样要面对一些与自然语言处理类似的问题,比如不同口音的处理、背景噪声、区分同音异形/异义词等方面,同时还需要能跟上正常语速的处理性能。
常见的语音识别应用系统有:语音输入系统(例如医疗听写、语音书写),相对于键盘输入方法,它更符合人的日常习惯,也更自然更高效;语音控制系统,用语音来控制设备的运行,相对于手动控制来说更加便捷,可以用在诸如工业控制、智能家电、声控智能玩具等诸多领域;智能对话查询系统(例如电话客服),根据客户的语音进行操作,为用户提供自然友好的智能应答服务、检索服务等。
据统计,近几年中国的AI创业公司排在前两位的技术领域分别是计算机视觉和机器人,分别占AI创业总数的20.8%和19.6%。上述五大核心技术的产业化,是人工智能产业化的主要方向。人工智能将是一个万亿级的市场,甚至是更大量级的市场,将给我们带来一些全新且规模巨大的子产业。