《第9章 人工智能及其应用ppt课件.pptx》由会员分享,可在线阅读,更多相关《第9章 人工智能及其应用ppt课件.pptx(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、在此输入您的封面副标题第9章 人工智能及其应用第第9 9章章 人工智能及其应用人工智能及其应用张慎武张慎武目录 9.1 9.1 人工智能概述人工智能概述 9.29.2 人工智能的实现方法人工智能的实现方法 9.3 9.3 机器学习机器学习 9.4 9.4 模式识别与机器感知模式识别与机器感知 9.5 9.5 自然语言处理自然语言处理 9.6 9.6 知识图谱和知识推理知识图谱和知识推理第9章 人工智能及其应用教学目标:教学目标:了解人工智能的定义、发展和内容,理解人工智能的实现方法。了解人工智能的定义、发展和内容,理解人工智能的实现方法。了解机器学习的概念、理解监督算法和无监督算法了解机器学习
2、的概念、理解监督算法和无监督算法了解人工神经网络和深度学习,理解模式识别和机器感知。了解人工神经网络和深度学习,理解模式识别和机器感知。了解自然语言处理的概念和应用。了解自然语言处理的概念和应用。理解知识图谱和知识推理。理解知识图谱和知识推理。 目录 9.1 9.1 人工智能概述人工智能概述 9.29.2 人工智能的实现方法人工智能的实现方法 9.3 9.3 机器学习机器学习 9.4 9.4 模式识别与机器感知模式识别与机器感知 9.5 9.5 自然语言处理自然语言处理 9.6 9.6 知识图谱和知识推理知识图谱和知识推理9.1.1 人工智能的定义一般认为,智能是知识和智力的总和。其中,知识是
3、一切智能行为的基础,智力是一般认为,智能是知识和智力的总和。其中,知识是一切智能行为的基础,智力是获取并应用知识求解问题的能力。获取并应用知识求解问题的能力。尼尔斯尼尔斯约翰约翰尼尔森:尼尔森:人工智能是关于知识的学科人工智能是关于知识的学科怎样表示知识以及怎样获怎样表示知识以及怎样获得知识并使用知识的科学。得知识并使用知识的科学。 帕特里克帕特里克温斯顿:温斯顿:人工智能人工智能就是研究如何使计算机去做过去只有人才能做的智能就是研究如何使计算机去做过去只有人才能做的智能工作工作。 人工智能学科的基本思想和基本内容:人工智能是研究人类智能活动的规律,构造人工智能学科的基本思想和基本内容:人工智
4、能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。方法和技术。 9.1.2 人工智能的起源和发展 我国古籍记载,西周时期我国古籍记载,西周时期, ,能工巧匠偃师研制出了能歌善舞的能工巧匠偃师研制出了能歌善舞的“倡者倡者”,”,这是中这是中国最早记载的机器人。三国时期,魏国人马钧认真钻研,利用机械原理制造国最早记载的机
5、器人。三国时期,魏国人马钧认真钻研,利用机械原理制造出了指南车。出了指南车。 古希腊哲学家和科学家亚里士多德的工具论,为形式逻辑奠定了基础。古希腊哲学家和科学家亚里士多德的工具论,为形式逻辑奠定了基础。英国数学家乔治英国数学家乔治布尔于布尔于1919世纪中叶创立了逻辑代数系统世纪中叶创立了逻辑代数系统“布尔代数布尔代数”,用,用符号语言描述了思维活动中推理的基本法则。符号语言描述了思维活动中推理的基本法则。 2020世纪世纪3030年代末到年代末到5050年代初,通用数字电子计算机的诞生为人工智能的研究年代初,通用数字电子计算机的诞生为人工智能的研究提供了物质基础,一系列科学进展交汇引发最初的
6、人工智能研究。诺伯提供了物质基础,一系列科学进展交汇引发最初的人工智能研究。诺伯特特维纳的控制论描述了电子网络的控制和稳定性,克劳德维纳的控制论描述了电子网络的控制和稳定性,克劳德香农提出的信香农提出的信息论描述了数字信号(二进制信号)。阿兰息论描述了数字信号(二进制信号)。阿兰图灵的计算理论证明数字信号图灵的计算理论证明数字信号可以描述任何形式的计算。可以描述任何形式的计算。 19501950年,阿兰年,阿兰图灵提出图灵提出“图灵测试图灵测试”,预言了创造真正意义上的智能机器,预言了创造真正意义上的智能机器的可能性。的可能性。9.1.2 人工智能的起源和发展 19561956年年8 8月,在
7、美国汉诺斯小镇达特茅斯学院,约翰月,在美国汉诺斯小镇达特茅斯学院,约翰麦卡锡、马文麦卡锡、马文闵斯基、闵斯基、克劳德克劳德香农、艾伦香农、艾伦纽厄尔、赫伯特纽厄尔、赫伯特西蒙等科学家召开了为期两个月的西蒙等科学家召开了为期两个月的会议。会议。会议为讨论的内容起了一个名字:人工智能。会议为讨论的内容起了一个名字:人工智能。主题:用机器来模仿人主题:用机器来模仿人类学习以及其他方面的智能。它标志着类学习以及其他方面的智能。它标志着“人工智能人工智能”这门新兴学科的正式诞这门新兴学科的正式诞生。因此,生。因此,19561956年被称为人工智能元年。年被称为人工智能元年。 在人工智能的发展之路上,它经
8、历了三个时期:初创时期、发展时期和突破在人工智能的发展之路上,它经历了三个时期:初创时期、发展时期和突破时期。时期。9.1.2 人工智能的起源和发展1. 1.初创时期(初创时期(19561956年年-1969-1969年)年)19561956年达特茅斯夏季会议之后的年达特茅斯夏季会议之后的1010多年间,人工智能的研究在机器学习、定理证明、模式识别、多年间,人工智能的研究在机器学习、定理证明、模式识别、问题求解、专家系统及人工智能语音等方面都取得了许多引人注目的成就,例如:问题求解、专家系统及人工智能语音等方面都取得了许多引人注目的成就,例如:机器学习方面:机器学习方面:19571957年罗森
9、布拉特研制成功的感知机将神经元用于识别系统,推动了连接机年罗森布拉特研制成功的感知机将神经元用于识别系统,推动了连接机制的研究。制的研究。定理证明方面:定理证明方面:19581958年王浩在年王浩在IBM-704IBM-704机器上证明了数学原理中有关命题演算的全部机器上证明了数学原理中有关命题演算的全部220220条定理,并证明了谓词演算中条定理,并证明了谓词演算中150150条定理的条定理的85%85%。19651965年鲁滨孙提出了归结原理,为定理的机年鲁滨孙提出了归结原理,为定理的机器证明做出了突破性的贡献。器证明做出了突破性的贡献。模式识别方面:模式识别方面:19591959年塞尔福
10、里奇推出一个模式识别程序;年塞尔福里奇推出一个模式识别程序;19651965年罗伯特编制出了可分辨积年罗伯特编制出了可分辨积木构造的程序。木构造的程序。问题求解方面:问题求解方面:19601960年纽厄尔等人通过心理学试验总结出了人们求解问题的思维规律,编制年纽厄尔等人通过心理学试验总结出了人们求解问题的思维规律,编制了通用问题求解程序了通用问题求解程序GPSGPS。专家系统方面:专家系统方面:19651965年费根鲍姆等研制化学分析专家系统程序年费根鲍姆等研制化学分析专家系统程序DENDRALDENDRAL,19681968年完成并投年完成并投入使用。该系统能根据质谱仪的实验,通过分析推理决
11、定化合物的分子结构。入使用。该系统能根据质谱仪的实验,通过分析推理决定化合物的分子结构。人工智能语言方面:人工智能语言方面:19601960年麦卡锡研制出人工智能语言年麦卡锡研制出人工智能语言LISPLISP,称为构建专家系统的重要工具。,称为构建专家系统的重要工具。9.1.2 人工智能的起源和发展2. 2.发展时期(发展时期(19701970年年-1992-1992年)年)发展时期分为两个阶段发展时期分为两个阶段:20:20世纪世纪7070年代和年代和2020世纪世纪8080年代。年代。2020世纪世纪7070年代,诸多的研究成果使得人们对人工智能的期望大大提高,人们尝试用它完成更年代,诸多
12、的研究成果使得人们对人工智能的期望大大提高,人们尝试用它完成更具挑战性的任务。然而当时的计算机有限的内存和处理速度不足以解决任何实际的人工智能具挑战性的任务。然而当时的计算机有限的内存和处理速度不足以解决任何实际的人工智能问题,接二连三的失败和预期目标的落空使人工智能的研究遭遇了瓶颈。问题,接二连三的失败和预期目标的落空使人工智能的研究遭遇了瓶颈。但是,即便处在发展低潮阶段,仍有许多研究者在反思挫折,提出了许多新思想和新方法。但是,即便处在发展低潮阶段,仍有许多研究者在反思挫折,提出了许多新思想和新方法。7070年代中前期,约翰年代中前期,约翰霍兰德根据大自然中生物体进化规律而设计提出了遗传算
13、法。霍兰德根据大自然中生物体进化规律而设计提出了遗传算法。19741974年,年,保罗保罗韦斯特提出了如今人工神经网络和深度学习的基础学习训练算法韦斯特提出了如今人工神经网络和深度学习的基础学习训练算法- -反向传播算法。反向传播算法。19771977年,费根鲍姆提出了年,费根鲍姆提出了“知识工程知识工程”概念,推动了专家系统的发展。概念,推动了专家系统的发展。2020世纪世纪8080年代,人工智能迎来了新一轮的蓬勃发展。这一时期,很多机器学习算法不断发展年代,人工智能迎来了新一轮的蓬勃发展。这一时期,很多机器学习算法不断发展并越来越完善,计算机的计算、预测和识别等能力也有了较大提升。并越来越
14、完善,计算机的计算、预测和识别等能力也有了较大提升。19811981年,日本政府拨款年,日本政府拨款8.58.5亿美元用以研发第五代计算机项目。随后,英国、美国也向信息技术领域的研究投入大量亿美元用以研发第五代计算机项目。随后,英国、美国也向信息技术领域的研究投入大量资金。专家系统在医疗、化学、地质等领域的实际应用取得成功。资金。专家系统在医疗、化学、地质等领域的实际应用取得成功。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一等问题逐渐暴露出来。日本政府也因此
15、停止了第五代智能计算机研获取困难、推理方法单一等问题逐渐暴露出来。日本政府也因此停止了第五代智能计算机研发工作,人工智能的发展在发工作,人工智能的发展在2020世纪世纪8080年代末进入了第二次低潮时期。年代末进入了第二次低潮时期。9.1.2 人工智能的起源和发展3. 3.突破时期(突破时期(19931993年至今)年至今)由于计算机网络技术特别是由于计算机网络技术特别是InternetInternet的迅速发展,加速了人工智能的创新研究,促使人工智能技的迅速发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。术进一步走向实用化。19971997年年5 5月,月,IBMIBM公司
16、的公司的“深蓝深蓝”超级计算机战胜国际象棋世界冠军卡斯超级计算机战胜国际象棋世界冠军卡斯帕罗夫,帕罗夫,20082008年年IBMIBM公司提出公司提出“智慧地球智慧地球”概念,概念,20112011年年IBMIBM开发的开发的“Watson”“Watson”机器人在一档智机器人在一档智力问答节目中战胜了两位人类冠军,这些都是这一阶段的标志性事件。力问答节目中战胜了两位人类冠军,这些都是这一阶段的标志性事件。随着大数据、云计算、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动随着大数据、云计算、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人
17、工智能技术飞速发展。以深度神经网络为代表的人工智能技术飞速发展。20162016年,美国谷歌旗下的年,美国谷歌旗下的DeepMindDeepMind公司开发公司开发的围棋智能系统的围棋智能系统AlphaGoAlphaGo以以4:14:1击败围棋世界冠军、韩国职业九段棋手李世石。该系统集成了搜击败围棋世界冠军、韩国职业九段棋手李世石。该系统集成了搜索、人工神经网络、强化学习等多种人工智能技术。这一事件也是人工智能发展史上的一个重索、人工神经网络、强化学习等多种人工智能技术。这一事件也是人工智能发展史上的一个重要里程碑。要里程碑。20162016年以后,以年以后,以AlphaGoAlphaGo为代
18、表的新一代人工智能引起了世界各国的关注。各国政府纷纷进行顶为代表的新一代人工智能引起了世界各国的关注。各国政府纷纷进行顶层设计,在规划、研发和产业化等方面提前布局,推出一系列政策和计划。如今,以深度学习层设计,在规划、研发和产业化等方面提前布局,推出一系列政策和计划。如今,以深度学习为代表的人工智能技术在图像识别、语音识别、知识问答、人机对弈、无人驾驶、机器翻译等为代表的人工智能技术在图像识别、语音识别、知识问答、人机对弈、无人驾驶、机器翻译等领域取得了很好的应用效果。谷歌、领域取得了很好的应用效果。谷歌、FacebookFacebook、微软、百度、阿里巴巴、腾讯等纷纷加大对人、微软、百度、
19、阿里巴巴、腾讯等纷纷加大对人工智能的投入。诸多的初创科技公司也加入了人工智能产品的战场。从而掀起了人工智能发展工智能的投入。诸多的初创科技公司也加入了人工智能产品的战场。从而掀起了人工智能发展历史上的第三次高潮。历史上的第三次高潮。9.1.3 人工智能研究的基本内容1. 1. 知识表示知识表示人类的智能活动主要是一个获得并运用知识的过程,知识是智能的基础。为了人类的智能活动主要是一个获得并运用知识的过程,知识是智能的基础。为了使计算机具有智能,也就是能模拟人类的智能行为,就必须使它具有适当形式使计算机具有智能,也就是能模拟人类的智能行为,就必须使它具有适当形式表示的知识。知识表示方法可分为如下
20、两大类:符号表示法和连接机制表示法。表示的知识。知识表示方法可分为如下两大类:符号表示法和连接机制表示法。符号表示法是用各种包含具体含义的符号,以不同的方式和顺序组合起来表示符号表示法是用各种包含具体含义的符号,以不同的方式和顺序组合起来表示知识的方法。连接机制表示法是用神经网络表示知识的方法。知识的方法。连接机制表示法是用神经网络表示知识的方法。2. 2.机器感知机器感知所谓机器感知就是使机器(计算机)具有类似于人的感知能力,其中以机器视所谓机器感知就是使机器(计算机)具有类似于人的感知能力,其中以机器视觉和机器听觉为主。机器感知是机器获取外部信息的基本途径。为了使机器具觉和机器听觉为主。机
21、器感知是机器获取外部信息的基本途径。为了使机器具有感知能力,就需要为它配置能有感知能力,就需要为它配置能“听听”会会“看看”的感觉器官。为此人工智能中的感觉器官。为此人工智能中已经形成了模式识别和自然语言理解两个研究领域。已经形成了模式识别和自然语言理解两个研究领域。9.1.3 人工智能研究的基本内容3. 3.机器思维机器思维所谓机器思维是指通过感知得来的外部信息及机器内部的各种工作信息进行有所谓机器思维是指通过感知得来的外部信息及机器内部的各种工作信息进行有目的的处理。机器思维使机器能模拟人类的思维活动,因此是人工智能中最重目的的处理。机器思维使机器能模拟人类的思维活动,因此是人工智能中最重
22、要、最关键的领域。要、最关键的领域。4. 4.机器学习机器学习知识是智能的基础,为了使计算机具有真正的智能,必须使计算机像人类一样,知识是智能的基础,为了使计算机具有真正的智能,必须使计算机像人类一样,具有获得新知识并在实践中不断完善、改进的能力,实现自我完善。机器学习具有获得新知识并在实践中不断完善、改进的能力,实现自我完善。机器学习就是研究如何使计算机具有类似于人的学习能力,使它能通过学习自动获取知就是研究如何使计算机具有类似于人的学习能力,使它能通过学习自动获取知识。识。5. 5.机器行为机器行为机器行为主要是指计算机的表达能力,即机器行为主要是指计算机的表达能力,即“说说”、“写写”、
23、“画画”等能力。对等能力。对于智能机器人,它还应具有人的四肢功能,即能走路、能取物、能操作等。于智能机器人,它还应具有人的四肢功能,即能走路、能取物、能操作等。目录 9.1 9.1 人工智能概述人工智能概述 9.29.2 人工智能的实现方法人工智能的实现方法 9.3 9.3 机器学习机器学习 9.4 9.4 模式识别与机器感知模式识别与机器感知 9.5 9.5 自然语言处理自然语言处理 9.6 9.6 知识图谱和知识推理知识图谱和知识推理9.2.1 传统实现方法1. 1. 符号主义方法符号主义方法人类智能的重要标志是不仅会使用语言,还能使用各种复杂的符号来表达人们的思想。人类智能的重要标志是不
24、仅会使用语言,还能使用各种复杂的符号来表达人们的思想。符号主义的主要观点认为智能活动的基础是物理符号系统,思维过程是符号模式的处符号主义的主要观点认为智能活动的基础是物理符号系统,思维过程是符号模式的处理过程。理过程。以符号主义的观点看,知识是人工智能的核心,认知就是处理符号,推理就是采用启以符号主义的观点看,知识是人工智能的核心,认知就是处理符号,推理就是采用启发式知识及启发式搜索对问题求解的过程,而推理过程又可以用某种形式化的语言来发式知识及启发式搜索对问题求解的过程,而推理过程又可以用某种形式化的语言来描述。符号主义主张用逻辑的方法来建立人工智能的统一理论体系,但是存在描述。符号主义主张
25、用逻辑的方法来建立人工智能的统一理论体系,但是存在“常识常识”问题以及不确定性事物的表示和处理问题。因此,该学派受到其他学派的批评。问题以及不确定性事物的表示和处理问题。因此,该学派受到其他学派的批评。符号主义又可分为逻辑学派和认知学派。逻辑学派主张用逻辑来研究人工智能。认知符号主义又可分为逻辑学派和认知学派。逻辑学派主张用逻辑来研究人工智能。认知学派假设人的智能活动是一个推理过程,尽管机器不知道其中的意义,但机器能像人学派假设人的智能活动是一个推理过程,尽管机器不知道其中的意义,但机器能像人一样对符号形式作出处理。一样对符号形式作出处理。 9.2.1 传统实现方法2. 2.连接主义方法连接主
26、义方法基于神经元和神经网络的连接机制和学习算法是连结主义学派的主要方法。这种方法基于神经元和神经网络的连接机制和学习算法是连结主义学派的主要方法。这种方法研究能够进行非程序的、可适应环境变化的、类似人类大脑风格的信息处理方法的本研究能够进行非程序的、可适应环境变化的、类似人类大脑风格的信息处理方法的本质和能力。这种学派的主要观点认为,大脑是一切智能活动的基础,因而从大脑神经质和能力。这种学派的主要观点认为,大脑是一切智能活动的基础,因而从大脑神经元及其连接机制进行研究,搞清楚大脑的结构以及它进行信息处理的过程和机理,就元及其连接机制进行研究,搞清楚大脑的结构以及它进行信息处理的过程和机理,就能
27、揭示人类智能的奥秘,从而真正实现用机器对人类智能的模拟。能揭示人类智能的奥秘,从而真正实现用机器对人类智能的模拟。19431943麦克罗奇和皮兹提出的一种神经元的数学模型(麦克罗奇和皮兹提出的一种神经元的数学模型(M-PM-P模型)是人工神经网络最初的模型)是人工神经网络最初的模型,是连结主义的代表性成果,它开创了神经计算的时代,为人工智能创造了一条模型,是连结主义的代表性成果,它开创了神经计算的时代,为人工智能创造了一条用电子装置模拟人脑结构和功能的新的途径。用电子装置模拟人脑结构和功能的新的途径。9.2.1 传统实现方法3. 3.行为主义方法行为主义方法行为主义学派认为智能行为的基础是行为
28、主义学派认为智能行为的基础是“感知感知- -行动行动”的反应机制,他们主张智能的形成的反应机制,他们主张智能的形成不依赖于符号计算,也不依赖于连接机制,而是在与环境的交互和适应过程中不断进不依赖于符号计算,也不依赖于连接机制,而是在与环境的交互和适应过程中不断进化的,即不用考虑大脑的机制,而是直接通过行为模拟实现智能,可以称之为化的,即不用考虑大脑的机制,而是直接通过行为模拟实现智能,可以称之为“无脑无脑智能智能”。从行为主义的观点考察智能,人们会发现,实现智能系统的最直接的仿造人。从行为主义的观点考察智能,人们会发现,实现智能系统的最直接的仿造人或动物的或动物的“模式模式- -动作动作”关系
29、,无需知识表达和推理。基于这种方法,人们研制出具有关系,无需知识表达和推理。基于这种方法,人们研制出具有自学习、自适应、自组织特征的智能控制系统,开发出各种工业机器人、人形机器人、自学习、自适应、自组织特征的智能控制系统,开发出各种工业机器人、人形机器人、机器动物等。机器动物等。行为主义方法来源于对人或动物行为的观察,只是在行为方面反映了人或动物的智能行为主义方法来源于对人或动物行为的观察,只是在行为方面反映了人或动物的智能特征,并不能反映智能的内在本质和认知、决策等高级智能。特征,并不能反映智能的内在本质和认知、决策等高级智能。9.2.2 数据驱动方法 20102010年以后,深度学习结合大
30、数据成为人工智能领域流行的新方法。基于脑科学、年以后,深度学习结合大数据成为人工智能领域流行的新方法。基于脑科学、数据科学尤其是大数据技术发展形成的数据驱动方法,从新的角度提出了人工智能数据科学尤其是大数据技术发展形成的数据驱动方法,从新的角度提出了人工智能的实现途径和创新性思路,在技术层面上也进一步增强了智能摸拟的精确性和有效的实现途径和创新性思路,在技术层面上也进一步增强了智能摸拟的精确性和有效性,成为传统人工智能方法的重要补充。性,成为传统人工智能方法的重要补充。 算法、大数据与计算能力被认为是推动新一代人工智能发展的三大引擎。算法、大数据与计算能力被认为是推动新一代人工智能发展的三大引
31、擎。 数据驱动方法通过深度学习、大规模数据、传感器及其他复杂的算法,执行或完成数据驱动方法通过深度学习、大规模数据、传感器及其他复杂的算法,执行或完成智能任务。大数据结合深度学习算法,能自动发现隐藏在庞大而复杂的数据集中的智能任务。大数据结合深度学习算法,能自动发现隐藏在庞大而复杂的数据集中的特征和模式,这是数据驱动方法最成功的地方。目前,这种方法超越了传统方法,特征和模式,这是数据驱动方法最成功的地方。目前,这种方法超越了传统方法,成为实现人工智能的有效途径。成为实现人工智能的有效途径。目录 9.1 9.1 人工智能概述人工智能概述 9.29.2 人工智能的实现方法人工智能的实现方法 9.3
32、 9.3 机器学习机器学习 9.4 9.4 模式识别与机器感知模式识别与机器感知 9.5 9.5 自然语言处理自然语言处理 9.6 9.6 知识图谱和知识推理知识图谱和知识推理9.3.1 机器学习的概念及研究概况1 1机器学习的概念机器学习的概念机器学习是一门多领域交叉学科,它专门研究计算机怎样模拟或实现人类的学习行为,机器学习是一门多领域交叉学科,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 机器学习是人工智能的核心,是使计算机具有智能的根本途径。机器学习
33、过程是人类机器学习是人工智能的核心,是使计算机具有智能的根本途径。机器学习过程是人类对历史经验归纳过程的模拟,如图对历史经验归纳过程的模拟,如图9.19.1所示。所示。机器学习历史数据模型新的数据未知属性训练输入预测人类智能经验规律新的问题未知答案归纳输入预测图9.1 机器学习与人类思考的对比9.3.1 机器学习的概念及研究概况2 2机器学习的研究概况机器学习的研究概况 追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。 1950年阿兰.图灵提议建立一个学习机器,到2000年初有深度学习的实际应用以及最近的进展(比如2020年的图机器学习
34、领域的神经算法推理),机器学习有了很大的进展。 现阶段,机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。 机器学习的研究主要分为两类研究方向:第一类是传统机器学习的研究,该类研究主要是研究学习机制,注重探索模拟人的学习机制;第二类是大数据环境下机器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。9.3.1 机器学习的概念及研究概况3 3机器学习的分类机器学习的分类1 1)按所用学习方法的不同,机器学习可分为机械式学习、指导式学习、示例学习、类)按所用学习方法的不同,机器学习可分为机械式
35、学习、指导式学习、示例学习、类比学习、解释学习等。比学习、解释学习等。2 2)按学习能力分类,机器学习可分为监督学习()按学习能力分类,机器学习可分为监督学习(Supervised LearningSupervised Learning)、非监督学习)、非监督学习(Unsupervised LearningUnsupervised Learning)、强化学习(激励学习)、半监督学习()、强化学习(激励学习)、半监督学习((Semi-Supervised (Semi-Supervised LearningLearning)。)。3 3)按推理方式分类,机器学习可分为基于演绎的学习及基于归纳的学
36、习。)按推理方式分类,机器学习可分为基于演绎的学习及基于归纳的学习。4 4)按学习的综合属性(包含知识表示、推理方法、应用领域等),机器学习可分为归)按学习的综合属性(包含知识表示、推理方法、应用领域等),机器学习可分为归纳学习、分析学习、连接学习以及遗传算法与分类器系统等。纳学习、分析学习、连接学习以及遗传算法与分类器系统等。9.3.2 监督学习和无监督学习1 1监督学习监督学习监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。监督学习的数据训练集中,每个样本既包
37、含该样程,也称为监督训练或有教师学习。监督学习的数据训练集中,每个样本既包含该样本的输入属性(通常为矢量),也包含对应的本的输入属性(通常为矢量),也包含对应的“正确答案正确答案”(即类别标签)。例如,(即类别标签)。例如,在一个猫狗图片分类任务中,给定很多图片,有的标记为猫,有的标记为狗。监督学在一个猫狗图片分类任务中,给定很多图片,有的标记为猫,有的标记为狗。监督学习算法分析该训练数据,学习输入特征与标签之间的映射,并用该映射预测数据测试习算法分析该训练数据,学习输入特征与标签之间的映射,并用该映射预测数据测试集中新的样本的输出值(类别标签)。集中新的样本的输出值(类别标签)。输入变量和输
38、出变量可以是连续的,也可以是离散的。根据输出变量的不同类型,人输入变量和输出变量可以是连续的,也可以是离散的。根据输出变量的不同类型,人们将监督学习问题细分为两类:回归问题和分类问题。回归问题的输出变量为连续变们将监督学习问题细分为两类:回归问题和分类问题。回归问题的输出变量为连续变量,比如通过房子的面积和卧室数量预测房价,算法主要有线性回归、量,比如通过房子的面积和卧室数量预测房价,算法主要有线性回归、Gradient Gradient BoostingBoosting和和AdaBoostAdaBoost等。分类问题的输出变量为有限个离散值,比如猫狗图片分类,算等。分类问题的输出变量为有限个
39、离散值,比如猫狗图片分类,算法主要有逻辑回归、决策树、法主要有逻辑回归、决策树、KNNKNN、支持向量机、朴素贝叶斯等。、支持向量机、朴素贝叶斯等。9.3.2 监督学习和无监督学习l 以识别鸢尾花的种类为例理解监督学习的基本思想。全世界的鸢尾花约有以识别鸢尾花的种类为例理解监督学习的基本思想。全世界的鸢尾花约有300300个品种,个品种,常见的包括山鸢尾、变色鸢尾和维吉尼亚鸢尾。用机器学习方法对鸢尾花的这常见的包括山鸢尾、变色鸢尾和维吉尼亚鸢尾。用机器学习方法对鸢尾花的这3 3个常个常见品种进行预测分类。见品种进行预测分类。 为了建立输入特征到分类标签的映射,则需要收集一些鸢尾花的数据,我们采
40、用为了建立输入特征到分类标签的映射,则需要收集一些鸢尾花的数据,我们采用Iris Iris 鸢尾花数据集,其部分数据如表鸢尾花数据集,其部分数据如表9-19-1所示。数据集内包含所示。数据集内包含 3 3 类共类共 150 150 个样本,每类各个样本,每类各 50 50 个数据,每条记录都有个数据,每条记录都有4 4项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,对表中已知种类的鸢尾花样本的数据的学习,我们可以得到鸢尾花特征数据到分类对表中已知种类的鸢尾花样本的数据的学习,我们可以得到鸢尾花特征数据到分类标签的映射(预测公式),利用表中数据可以
41、对不同的预测公式进行测试,并通过标签的映射(预测公式),利用表中数据可以对不同的预测公式进行测试,并通过比较在每个样本上的预测输出和真实类别的差别获得反馈,机器学习算法根据这些比较在每个样本上的预测输出和真实类别的差别获得反馈,机器学习算法根据这些反馈不断地对预测公式进行调整,从而建立一个分类预测模型。通过模型可以预测反馈不断地对预测公式进行调整,从而建立一个分类预测模型。通过模型可以预测鸢尾花卉属于(山鸢尾、变色鸢尾和维吉尼亚鸢尾)中的哪一品种。鸢尾花卉属于(山鸢尾、变色鸢尾和维吉尼亚鸢尾)中的哪一品种。9.3.2 监督学习和无监督学习表9-1 鸢尾花数据集萼片长度/cm萼片宽度/cm花瓣长
42、度/cm花瓣宽度/cm类别5.13.51.40.2山鸢尾4.93.1.40.2山鸢尾4.73.21.30.2山鸢尾 7.3.24.71.4变色鸢尾6.43.24.51.5变色鸢尾6.93.14.91.5变色鸢尾 6.33.36.2.55.82.75.11.9维吉尼亚鸢尾7.13.5.92.1维吉尼亚鸢尾9.3.2 监督学习和无监督学习2 2无监督学习无监督学习l 监督学习在应用中的困难:监督学习在应用中的困难: 缺乏足够的先验知识,难以人工标注类别;缺乏足够的先验知识,难以人工标注类别; 人工标注成本太高。人工标注成本太高。l 无监督学习是指从无标注的训练数据中寻找数据的统计规律或隐含的结构。
43、相比于无监督学习是指从无标注的训练数据中寻找数据的统计规律或隐含的结构。相比于监督学习,无监督学习没有确切的答案,学习过程也没有受监督,是通过算法运行监督学习,无监督学习没有确切的答案,学习过程也没有受监督,是通过算法运行去发现和表达数据中的结构。去发现和表达数据中的结构。 有一大群人,知道他们的身高体重,但是我们不告诉机器有一大群人,知道他们的身高体重,但是我们不告诉机器“胖胖”和和“瘦瘦”的评判标的评判标准,聚类就是让机器根据数据间的相似度,把这些人分成几个类别。准,聚类就是让机器根据数据间的相似度,把这些人分成几个类别。怎么实现?怎么才能判断哪些数据属于一类?怎么实现?怎么才能判断哪些数
44、据属于一类?l 常见的无监督学习算法:常见的无监督学习算法:K K均值(均值(K-MeansK-Means)算法;自编码器()算法;自编码器(Auto-EncoderAuto-Encoder);主);主成分分析(成分分析(Principal Component AnalysisPrincipal Component Analysis)。)。9.3.2 监督学习和无监督学习 K K均值算法均值算法最常用的聚类算法。它的基本思想是将样本划分到其最近的簇中,以迭代方式实现。最常用的聚类算法。它的基本思想是将样本划分到其最近的簇中,以迭代方式实现。K K均值算法:均值算法:(1 1)随机的选取)随机的
45、选取K K个点,作为初始中心点;个点,作为初始中心点;(2 2)计算)计算N N个样本点和个样本点和K K个中心点之间的欧氏距离;个中心点之间的欧氏距离;(3 3)将每个样本点划分到最近的(欧氏距离最小的)中心点,形成)将每个样本点划分到最近的(欧氏距离最小的)中心点,形成K K个簇;个簇;(4 4)计算每个簇中样本点的均值,得到)计算每个簇中样本点的均值,得到K K个均值,将个均值,将K K个均值作为新的中心点;个均值作为新的中心点;(5 5)重复()重复(2 2)- -(4 4),得到收敛后的),得到收敛后的K K个中心点(中心点不再变化或达到最大迭代次个中心点(中心点不再变化或达到最大迭
46、代次数)。数)。9.3.2 监督学习和无监督学习 K K均值算法均值算法最常用的聚类算法。它的基本思想是将样本划分到其最近的簇中,以迭代方式实现。最常用的聚类算法。它的基本思想是将样本划分到其最近的簇中,以迭代方式实现。K K均值算法:均值算法:(1 1)随机的选取)随机的选取K K个点,作为初始中心点;个点,作为初始中心点;(2 2)计算)计算N N个样本点和个样本点和K K个中心点之间的欧氏距离;个中心点之间的欧氏距离;(3 3)将每个样本点划分到最近的(欧氏距离最小的)中心点,形成)将每个样本点划分到最近的(欧氏距离最小的)中心点,形成K K个簇;个簇;(4 4)计算每个簇中样本点的均值
47、,得到)计算每个簇中样本点的均值,得到K K个均值,将个均值,将K K个均值作为新的中心点;个均值作为新的中心点;(5 5)重复()重复(2 2)- -(4 4),得到收敛后的),得到收敛后的K K个中心点(中心点不再变化或达到最大迭代次个中心点(中心点不再变化或达到最大迭代次数)。数)。9.3.3 人工神经网络和深度学习1 1人工神经网络和人工神经网络和M-PM-P神经元模型神经元模型 简单来说,人工神经网络(简单来说,人工神经网络(Artificial Neural NetworksArtificial Neural Networks,ANNsANNs)是一种模仿动物神经)是一种模仿动物神
48、经网络行为特征,进行分布式并行信息处理的算法数学模型。网络行为特征,进行分布式并行信息处理的算法数学模型。 神经网络依靠系统的复杂程度,通过调整内部大量神经网络依靠系统的复杂程度,通过调整内部大量“简单单元简单单元”之间相互连接的关之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。系,从而达到处理信息的目的,并具有自学习和自适应的能力。 “简单单元简单单元”:神经网络中的最基本元素:神经网络中的最基本元素神经元(神经元(neuronneuron)模型。)模型。 神经元的树突将其他神经元的信号(输入信号)传递到细胞体(也就是神经元本体)神经元的树突将其他神经元的信号(输入信
49、号)传递到细胞体(也就是神经元本体)中,细胞体把从其他多个神经元传递进来的输入信号进行合并加工,然后再通过轴中,细胞体把从其他多个神经元传递进来的输入信号进行合并加工,然后再通过轴突前端的突触传递给别的神经元。突前端的突触传递给别的神经元。 信号传递:当神经元信号传递:当神经元“兴奋(兴奋(firefire)”时,就会向与它相连的神经元发送化学物质时,就会向与它相连的神经元发送化学物质(神经递质(神经递质, neurotransmiter, neurotransmiter),从而改变这些神经元的电位;如果某些神经元的电),从而改变这些神经元的电位;如果某些神经元的电位超过了一个位超过了一个“阈
50、值(阈值(thresholdthreshold)”,它就会被,它就会被“激活(激活(activationactivation)”,也就是,也就是“兴兴奋奋”起来,接着向其它神经元发送化学物质。起来,接着向其它神经元发送化学物质。9.3.3 人工神经网络和深度学习图9.2 大脑神经细胞的工作流程9.3.3 人工神经网络和深度学习图9.3 M-P神经元模型 受到人类大脑的启发,沃伦受到人类大脑的启发,沃伦. .麦克洛克和沃尔特麦克洛克和沃尔特. .皮兹于皮兹于19431943年提出年提出“M-P“M-P神经元模神经元模型型”。神经元模型模拟大脑神经元的活动,包括输入、输出与计算功能,其中输入。神经