教学课件第12章 人工智能经典算法.pptx

上传人:春哥&#****71; 文档编号:77627786 上传时间:2023-03-15 格式:PPTX 页数:45 大小:3.35MB
返回 下载 相关 举报
教学课件第12章 人工智能经典算法.pptx_第1页
第1页 / 共45页
教学课件第12章 人工智能经典算法.pptx_第2页
第2页 / 共45页
点击查看更多>>
资源描述

《教学课件第12章 人工智能经典算法.pptx》由会员分享,可在线阅读,更多相关《教学课件第12章 人工智能经典算法.pptx(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、教材配套PPT正版可修改课件教学课件第12章 人工智能经典算法LOGO程序设计与问题求解(C语言)第第1212章章 人工智能经典算法人工智能经典算法计算机基础教学中心计算机基础教学中心本章教学内容及要求本章教学内容及要求(1)了解人工智能基本概念及方法)了解人工智能基本概念及方法(2)掌握)掌握K-Means聚类算法及实现聚类算法及实现(3)掌握)掌握K最近邻算法算法及实现最近邻算法算法及实现(4)掌握朴素贝叶斯分类算法及实现)掌握朴素贝叶斯分类算法及实现本章学习重点与难点本章学习重点与难点(1)掌握)掌握K-Means聚类算法原理及实现聚类算法原理及实现(2)掌握)掌握K最近邻算法算法原理及

2、实现最近邻算法算法原理及实现(3)掌握朴素贝叶斯分类算法原理及实现)掌握朴素贝叶斯分类算法原理及实现12.1人工智能经典算法概述人工智能(人工智能(Artificial Intelligence)试图了解智能的实质,)试图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。然语言处理和专家系统等。当前的人工智能不再依赖于基于符号知识表示和程序推当前的人工智能不再依赖于基于符号知识表示和程序推理机制,而

3、是建立在新的基础上,当今大多数人工智能应用理机制,而是建立在新的基础上,当今大多数人工智能应用程序都是基于机器学习程序都是基于机器学习(Machine Learning)技术。技术。12.1人工智能经典算法概述按照模型训练方式不同,机器学习算法分为四类:按照模型训练方式不同,机器学习算法分为四类:监督学习(监督学习(Supervised Learning)无监督学习(无监督学习(Unsupervised Learning)半监督学习(半监督学习(Semi-supervised Learning)深度学习(深度学习(Deep Learning)和强化学习)和强化学习(Reinforcement

4、Learning)12.1人工智能经典算法概述1.监督学习监督学习就是利用已知的训练数据集去训练学习得到一个模型,就是利用已知的训练数据集去训练学习得到一个模型,使模型能够具有对其他未知数据进行分类的能力,也就是可使模型能够具有对其他未知数据进行分类的能力,也就是可以利用这个模型将任意给定的输入(测试样本集)映射为相以利用这个模型将任意给定的输入(测试样本集)映射为相应的输出,对输出进行判断从而实现分类的目的。应的输出,对输出进行判断从而实现分类的目的。常见的监督学习算法包含:常见的监督学习算法包含:(1)人工神经网络()人工神经网络(Artificial Neural Network)(2)

5、朴素贝叶斯()朴素贝叶斯(Naive Bayes)(3)决策树()决策树(Decision Tree)(4)线性分类器()线性分类器(Linear Classifier)12.1人工智能经典算法概述2.无监督学习无监督学习是事先没有给定任何已标记过的训练样本,而需要直接是事先没有给定任何已标记过的训练样本,而需要直接对数据进行建模,以寻找数据的模型和规律,实现分类或分对数据进行建模,以寻找数据的模型和规律,实现分类或分群。例如,聚类算法能针对数据集,自动找出数据中的结构,群。例如,聚类算法能针对数据集,自动找出数据中的结构,从而把数据分成不同的簇。显然,有无预期输出是监督学习从而把数据分成不同

6、的簇。显然,有无预期输出是监督学习与非监督学习的区别。常见的无监督学习类算法包括:与非监督学习的区别。常见的无监督学习类算法包括:(1)人工神经网络()人工神经网络(Artificial Neural Network)(2)关联规则学习()关联规则学习(Association Rule Learning)(3)分层聚类算法()分层聚类算法(Hierarchical Clustering)(4)聚类分析()聚类分析(Cluster analysis)(5)异常检测()异常检测(Anomaly detection)12.1人工智能经典算法概述3.半监督学习(半监督学习(Semi-Supervise

7、d Learning,SSL)是监督学习与无监督学习相结合的一种学习方法,它使是监督学习与无监督学习相结合的一种学习方法,它使用大量的未标记数据,以及同时使用标记数据,来进行模式用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。半监督学习正越来越受到人们的重视。常见的半识别工作。半监督学习正越来越受到人们的重视。常见的半监督学习类算法包括:监督学习类算法包括:(1)生成式模型()生成式模型(Generative Model)(2)低密度分割算法()低密度分割算法(Low-density Separation)(3)转导支持向量机()转导支持向量机(Transductive Supp

8、ort Vector Machines)(4)先聚类后标注算法()先聚类后标注算法(Cluster and then Label)(5)基于图的方法()基于图的方法(Graph-Based Approach)(6)协同训练()协同训练(Co-training)12.1人工智能经典算法概述4.深度学习和强化学习深度学习和强化学习深度学习和强化学习首先都是自主学习系统。深度学习和强化学习首先都是自主学习系统。深度学习是从训练集中学习,然后将学习到的知识应深度学习是从训练集中学习,然后将学习到的知识应用于新数据集,是一种静态学习。用于新数据集,是一种静态学习。强化学习是通过连续的反馈来调整自身的动作

9、以获得强化学习是通过连续的反馈来调整自身的动作以获得最优结果,是一种不断试错的过程,这是动态学习。最优结果,是一种不断试错的过程,这是动态学习。有一点需要注意,深度学习和强化学习并不是相互排斥有一点需要注意,深度学习和强化学习并不是相互排斥的概念。事实上,可以在强化学习系统中使用深度学习,这的概念。事实上,可以在强化学习系统中使用深度学习,这就是深度强化学习。就是深度强化学习。12.1人工智能经典算法概述常见的强化学习类算法包括:常见的强化学习类算法包括:(1)Q学习(学习(Q-learning)(2)状态)状态-行动行动-奖励奖励-状态状态-行动(行动(State-Action-Reward

10、-State-Action,SARSA)(3)DQN(Deep Q Network)(4)策略梯度算法()策略梯度算法(Policy Gradients)(5)基于模型强化学习()基于模型强化学习(Model Based RL)(6)时序差分学习()时序差分学习(Temporal Different Learning)等)等12.1人工智能经典算法概述常见的深度学习类算法包括:常见的深度学习类算法包括:(1)深度信念网络()深度信念网络(Deep Belief Machines)(2)深度卷积神经网络()深度卷积神经网络(Deep Convolutional Neural Networks)(

11、3)深度递归神经网络()深度递归神经网络(Deep Recurrent Neural Network)(4)分层时间记忆()分层时间记忆(Hierarchical Temporal Memory,HTM)(5)深度波尔兹曼机()深度波尔兹曼机(Deep Boltzmann Machine,DBM)(6)栈式自动编码器()栈式自动编码器(Stacked Autoencoder)(7)生成对抗网络()生成对抗网络(Generative Adversarial Networks)等)等12.2K-Means聚类算法聚类算法1.聚类思想聚类思想所谓所谓“类类”就是指相似元素的集合。所谓聚类算法是指就是

12、指相似元素的集合。所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征。学习方法,这个方法要保证同一类的数据有相似的特征。聚类与分类最大的区别在于,聚类过程为无监督过程,聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在先验知识的训练数据集。过程,即存在先验知识的训练数据集。12.2K-Means聚类算法聚类算法2.K-Means算法算法简介简介又称为又称为K-均值算

13、法,是一种无监督机器学习技术,其中:均值算法,是一种无监督机器学习技术,其中:K代表类簇个数,代表类簇个数,Means代表类簇内数据对象的均值(即对代表类簇内数据对象的均值(即对类簇中心的描述),类簇中心也称为质心,也就是每个簇的类簇中心的描述),类簇中心也称为质心,也就是每个簇的均值向量,即向量各维取平均值即可。均值向量,即向量各维取平均值即可。该算法以距离作为数据对象间相似性度量的标准,即数该算法以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,它们就越有可据对象间的距离越小,则它们的相似性越高,它们就越有可能属于同一个类簇。由于该算法认为簇是由距离靠近的对

14、象能属于同一个类簇。由于该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。组成的,因此把得到紧凑且独立的簇作为最终目标。通常采用欧式距离来计算数据对象间的距离。通常采用欧式距离来计算数据对象间的距离。12.2K-Means聚类算法聚类算法3.K-Means算法算法数学原理数学原理对于给定的样本集,按照样本之间的距离大小,将样本对于给定的样本集,按照样本之间的距离大小,将样本集划分为集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。间的距离尽量的大。若用数学表达式表示,假设簇划分为若用数学表达式表示,假设簇划

15、分为 ,则,则K-Means的目标是最小化平方误差的目标是最小化平方误差E:其中:其中:是簇是簇 的均值向量(质心),表达式为:的均值向量(质心),表达式为:直接求该式最小值并不容易,这是一个NP难题,因此只能采用启发式的迭代方法12.2K-Means聚类算法聚类算法4.K-Means算法算法聚类过程聚类过程12.2K-Means聚类算法聚类算法5.K-Means算法算法流程流程12.2K-Means聚类算法聚类算法6.K-Means算法算法实例实例假设坐标系中有假设坐标系中有6个点。个点。(1)分两组,令)分两组,令K=2,然后随机选择两个点,然后随机选择两个点P1和和P2。数据点数据点横坐

16、标横坐标X X纵坐标纵坐标Y YP1P10 00 0P2P21 12 2P3P33 31 1P4P48 88 8P5P59 91010P6P610107 712.2K-Means聚类算法聚类算法(2)第一次计算:通过勾股定理计算剩余点分别到这)第一次计算:通过勾股定理计算剩余点分别到这两个点的距离。两个点的距离。(3)第一次分组后结果。)第一次分组后结果。A组:组:P1;B组:组:P2、P3、P4、P5、P6(4)分别计算)分别计算A组和组和B组的质心。组的质心。A组质心仍然是:组质心仍然是:P1=(0,0)B组新质心坐标:组新质心坐标:P7=(1+3+8+9+10)/5,(2+1+8+10+

17、7)/5)=(6.2,5.6)P1P1P2P2P3P33.163.162.242.24P4P411.311.39.229.22P5P513.513.511.311.3P6P612.212.210.310.312.2K-Means聚类算法聚类算法(5)第二次计算每个点到质心的距离。)第二次计算每个点到质心的距离。(6)第二次分组结果。)第二次分组结果。组组A:P1、P2、P3组组B:P4、P5、P6P1P1P7P7P2P22.242.246.32466.3246P3P33.163.165.60365.6036P4P411.311.33 3P5P513.513.55.21545.2154P6P61

18、2.212.24.04974.049712.2K-Means聚类算法聚类算法(7)第三次计算质心。)第三次计算质心。P8=(1.33,1)P9=(9,8.33)(8)第三次计算每个点到质心的距离)第三次计算每个点到质心的距离P8P8P9P9P1P11.41.41212P2P20.60.61010P3P31.41.49.59.5P4P447471.11.1P5P570701.71.7P6P656561.71.712.2K-Means聚类算法聚类算法(9)第三次分组结果)第三次分组结果组组A:P1、P2、P3组组B:P4、P5、P6与第二次分组结果一致,说明已经收敛,聚类结束。与第二次分组结果一致

19、,说明已经收敛,聚类结束。7.K-Means算法算法算法实现算法实现12.3K最近邻算法最近邻算法1.KNN算法简介算法简介KNN(-Nearest Neighbor)算法是监督学习中最基本的)算法是监督学习中最基本的机器学习方法,是一种用于分类、回归、预测的非参数统计机器学习方法,是一种用于分类、回归、预测的非参数统计方法。通过找出一个样本的方法。通过找出一个样本的k个最近邻居,决定该样本的分个最近邻居,决定该样本的分类,将同一类别中最近邻居的属性赋给该样本,就可以得到类,将同一类别中最近邻居的属性赋给该样本,就可以得到该样本的属性。该算法不会对基础的数据进行修改,在其训该样本的属性。该算法

20、不会对基础的数据进行修改,在其训练阶段仅存储数据集,在分类时对数据集进行操作。练阶段仅存储数据集,在分类时对数据集进行操作。KNN算法具有易于实现、鲁棒性好、在大数据情况下性算法具有易于实现、鲁棒性好、在大数据情况下性能良好等特点,因此被广泛应用于模式识别和数据挖掘的各能良好等特点,因此被广泛应用于模式识别和数据挖掘的各个领域,如文本分类、网络入侵检测、图像处理等。个领域,如文本分类、网络入侵检测、图像处理等。12.3K最近邻算法最近邻算法2.KNN算法数学原理算法数学原理该算法的分类原理依据模式识别该算法的分类原理依据模式识别“空间分布中属性相同空间分布中属性相同相互邻近相互邻近”这一思想,

21、获取待判断未知样本与个最近邻中已这一思想,获取待判断未知样本与个最近邻中已知样本之间的距离。知样本之间的距离。算法的核心思想是:在特征空间中,如果一个样本在特算法的核心思想是:在特征空间中,如果一个样本在特征空间中个最近样本(特征空间中最邻近)的大多数属于某征空间中个最近样本(特征空间中最邻近)的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。即给定一个训练数据集,对新的输入实例,在训本的特性。即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的个实例,这个实例的多数练数据集中找到与该实例最邻近的

22、个实例,这个实例的多数属于某个类,就把该输入实例分到这个类中。属于某个类,就把该输入实例分到这个类中。12.3K最近邻算法最近邻算法KNN算法所选择的邻居都是已经正确分类的对象,其分算法所选择的邻居都是已经正确分类的对象,其分类决策只根据最邻近的一个或者多个样本数据的类别决定出类决策只根据最邻近的一个或者多个样本数据的类别决定出待分类样本所属于的类别。待分类样本所属于的类别。在上图中,分类要解决的问题就是:给这个圆形划分类在上图中,分类要解决的问题就是:给这个圆形划分类别,判定它属于正方形一类或者是三角形一类。别,判定它属于正方形一类或者是三角形一类。k值的选择值的选择直接影响分类的准确性。直

23、接影响分类的准确性。12.3K最近邻算法最近邻算法当无法判定当前待分类点是从属于已知分类中的哪一类当无法判定当前待分类点是从属于已知分类中的哪一类时,可以依据统计学的理论看待分类点所处的位置特征,衡时,可以依据统计学的理论看待分类点所处的位置特征,衡量待分类点周围邻居的分布,而把待分类点分配到近邻数量量待分类点周围邻居的分布,而把待分类点分配到近邻数量更多的那一类,这就是更多的那一类,这就是KNN算法的核心思想。算法的核心思想。可以说,可以说,k值的选择值的选择、距离度量距离度量和和分类决策规则分类决策规则对对KNN算法的结果有相当重要的影响。算法的结果有相当重要的影响。12.3K最近邻算法最

24、近邻算法2.KNN算法流程算法流程开始计算测试数据与各个训练数据之间的距离对距离从小到大进行排序出现频率最高的类别作为预测分类结束12.3K最近邻算法最近邻算法3.KNN算法实例算法实例手写数字分类问题:手写数字分类问题:对下图所示的手写数字图,通过将对下图所示的手写数字图,通过将图分割,将每张图序列化,对手写图片进行分类。图分割,将每张图序列化,对手写图片进行分类。12.3K最近邻算法最近邻算法为了能使用为了能使用KNN分类算法,必须将图像格式化处理为一分类算法,必须将图像格式化处理为一个向量。将原始的个向量。将原始的32*32的二进制图像转换成为的二进制图像转换成为1*1024的向的向量。

25、量。12.3K最近邻算法最近邻算法在建立分类模型之前,需要将给定的数据集随机的分为在建立分类模型之前,需要将给定的数据集随机的分为训练数据集和测试数据集两个部分。在分类模型建立阶段,训练数据集和测试数据集两个部分。在分类模型建立阶段,通过分析训练数据集中属于每个类别的样本,使用分类算法通过分析训练数据集中属于每个类别的样本,使用分类算法建立一个模型相对应的类别进行概念描述。在建立好分类模建立一个模型相对应的类别进行概念描述。在建立好分类模型之后,还需要在测试数据集上对分类模型的有效性进行测型之后,还需要在测试数据集上对分类模型的有效性进行测试,此时通常使用分类精度作为评价标准。对于测试数据集试

26、,此时通常使用分类精度作为评价标准。对于测试数据集上的每个样本,如果通过已建立的分类模型预测出来的类别上的每个样本,如果通过已建立的分类模型预测出来的类别与其真实的类别相同,那么说明分类正确,否则说明分类错与其真实的类别相同,那么说明分类正确,否则说明分类错误。如果测试数据集上所有样本的平均分类精度可以接受,误。如果测试数据集上所有样本的平均分类精度可以接受,那么在分类决策阶段就可以使用该模型对未知类别的待分类那么在分类决策阶段就可以使用该模型对未知类别的待分类样本进行类别预测。样本进行类别预测。12.3K最近邻算法最近邻算法本例数据集样本如下分布:训练数据集包含本例数据集样本如下分布:训练数

27、据集包含943个样本;个样本;测试数据集包含测试数据集包含196个样本,其中包含个样本,其中包含20个数字个数字0,20个数字个数字1,25个数字个数字2,18个数字个数字3,25个数字个数字4,16个数字个数字5,16个个数字数字6,19个数字个数字7,17个数字个数字8,20个数字个数字9;预测数据集里;预测数据集里含有含有9个样本,如图个样本,如图12-8所示。所示。12.3K最近邻算法最近邻算法实现实现KNN算法时,主要考虑的问题是如何对训练数据进算法时,主要考虑的问题是如何对训练数据进行快速近邻搜索,这在特征空间维数大及训练数据容量大时行快速近邻搜索,这在特征空间维数大及训练数据容量

28、大时非常必要。实际使用中,需要分别计算每一个未知待判断样非常必要。实际使用中,需要分别计算每一个未知待判断样本和已知类样本的空间距离。本和已知类样本的空间距离。KNN算法中影响算法准确率的算法中影响算法准确率的因素有距离函数、值的选择、分类决策规则,处理步骤分为因素有距离函数、值的选择、分类决策规则,处理步骤分为以下三步:以下三步:(1)截取图片进行数据预处理;)截取图片进行数据预处理;(2)KNN算法训练;算法训练;(3)对图片进行测试,并将测试结果与正确结果对比)对图片进行测试,并将测试结果与正确结果对比计算得出正确率。计算得出正确率。12.4朴素贝叶斯分类算法朴素贝叶斯分类算法1.算法简

29、介算法简介贝叶斯定理解决了概率论中贝叶斯定理解决了概率论中“逆向概率逆向概率”的问题。在生的问题。在生活中经常遇到这种情况:可以很容易直接得出活中经常遇到这种情况:可以很容易直接得出P(A|B),但对,但对于我们更关心的于我们更关心的P(B|A)则很难直接得出。而贝叶斯定理则给则很难直接得出。而贝叶斯定理则给出了通过出了通过P(A|B)来求解来求解P(B|A)的方法。的方法。贝叶斯定理能够在有限的信息下,帮助我们预测出概率。贝叶斯定理能够在有限的信息下,帮助我们预测出概率。可以说,所有需要作出概率预测的地方都可见到贝叶斯定理可以说,所有需要作出概率预测的地方都可见到贝叶斯定理的影子,特别地,贝

30、叶斯方法是机器学习的核心方法之一。的影子,特别地,贝叶斯方法是机器学习的核心方法之一。12.4朴素贝叶斯分类算法朴素贝叶斯分类算法朴素贝叶斯分类是基于贝叶斯定理与特征条件独立假设朴素贝叶斯分类是基于贝叶斯定理与特征条件独立假设的分类方法,常用于文本分类,尤其是对于英文等语言来说,的分类方法,常用于文本分类,尤其是对于英文等语言来说,分类效果很好,可以较好的适用于垃圾文本过滤、情感预测、分类效果很好,可以较好的适用于垃圾文本过滤、情感预测、推荐系统等。推荐系统等。12.4朴素贝叶斯分类算法朴素贝叶斯分类算法2.算法的数学原理算法的数学原理12.4朴素贝叶斯分类算法朴素贝叶斯分类算法3.算法算法流

31、程(三个阶段)流程(三个阶段)12.4朴素贝叶斯分类算法朴素贝叶斯分类算法4.算法实例算法实例下面讨论一个使用朴素贝叶斯分类解决下面讨论一个使用朴素贝叶斯分类解决“检测检测SNS社区社区中不真实账号中不真实账号”的例子。的例子。对于对于SNS社区(社区(Social Networking Services,专指社交,专指社交网络服务,包括社交软件和社交网站)来说,不真实账号网络服务,包括社交软件和社交网站)来说,不真实账号(使用虚假身份或用户小号)是一个普遍存在的问题,作为(使用虚假身份或用户小号)是一个普遍存在的问题,作为SNS社区运营商,希望能够检测出这些不真实账号,从而在社区运营商,希望

32、能够检测出这些不真实账号,从而在一些运营分析报告中避免这些账号的干扰,同时也可以加强一些运营分析报告中避免这些账号的干扰,同时也可以加强对对SNS社区的了解与监管。社区的了解与监管。12.4朴素贝叶斯分类算法朴素贝叶斯分类算法如果通过纯人工检测,需要耗费大量人力,效率十分低如果通过纯人工检测,需要耗费大量人力,效率十分低下,如能引入自动检测机制,必将大大提升工作效率。这个下,如能引入自动检测机制,必将大大提升工作效率。这个问题说白了,就是要将社区中所有账号在真实账号和不真实问题说白了,就是要将社区中所有账号在真实账号和不真实账号两个类别上进行分类,下面我们一步一步实现这个过程。账号两个类别上进

33、行分类,下面我们一步一步实现这个过程。首先设首先设C=0表示真实账号,表示真实账号,C=1表示不真实账号。表示不真实账号。Step1:确定特征属性及划分:确定特征属性及划分这一步要找出可以帮助我们区分真实账号与不真实账号这一步要找出可以帮助我们区分真实账号与不真实账号的特征属性,在实际应用中,特征属性的数量是很多的,划的特征属性,在实际应用中,特征属性的数量是很多的,划分也会比较细致,但这里为了简单起见,我们用少量的特征分也会比较细致,但这里为了简单起见,我们用少量的特征属性以及较粗的划分,并对数据做了修改。属性以及较粗的划分,并对数据做了修改。12.4朴素贝叶斯分类算法朴素贝叶斯分类算法我们

34、选择三个特征属性,这三项都可以直接从我们选择三个特征属性,这三项都可以直接从SNS的数的数据库中得到或计算出来的。据库中得到或计算出来的。a1:日志数量:日志数量/注册天数;注册天数;a2:好友数量:好友数量/注册天数;注册天数;a3:是否使用真实头像。:是否使用真实头像。下面给出划分:下面给出划分:a1:a1=0.05,0.05a1=0.2;a2:a2=0.1,0.1a2=0.8;a3:a3=0(非真实头像),(非真实头像),a3=1(真实头像)(真实头像)。12.4朴素贝叶斯分类算法朴素贝叶斯分类算法Step2:获取训练样本:获取训练样本这里使用运维人员曾经人工检测过的这里使用运维人员曾经

35、人工检测过的1万个账号作为训万个账号作为训练样本。练样本。类别样本数量特征属性a1特征属性a2特征属性a3划分样本数量划分样本数量划分样本数量C=08900a10.05445a20.1890a3=017800.05a10.266750.1a20.86230a3=171200.2a117800.8a21780C=11100a10.05880a20.1770a3=09900.05a10.21100.1a20.8220a3=11100.2a11100.8a211012.4朴素贝叶斯分类算法朴素贝叶斯分类算法Step3:计算训练样本中每个类别的频率:计算训练样本中每个类别的频率用训练样本中真实账号和不

36、真实账号数量分别除以用训练样本中真实账号和不真实账号数量分别除以10000,得到:,得到:12.4朴素贝叶斯分类算法朴素贝叶斯分类算法Step4:计算每个类别条件下各个特征属性划分的频率。:计算每个类别条件下各个特征属性划分的频率。12.4朴素贝叶斯分类算法朴素贝叶斯分类算法Step5:使用分类器进行鉴别:使用分类器进行鉴别现使用上面训练得到的分类器鉴别一个账号,这个账号现使用上面训练得到的分类器鉴别一个账号,这个账号的特征属性为的特征属性为a1=0.1,a2=0.2,a3=0,即:日志数量与注册,即:日志数量与注册天数的比率为天数的比率为0.1;好友数与注册天数的比率为;好友数与注册天数的比

37、率为0.2;使用非;使用非真实头像。真实头像。可见,虽然该用户没有使用真实头像,但是通过分类器可见,虽然该用户没有使用真实头像,但是通过分类器的鉴别,更倾向于将此账号归入真实账号类别。的鉴别,更倾向于将此账号归入真实账号类别。本章小结本章小结本章主要介绍几个经典的人工智能算法,以便通过学习本章主要介绍几个经典的人工智能算法,以便通过学习人工智能算法的具体知识来进一步培养计算思维能力,提高人工智能算法的具体知识来进一步培养计算思维能力,提高复杂问题求解能力。复杂问题求解能力。在学习过程中,应重点掌握各算法的数学原理、算法的在学习过程中,应重点掌握各算法的数学原理、算法的构造与设计思想、算法的能力

38、及优缺点、算法的应用领域等构造与设计思想、算法的能力及优缺点、算法的应用领域等知识,进而从中提炼并总结各算法所体现的计算思维方法。知识,进而从中提炼并总结各算法所体现的计算思维方法。本章作业、练习及本章作业、练习及SPOC研讨主题研讨主题(1)查阅资料,对其他常见的人工智能算法进行学习,)查阅资料,对其他常见的人工智能算法进行学习,并编程实现。并编程实现。(2)查阅资料,并思考人工智能算法的数学基础有哪)查阅资料,并思考人工智能算法的数学基础有哪些?怎样才能学好人工智能算法?些?怎样才能学好人工智能算法?(3)查阅资料,探讨人工智能与你所学专业的关系,)查阅资料,探讨人工智能与你所学专业的关系,以及人工智能算法的未来发展方向?以及人工智能算法的未来发展方向?

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁