《大数据时代下的情报分析与挖掘技术研究.pdf》由会员分享,可在线阅读,更多相关《大数据时代下的情报分析与挖掘技术研究.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、书书书情 报 学 报 第 卷 第 期 ,年 月 ,:收稿日期:年 月 日作者简介:王晓佳,男,年生,博士,讲师,主要研究方向:数据挖掘,计算机仿真,预测、决策科学与技术。:杨善林,男,年生,教授,博士生导师,主要研究方向:决策科学与技术,人工智能。陈志强,男,年生,博士研究生,主要研究方向:计算机仿真,预测、决策科学与技术。)基金项目:国家自然科学基金项目(),高等学校优秀人才基金项目(),国家级创新计划项目()。犬数据时代下的情报分析与挖掘技术研究 电信客户流失情况分析)王晓佳杨善林陈志强(合肥工业大学过程优化与智能决策教育部重点实验室,合肥)摘要大数据时代下的信息具有体量大、复杂性高、更新
2、速度快的特点,从具有如此复杂特性的信息中挖掘出用户所需的情报,难度较以往有了很大的提升。要在发展中抢占先机,在大数据时代获取竞争优势,就必须对原有的情报分析思路进行必要的升级改造,以满足信息的情报属性。文章在介绍了大数据以及大数据环境下情报内涵转变的原因之后,提出了一种在大数据背景下的情报分析与挖掘的建模机理,首先应用 建立情报任务分解概念模型,然后针对分解后的某一单任务数据表进行预处理和数据挖掘工作,利用数学模型、人工智能等方法构造大数据时代下情报分析与数据挖掘的新思路。最后利用仿真实验来验证这一新思路的可行性和合理性。关键词情报大数据数据挖掘任务分解 :,(,),万方数据大数据时代下的情报
3、分析与挖掘技术研究引言 犬数据世界已经转移到以数据为中心的范式上,大数据时代已经到来。每天,遍布世界各个角落的传感器、移动设备、在线交易和社交网络都在持续不断的创造出数量惊人的信息,这些信息既包括人类自身的,也包括其他各种事物的,而且,这种信息创造只会加速进行下去,不会停滞。据分析,到 年,全球以电子形式存储的数据量将达到,如果将这些数据都刻录在 光盘上,这些盘片堆叠起来就可以从地球垒到月球一个来回(单程约 万公里)。何谓大数据()?一般的理解就是大量的、海量的数据。但业界认为大数据与海量数据还是具有比较明显的差异,或者说,大数据在存在形式上比海量数据具有更加鲜明的业务特质。因此,基于客户的负
4、载要求,大数据可以定义为在海量数据的量化基础上,同时具备大分析()、大带宽()、大内容()等三大要素的巨大数据集。这里,大分析是对巨大数据集进行实时分析的要求,能带来新的业务模式,更好的为客户服务;大带宽是对处理极端高速关键数据的要求,支持快速有效的消化和处理巨大数据集;大内容是对安全性要求极高的高可扩展的数据存储,并能轻松实现恢复。可以说,大数据是一股突破性的经济和技术力量,消除了传统的计算和存储局限,能够有效的消化巨大的数据并把它们转化成有价值的洞见和信息。犬数据时代下情报内涵的转变一般意义下的情报(也称信息、资讯)是指被传递的知识或信息,也可理解为运用一定载体,在特定时间、特定状态下传递
5、给特定的人,解决科研、生产中的具体问题所需要的特定知识和信息。随着信息技术的迅猛发展,作为信息载体的数据,其产生的规模与速度都在以几何级数的规律增长,存在的模式较之以往的结构性数据也发生了根本性的变化。规模、速度、存在模式的三重改变导致情报的内涵也随之发生了显著的变化。在此背景下,原有的情报收集、分析与处理方式已不再适应大数据环境,必需进行升级、改造。很多学者对此问题进行了深入的研究,取得了很多有益的成果。文献与文献讨论了事实型数据的内涵、特性与作用,将情报研究工作与事实型数据有机结合,提出事实型数据是科技情报研究工作的基础这一科学论断,为定量化情报分析工作提供了科学的理论支撑。文献从数据挖掘
6、的角度对企业竞争情报智能采集策略进行了研究,依据竞争情报需求和信息源特点从不同角度深入探讨了企业竞争情报智能挖掘策略并阐述其开发实施方案,也取得了有益的成果。目前,不同规模的企业和机构都在奋力追赶大数据发展的速率和步伐,期待通过对大数据的有效运用,深度挖掘有价值的信息,改善自身的服务,提升客户的体验,在大数据时代获取竞争优势。大数据时代下情报分析与挖掘的建模机理 任务分解 犬数据时代下情报分析与挖掘的可行模式在大数据时代,巨量数据与传统数据处理方法的数据处理能力之间存在一个巨大的鸿沟。在以 级数据量为基本体量的大数据处理过程中,传统数据处理方法的吞吐量远远达不到这个标准,导致在面对 级的数据量
7、时,传统的数据处理方法纷纷处于崩溃的边缘,基本丧失了数据处理能力,更谈不上对情报的获取。虽然,传统数据处理方法可以采用舍弃不重要数据(如采用特征提取的手段对数据降维)或者通过堆处理的方式来缓解此问题,但毕竞只是权宜之策,而且,舍弃的数据在未来可能会重新使用,以挖掘更大的价值。因此,针对上述环境,构造适合大数据时代下情报分析与挖掘的技术手段显得尤为必要。巨量数据中蕴含着大量有价值的情报信息,但传统数据处理方法只能处理一定规模的数据,不适用于巨量数据,在保持数据完整性与正确性的前提下有效降低巨量数据的维度,对巨量数据按照客户负载要求进行任务分解,最终使每个任务所覆盖的数据量处于传统数据处理方法所能
8、承受的数据体量之内,则可以有效降低巨量数据处理的技术标准,最大程度发挥传统数据处理方法简单、灵活、易编程实现的优势。犬数据时代下情报分析与挖掘的建模机理()任务数据分解 是 年由 提出的面万方数据情报学报第 卷第 期 年 月图 任务分解概念模型向大数据集处理的编程模型,起初主要用在互联网数据的处理。但由于其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏,该技术一经推出便迅速在机器学习、数据挖掘、数据分析等领域得到广泛应用。将数据处理任务抽象为一系列的(映射)(化简)操作对。主要完成数据的过滤操作,主要完成数据的聚集操作。输入输出数据均以 ,格式存储,用户在使用该编程
9、模型时,只需按照自己熟悉的语言实现 函数和 函数即可,框架会自动对任务进行分解并做到并行执行。任务分解的概念模型如下所示。()任务数据预处理 将巨量数据集分解成小体量的单个任务之后,单个任务需要处理的数据体量明显降低,但由于任务分割的粒度划分标准不同,单个任务的数据体量仍有可能达到 级,并导致任务单体出现异尺度分布、量纲不统一、异常点跳跃等问题,因此,必须对任务单体进行预处理操作。具体流程如下:任务数据无量纲化处理当对具有多属性指标的单体任务进行处理时,为了使所有数据可以相加,消除不同指标间量纲的差异,往往就需要对原始数据进行无量纲化处理,把不同计量单位的数据改造成可以直接加总的同量纲数值,即
10、通过数学变换,消除计量单位对原数据的影响。处理步骤如下:设有 个决策指标,(,),个方案,(,),个方案的 个指标图 单任务处理流程图值构成的矩阵 ()称为决策矩阵;在决策矩阵 ()中,令 珋,(,;,)其中,珋为样本均值,为样本均方差,矩阵()称为标准差变换标准化矩阵。任务数据分布测度检验由统计学的常识可知,数据量在累积到一定规模之后,其分布态势会自然地趋向于正态分布,因此任务数据的分布情况必然也趋向于正态分布。对于任务数据的分布测度检验可以通过如下简单的统计检验实现,其步骤如下:将单体任务定义为统计总体,选择适量数据记为样本,(,)。对,(,)进行升序排列,记为(),(),()。计算()1
11、,万方数据大数据时代下的情报分析与挖掘技术研究这里,()是标准正态分布函数的反函数,其中的常数 和 是修正量。在以 为纵坐标,期望值为横坐标的直角坐标系中描出点(),()(,),若这些点大致在一条直线上,则学生残差 服从正态分布,反之则不服从正态分布。任务数据离群点处理在分布测度检验之后,仍会存在与数据分布规律不符合的数据对象即异常数据。异常数据可能由于测量误差、输入错误或运行错误造成,也可能由于数据内在特性造成。在进行情报分析与挖掘的过程中,离群点可能是一些无效的数据点,也有可能是蕴含重要效用的情报,因此,对任务数据离群点进行分析,以判断其蕴含的信息是否有价值是十分必要的,也是现代情报分析过
12、程中不可忽略的重要一环。对离群点进行处理的步骤可概括为如下两点:如果在任务数据中出现离群点,首先应从技术上设法判断其出现的原因,如果其确由实验技术上的失误或者人为纪录失误造成,不管这样的测定值是否为异常值,都应该舍弃,不必进行统计。如果由于存在某些原因不能从技术上找到离群点出现的原因,在这样的情况下应该首先对它进行统计检验,以便确定离群点应该舍弃还是保留。具体检验方法可分为两类,一类是标准偏差预先已知的情况;另一类是标准偏差未知的情况。对于标准偏差预先已知的情况,检验时使用统计量 珋进行检验,式中 是被检验的离群点,珋 是一组测定值的算术平均值,是不包括离群点在内的其他实验测定值求得的样本标准
13、差。如果上式中 值大于舍弃界限中相应置信度下的临界值,则 将 离 群 点 作 为 异 常 值 舍 弃 掉,否 则保留。对于标准偏差预先未知的情况,则只能利用待检验的一组分析数据本身来检验其中的离群点是否应该保留或舍弃,该过程处理方式不唯一,可通过 准则、准则等方法进行判断。任务数据函数性描述对巨量数据集进行情报分析与挖掘时,其时间频度与空间频度都比传统规模数据要大的多,在观测的时间点十分密集时,被观测的巨量数据集就会呈现出一种函数特征,为了更准确的刻画这种特征,基本方法是将带有某种函数性质的数据看成一个整体(内在结构,非外在表现形式),对观测数据进行平滑,将离散的观测数据转化为函数曲线。处理步
14、骤如下:假设()表示定义在有界区间 上的光滑(或连续)随机函数,通常可认为某种随机过程,表示时间,也可表示为时间之外的变量。(),()表示()的 个独立实现。观测数据记作(,),其中 表示对每 条曲线离散观测次数。所以,函数型数据的基本特征为()(),()对观测数据 采用平滑技术(平滑法或插值法),估计其潜在的函数形式(),获得区间 上任一点 的取值。对观测值进行分析。如在观测点(,)上()的值与观测值 存在误差,则采用平滑过程将离散数据转化为函数,如在观测点(,)上()的值与观测值 相同,即没有误差,则采用插值过程将离散数据转化为函数。任务数据应用性再分析假定我们已经通过预处理观测值得到了所
15、有曲线(),(),对函数型数据变化形式的最基本的探索性分析是通过描述性统计量对数据进行描述,以便进行深入分析。描述性统计量包括均值函数、方差函数、协方差函数、相关函数、互协方差函数和互相关函数等,其中均值函数和方差函数是进行任何函数型分析的基础。均值函数是所有函数的逐点均值,即珋()(),()类似的,方差函数是所有函数的驻点方差,即()()珋(),()协方差函数为:(,)()珋()()珋(),()相应的,相关函数为:(,)(,)()(槡),()互协方差函数考虑的是两个随机函数在不同时间点的协方差,即,(,)()珋()万方数据?第 卷第 期 年 月()珋(),()相应的,互相关函数为:,(,),
16、(,)()(槡),()值得注意的是,与协方差函数和相关函数不同,互协方差函数和互相关函数关于时间点 和 通常来讲不再具有对称性,即,(,),(,),(,),()()任务数据挖掘大数据时代下的数据挖掘与传统数据挖掘,在概念的内涵与实现的目标上并不存在本质的区别,即都是为了获取数据中蕴含的规律性知识以提前预知事物的变化发展趋势。有所不同的是实施挖掘的数据环境发生了变化,数据在量(数据量)与型(数据类型)有了一定的提升。在合理进行任务分解之后,数据量与数据类型都满足客户负载要求的情况下,传统的挖掘方法同样适用于大数据。本文以预判事物发展趋势为目标,给出大数据时代下,情报信息挖掘的一种合理模型,建模步
17、骤如下:合理进行任务数据分解,并开展完整的任务数据预处理,如()、()所示。构建任务数据挖掘数学模型。考虑到任务分解后的单体数据集体量仍具有一定规模,故基础方法采用神经网络模型,使单体数据集中的每一个数据点与神经网络模型中由复杂神经元组成的庞大训练集形成映射,辅助方法采用近年来在统计学习理论中常用于大样本优化的(支持向量机),实现其对神经网络模型的优化求解,并对神经网络的隐形层进行改进,使之在大数据环境下的数据处理更加稳定。:假设 表示巨量数据集,(,)为覆盖该巨量数据集的带状区域函数,使用支持向量回归算法对下列最优化问题进行求解:(,)()()使得:()(),()其中,为引入松弛变量,用来控
18、制线性不可分边界。得到一个无约束条件的二次规划问题(,)()()()()(,)()式中,(,)为核函数且(,)()(),()与()分别为样本空间点 和 的映射的象。()()():由 算法构造网络的初始结构,选用高斯径向基核函数作为网络的隐层,则新的网络结构可表示为:()()()其中,是径向基函数的中心,即支持向量,是隐节点数目,是欧氏范数,槡 是隐藏节点的宽度,其中 是所选中心的最大距离。:在 网络的学习过程中。调整径向基函数的中心、宽度以及网络权值等网络参数,使网络性能达到最优,本算法选择梯度下降法作为其训练算法。对于 的网络结构:()()式中,为期望输出,为网路输出,CJ():求 对、的偏
19、导数,得:()()()()()因此,各参数的校正公式如下:万方数据大数据时代下的情报分析与挖掘技术研究()()()()()()()其中,是隐节点数目,是输出维数,是步长,通常取 。:在确定了、后,神经网络预测模型从输入到输出就描述为如下线性方程组:(),()式中,为输出神经元数;为网络权值。这样,基于 的大数据挖掘模型构建完毕。案例分析大数据是当今 业最热门的词汇,但光有大数据是不够的,要让这些数据发挥出业务价值,才是关键。目前,关于大数据处理技术的案例在文献中并不多见,从大数据处理技术应用对象的角度来看,业界一般将电信业作为一个比较合适的应用领域。电信业是国民经济的基础性、支柱性、先导性产业
20、,承担着推动国家信息化和促进国民经济发展的重任。对于电信运营商而言,大数据将给电信网络的容量和带宽带来更加严峻的考验,传统数据仓库无法线性扩容,以批量加载为主的 系统难于有效支撑网元和传感器产生的流数据所必须的实时处理与分析 要 求。但 是 同 时,大 数 据 所 具 备 的 海 量 数据,以及高效的信息分析能力,将帮助运营商在日益激烈的市场竞争中准确决策,重新深度挖掘流量和数据的价值,摆脱正在面临的“管道化”风险。本文尝试以我国电信行业为应用背景,以电信客户流失问题为案例,运用大数据时代下情报分析与挖掘模型对其进行分析求解,给出解决该类大数据处理问题的一条思路。案例解决方案如下:()确定研究
21、对象以某地区电信业务数据为研究对象,时间跨度为 年 月到 年 月。各类业务数据纪录共计 条,数据体量 。(考虑到原始数据信息过于庞大和繁杂,且由服务器导出不便,故文中不予表示)业务数据包括用户年龄、计费、在网时间等以数值形式存在的结构化数据,也包括离网原因、离网方式等以文本形式存在的非结构化数据,符合大数据在数据体量与数据类型方面的基本要求。()分离研究目标采用 技术将客户离网数据从整体业务数据集中分离出来,离网方式分类如表 所示:表 离网方式代码状态代码状态名称正常正常 欠费停机正常 限制呼出正常 预销预销 销号预拆 局拆局拆 限制呼出分离程序核心代码如下:(语言环境)!:():(可由,等状
22、态代码替换)(“”(,)!:(,)()()(,)():(“”(,)由此可分离出各种方式离网的用户数量及离网状态比例。表 用户离网方式状态代码状态名称数量占总数百分比正常 正常 欠费停机 正常 限制呼出 正常 预销 预销 销号 预拆 局拆 局拆 限制呼出 万方数据情报学报第 卷第 期 年 月()离网数据预处理对离网数据进行预处理,最终得到离网用户的分布趋势图。为将离网用户的分布情况描述的更加清晰,我们从在网时长、年龄层次、性别等三个维度对其进行分布测度描述,(品牌忠诚度维度因涉及商业竞争秘密,故文中不予考虑)如图、图 所示(文中图 至图 引用自作者参与课题的研究报告),以期发现其蕴含的内在规律。
23、()离网信息分析与挖掘根据以上的数据处理规则,我们可以得到一些筛选后的较为准确的信息,而且数据量也有所下降,利用这些数据可以方便进行下一步的相应离网信息挖掘与分析工作。首先考虑在网时长与性别的关系。用户在网时长主要是由用户自身决定的,虽然分月返还策略限制了这种自由性,但是如果性别真正对在网时长有所影响,其仍然会在在网时长上有所体现。如图 所示。图 鲁在网时长离网用户分布图 鲁年龄离网用户分布万方数据大数据时代下的情报分析与挖掘技术研究男性在网时长的离网用户分布女性在网时长的离网用户分布图 男、女用户在网时长离网用户分布从图 上下两图基本形状来看,两图几乎是一样的,虽然在具体数值上有所差别,但是
24、这不能影响其统计意义上的相似性。从在网时长分布图上明显可以看出,男性和女性最频繁出现离网的都分布在 个月左右的在网时长上,而且在两年在网时长上都出现了一个小峰点,导致该现象的原因可能是分月返还到期立刻销号或者是学生离校等。从男女在网时长的两个图可以发现,性别对于在网时长是中性的,这可能与一般的分析有所出入,从女性的性格特征上说,女性会谨慎入网,然后在网时间应该会比男性长一些,波峰会向右移动。从图 中的数据大致估计,两者的平均在网时长没有较大差别,经测算,男性的平均在网时长为 个月,女性为 个月,因此,我们推断性别对用户的在网时长稳定性上具有一定的影响。下面考虑用户自身属性的另一个因素:年龄。万
25、方数据情报学报第 卷第 期 年 月男性鲁年龄离网用户分布女性鲁年龄离网用户分布图 男、女用户鲁年龄离网用户分布观察以上离网用户年龄分布图,我们发现男性和女性离网用户在年龄上的分布是有些差别的,虽然差别不大,如果仔细分析以上两个分布图,可以发现女性在 岁之间的离网人数所占比例较高,其图形显得比较瘦高,而男性虽然在这部分年龄的离网客户占的人数比例也最高,但是男性的这部分年龄与周围年龄的差值没有女性的大,也就显得男性分布有些矮胖。从此可以推断,女性 岁年龄段的用户比男性这部分用户要活跃一些,离网的可能性更大。因此,这部分年龄段的用户比较容易离网,应加强对该年龄段用户的应对措施。下面利用 模型对在网用
26、户的离网情况开展预测挖掘,通过对可能发生离网行为的信息提前捕获,促使企业及时制定相关政策措施,改善经营策略,避免损失。预测挖掘的结果如下:表 在网时长区段的离网用户比例时间跨度离网用户数总离网用户数百分比 个月之间 一年(个月)个月 一年半(个月)两年(个月)万方数据大数据时代下的情报分析与挖掘技术研究图 鲁在网时长的离网客户数结论当前,数据挖掘对于传统规模数据集的各种功能模式已经得到了相当广泛的研究和应用。而大数据概念的提出,给数据挖掘工作带来了一个划时代的改变,特别对从巨量复杂数据集合中提取有价值的情 报 信 息,更 是 一 个 全 新 领 域 的 挑 战。利 用 技术,本文成功将大数据与
27、传统数据挖掘技术进行了结合,一方面给出了大数据时代下情报分析与挖掘的一条可行思路,另一方面也提出了将情报分析与挖掘工作推广到大数据这个数据挖掘全新领域的想法,做了一次有益的尝试。然而,许多学科其大量的方法和思想都来源于现实的需求。随着数据挖掘在大数据领域的深入推进,必然会使挖掘模式得到广泛发展,这反过来也会促进大数据时代下情报分析与挖掘技术的不断深入与完善。本文提供的案例来源于作者对国内某电信运营商离网情况所做的研究工作,在研究过程中,作者将大数据处理的思想与方法运用其中,得到了较好的研究结果,证实了大数据并非业界热炒的一个概念,其相关处理技术与企业的实际需求具有良好的结合性,其方法具备良好的
28、可行性与可移植性,能够在情报大数据的分析与处理中发挥巨大作用。参考文献 :百度百科 情报 :贺德方 基于事实型数据的科技情报研究工作思考 情报学报,():贺德方 事实型数据:科技情报研究工作的基石情报学报,():张玉峰,王翠波,吴金红,等 基于数据挖掘的企业竞争情报智能采集策略研究()智能挖掘与采集平台构 建 的 策 略情 报 学 报,():,:,():,:,():,:?,():,:万方数据?第 卷第 期 年 月 ,():,(),:?大数据案?分析:电信业 应用分析 :(责任编辑马兰)万方数据大数据时代下的情报分析与挖掘技术研究电信客户流失大数据时代下的情报分析与挖掘技术研究电信客户流失情况分
29、析情况分析作者:王晓佳,杨善林,陈志强,Wang Xiaojia,Yang Shanlin,Chen Zhiqiang作者单位:合肥工业大学过程优化与智能决策教育部重点实验室,合肥,230009刊名:情报学报英文刊名:JOURNAL OF THE CHINA SOCIETY FOR SCIENTIFIC ANDTECHNICAL INFORMATION年,卷(期):2013,32(6)参考文献(14条)参考文献(14条)1.Georges Nahon New Tools for New Computing Challenges 20112.情报 20123.贺德方 基于事实型数据的科技情报研究
30、工作思考期刊论文-情报学报 2009(05)4.贺德方 事实型数据:科技情报研究工作的基石期刊论文-情报学报 2010(05)5.张玉峰;王翠波;吴金红 基于数据挖掘的企业竞争情报智能采集策略研究()-智能挖掘与采集平台构建的策略期刊论文-情报学报 2009(02)6.Jeffrey Dean;Sanjay Ghemawat MapReduce:Simplified Data Processing on Large Clusters 2004(01)7.Jiang D;Ooi B C;Shi L The performance of MapReduce:An in-depth study 20
31、10(01)8.Stonebraker M;Abadi D J;DeWitt D J MapReduce and parallel DBMSs:Friends or foes 2010(01)9.Dean J;Ghemawat S MapReduce:A flexible data processing tool 2010(01)10.Greenplum MapReduce 201211.Pavlo A;Paulson E;Rasin A A comparison of approaches to large scale data analysis 200912.Known applications of MapReduce 200813.涂兰敬 大数据案例分析:电信业Hadoop应用分析 201214.WinterCorp:2005 TopTen Program Summary 2005 本文链接:http:/