《胶管工程项目数据采集分析与知识管理(工程项目组织与管理).docx》由会员分享,可在线阅读,更多相关《胶管工程项目数据采集分析与知识管理(工程项目组织与管理).docx(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、泓域咨询/胶管工程项目数据采集分析与知识管理胶管工程项目数据采集分析与知识管理xxx投资管理公司一、 工程咨询企业知识管理(一)知识管理及知识管理的组织1知识管理的概念日益激烈的竞争以及其他众多因素对工程咨询企业知识的数量与质量提出了更高的要求。从某种意义上说,知识管理是咨询企业最重要的能力。经常有人将知识管理与信息管理混为一谈。信息是知识的来源,但不一定成为知识。要想从信息中提炼知识,需要有意识地开展必要的活动,使信息经过大脑的处理、加工与提炼。知识管理,是建立一套制度,开展一系列活动,获取、记录、整合、存取、更新和创新知识,以适当的形式为咨询企业所掌握,成为企业知识积累中的一部分,用来为客
2、户、社会创造价值,不至随着企业活动的结束或停止或因当事人的离开而流失。知识管理可以延伸到人在知识方面的行为、企业管理制度与企业文化等方面。简而言之,知识管理就是对知识提炼、创造、共享和积累,以及应用等过程进行规划、实施和控制的活动。2,知识管理的必要性知识管理能够减少重复劳动,增强企业的记忆,丰富咨询企业的智慧。知识管理在全球迅猛发展的原因在于:(1)竞争。市场竞争日益激烈,创新速度加快。咨询企业必须不断获得新知识,利用知识为企业和社会创造价值。要走向世界,就必须掌握与世界交流,以及获取、创造与转换知识的能力。企业文化对企业学习能力影响极大,必须摆脱封闭、保守、不思进取的陈旧文化,转变成学习型
3、企业,才能在竞争中立于不败之地。(2)以客户为中心。企业要为客户创造价值。(3)员工流动。如果企业不能及时妥善地处理,就会丧失员工在本企业工作期间获得的知识。很多咨询企业,当某专业骨干离职后,在相当长一段时间内,无法正常开展该专业的业务,给企业和客户造成了损失。(4)不确定性。咨询企业内外不确定因素众多,市场竞争使咨询企业不能确保客户上门。当前的世界,新技术频出,更新加快,咨询企业不能确信自己为客户提出的技术方案一定成功。企业及其成员获取和使用知识的能力成为企业生存与发展的决定性因素,知识已成为企业获取竞争优势的基础与稀缺资产。3知识管理的组织工程咨询企业必须建立知识管理需要的组织,明确必要的
4、角色及其职责、权限和相互关系,并分派给适当人员。必须制订管理方针、目标以及实现这些目标所需要的规章制度。此外,还要设立必要的知识库、多渠道知识收集系统等。知识管理需要长期坚持并且努力使其成为企业文化的一部分。知识管理体系应当具备如下特征:(1)以人为本。知识管理要以人为本,咨询企业应充分发动每个部门、每一员工,贡献自己掌握的信息与知识,使之成为企业的知识与智慧。(2)以无形资产为主要对象。知识管理比以往任何管理形式都更重视知识资产。(3)无间断的循环。在企业存续期间,知识管理是一个不间断的“积累一创造一应用一再积累一再创造一再应用”的循环过程(4)以提炼隐性知识为主。知识管理对象有显性和隐性知
5、识,但以提炼隐性知识为重点,设法将隐性知识转换为易于企业内共享的知识。研究表明,大多数企业,有序、关系清楚,可供员工参考的信息与知识只占自身拥有总量的10%,其他90%存在员工个人大脑之中,且难于用语言、文字或图形清楚地表达出来供企业使用。一旦这些人流失,企业将蒙受巨大损失。(5)以创新为目标。知识管理以创新,以建立创造新知识平台为目标,创新和孕育新智慧是知识管理的标志。(6)建立学习型组织。便于知识管理的组织与叠床架屋的层级组织不同,只有中间层次简单的“扁平”、开放学习型组织,才有利于知识管理。知识管理必须利用先进的信息技术与工具。有些咨询企业已按自身的发展战略及管理体制建立了独特的知识管理
6、系统。与信息管理一样,知识管理也应具备安全管理功能,保护本企业掌握的知识不受损害。(二)知识管理原则与功能1知识管理原则(1)积累原则。知识积累是实施知识管理的基础(2)共享原则。咨询企业应使每一员工都能接触和使用公司的知识和信息。(3)交流原则。知识管理的核心是要在企业内部建立有利于交流的结构和文化,消除员工之间的交流的障碍。知识交流在上述原则中处于最高层次。2知识管理功能知识管理要获得成功,需要有完整的知识管理制度。该制度应具备的主要功能如下:(1)能够清楚地了解企业已有何种知识,还需要何种知识;(2)要能够及时将知识传递给真正需要的人;(3)一定要使需要知识的人能够获取;不断生产新知识,
7、并使整个企业的人能够使用;(4)确保进入企业的知识可靠、有生命力;(5)定期检查企业的知识是否仍然有效;(6)改造企业文化,建立激励机制,为知识管理创造便利条件。(三)内部交流与共享咨询企业内部的知识交流一方面可以让不同项目组之间交流咨询方法和经验,促进隐性知识的提炼;另一方面也便于彼此加深了解和信任,促进合作,促进知识的创新与共享。知识共享有多种方式,例如即时通信、培训与及时交流会等。知识共享将分散于各部门和各员工头脑中的知识汇集起来,将知识孤岛连成大陆,产生孤岛无法产生的价值。交流可以最大限度地使知识和经验得到融合和升华,也是使旧知识得以发展、新知识得以产生的催化剂。咨询企业应当成为学习型
8、组织,内部的知识交流是员工学习与组织学习的重要方式。咨询单位应当建立适当的激励制度,促进知识共享,在共享中充实。企业的知识管理规章和制度,应当全面鼓励各部门奉献自己的知识,与他人共享。只有这样,才有利于企业的知识积累。四)知识管理成效的评估咨询企业知识管理的好坏与成效,可从以下几个方面评估:1人力资源:培训费用、员工向心力与经验;2创新成果:研发费用、员工创新态度与比率、咨询业务的更新、知识产权;3客户态度:服务质量、合作时间、咨询次数、销售额等。二、 建立知识管理系统步骤建立知识管理系统,一般经历认知、规划、试点、投入使用与建立新制度几个阶段。(一)认知这一阶段任务是统一企业对知识管理的认识
9、,评价企业知识管理现状,提出知识管理的策略。主要工作有:对企业管理者,尤其是高层培训,使其全面、正确地认识知识管理的作用;利用知识管理成熟度模型等多角度评价企业知识管理现状,调查、分析存在的主要问题;评价知识管理对企业发展的长远和近期影响;做出必要的决策;提出实施战略和努力方向等。(二)规划在认知的基础上,制订详细的实施计划。这一阶段主要是详细分析本企业所需知识的类型,根据业务流程等制订知识管理计划。规划时,务必将知识管理融入企业管理之中。主要工作有:从战略、业务流程及职能划分的角度制订计划;实事求是地分析企业管理与知识管理的现状;从企业发展战略上提出知识管理的目标和实施策略,并对业务流程进行
10、合理化改造;分析对知识管理的具体要求;为知识管理奠定坚实的理论与实施基础。(三)试点选取适当部门和业务试行知识管理。及时观察与记录实施结果,解决遇到的问题。咨询业务虽然需要多方面知识,但重点应放在关键知识上,提出改进知识管理的具体策略。在分析与总结试点成败、要求和改进计划之后,应考虑必需的IT系统建立或改造工作。应建立有力的团队,协调各业务部门、外部参与者等多方面的行动。(四)投入使用知识管理计划试点并经完善之后,应全面推广。主要工作有:推广试点部门的具体作法和完善后的知识管理计划;将知识管理融人业务流程和价值链;建立初步的知识管理制度;将企业逐步改造成学习型组织,充分利用头脑风暴等手段和技术
11、提炼知识。在全面推广过程中应注意:把握实施全局,合理协调企业文化、管理与技术;要恰当控制难免的混乱;将知识管理融入日常业务和工作并非一蹴而就,须持之以恒;努力使知识管理为企业发展做出贡献;对于人的思想观念等应予以引导,充分考虑实施知识管理造成的利益再分配;建立有效的激励和评价制度,确保知识管理成功.(五)建立新制度建立适合于知识管理与企业发展的新制度,既是知识管理项目实施的结束,又是企业知识管理的新开端,也是企业自我完善的过程。为此,企业须重新定义发展战略,并改造企业组织结构及业务流程,准确评估知识管理为企业带来的价值。三、 工程咨询信息类型及来源(一)信息类型工程咨询需要的信息,量大、面广。
12、为了便于识别、分析、存储与保管,可从不同的角度将其分类。例如,从信息属性、来源、形态、用途、载体,是否随时而变或是否经过加工处理等角度划分。1不同属性的信息工程咨询中常用如下几种属性信息:(1)法律。国家、各级政府颁布的有关投资与工程建设的各种法律、法规、规章等。(2)规划与政策。国家和地方的各种规划(战略、行业),以及财政、税收、货币、投资和产业等方面的政策。(3)标准与规范。国家各部门或专业协会发布的技术经济指标、定额、标准与规范等。(4)自然与资源。调查、统计或其他机构保存或取得的河流、湖泊、沼泽、山脉、森林、植被、矿藏、水文等地理资料,气象、气候等天文资料等。(5)行业统计。全国乃至全
13、球各行业规模与产业动向、生产与销售、进出口、技术,以及主要企业、公司等的现状、竞争态势,以及发展趋势等。(6)投资与项目。全国乃至全球各种项目的实施过程与结果,包括投资、规模、技术来源、标准、设备、产品性能和目标市场等。(7)区域社会与经济状况。区域的社会、民族、文化、教育、宗教、习俗等人文状况,区域经济发展、税收、财政、基础设施等。2来源不同的信息(1)内部信息。企业或项目已有或反映企业及项目状况,不希望外人获知的信息。(2)外部信息。诸如宏观政策的变动、市场动态、竞争情况、政策法规、技术发展等方面的信息。3媒介与形式不同的信息信息有多种形式,如数据、文字、图样、影像、录音。信息载体或媒介亦
14、有多种,如书籍、文件、报告、会议、数据库和磁盘等。4原始信息与加工信息信息有原始和加工信息。原始信息,如人口普查记录;加工信息,利用某些方法,根据原始信息取得的判断、评价、预测及建议等,如对人口构成的分析。5用途不同的信息信息的用途五花八门,如标准、规范、手册等,通常用于技术方案设计;如生产资料价格、概算定额等,通常用于投资估算;如税率、产品价格、影子价格等,通常用于项目财务分析或经济分析;行业基准收益率、市场竞争情况等,通常用于投资项目决策。6动态信息与静态信息信息可分为静态和动态两类,前者指不随时间变化或变化较小的信息,如道路、停车场、交通附属设施等;后者为随时变化的信息,如道路状况、交通
15、事故、天气、车辆密度与流量等。7显性信息与隐性信息显性信息指以文字、图形或其他符号明显记载于书籍或其他介质的信息。隐性信息是须经过分析、联系与推断才能获得的信息。(二)工程咨询对信息的基本要求信息是咨询和决策的基础,至少应满足如下要求。1来源须可靠,必须来源于实际,不能含有虚假、伪造的成分。2必须全面或较全面反映客观事物与过程,不得将片面、残缺的信息用于咨询。3必须适合或基本适合选用的咨询方法。不同的咨询方法需要不同范围和时间段的信息。如果不能适合选用的咨询方法,就应选择其他咨询方法。(三)信息来源信息来源很多,例如图书馆、档案馆、调查或咨询机构、学校、出版与研究机构、商场、国家与地方统计局及
16、其他政府或新闻机构、国际组织与外国驻华机构、互联网等。1网络和出版物从互联网上能够快速检索到最新、非常有价值的信息。当然,对这些信息必须特别注意加以鉴别,去伪存真。公开出版物同样发布大量有用的信息,例如行业年鉴、调查与统计报告、专题研究报告等。2借阅与购买从合作单位、专门机构索取或购买资料是一种重要的信息来源。如到各种图书馆借阅文献与资料,购买国家或地方统计局出版的综合与行业统计年鉴,向某些调查机构索取或购买调查报告,向测量部门购买卫星图片、航测或航拍图片,向地震部门购买地震分布资料,向水文、气象部门采购历年水文、气象资料,向城市主管部门采购地理信息资料,向地质勘探部门采购地质勘探资料等。3自
17、有信息从事规划、勘察、设计、科研、监理等咨询活动的咨询企业,积累了大量宝贵信息,例如水文地质与地形勘察报告、图档、投资估算、设计概算、工程决算、可行性研究报告、监理报告、实验报告、总结报告、国内外工程招标信息、最新行业动态和资讯、竞争企业情报、国内外工程规范和标准惯例、公司资质和专业资质、人力资源、公文公告、财务信息、企业管理制度和报表模板等,不少咨询企业还拥有专利。四、 工程咨询信息及其管理概述(一)工程咨询信息的内涵信息资源是工程咨询行业的核心资源,通过获取海量有效的信息,依靠信息、知识和智慧、先进科技手段进行服务。信息爆炸的社会要求工程咨询行业服务机构拥有获取信息、处理信息的能力和手段。
18、工程咨询项目管理信息化是结合行业业务特点,以信息资源开发利用为核心,利用现代信息技术、网络技术等现代科技,强化信息技术在业务中的渗透,在工程咨询项目各环节中推广应用信息技术,以提高工程咨询机构管理决策能力,提升咨询工作效率,增强机构行业竞争力。工程咨询需要的信息,涉及自然、资源、气候、水文、地质、人口、人文、项目投入产出、市场(商品、劳动力、金融)、财政及政策、货币政策、法规、标准与规范、发展规划等。(二)工程咨询信息管理的必要性我国经济进入新常态,全球化、绿色发展、结构调整、新技术应用等成为发展主基调,这不仅需要规模巨大的投资,而且更加注重发展质量,这就给工程咨询业带来了极大的发展机遇,也对
19、工程咨询信息管理提出了新的需求。未来工程咨询将更多的应用建筑信息模型技术(BIM)、大数据、物联网、地理信息系统(GIS)无人机应用、AR仿真模拟、人工智能辅助查询与分析系统等,也迫切要求工程咨询业能够尽快改变传统咨询手段,必须针对新技术、新产业进行调整,建立完善的数据分析与知识管理方法。传统的信息管理模式工作流程繁琐,耗费人力物力,亟待向智能管理模式迈进。工程咨询信息管理以丰富的信息资源为管理重点,利用“互联网+”、数据库管理系统等先进的信息管理手段,协助工程咨询人员能够从海量的业务数据中提供有用的信息,进而做出科学的判断以及正确的决策,从而实现为工程咨询的决策提供更加全面及时的信息支出,使
20、工作更加便捷,回复也更加及时,大幅减少出现错误的概率,安全性更高。五、 项目背景分析我国软管工业在近十年里生产获得了长足的进展,软管用的弹性体,增强用的钢丝和纤维的品种和数量也都有明显的增多。目前用于生产软管用的橡胶和弹性体有几十种之多,常用的有:天然橡胶、丁苯橡胶、三元乙丙橡胶、丁腈橡胶、氢化丁腈橡胶、氯丁橡胶、氯磺化聚乙烯,氯化聚乙烯和氟橡胶。另外某些热塑性弹性体,例如乙烯丙烯酸弹性体、聚丙烯酸弹性体也都获得了应用。这表明所生产的软管品种有了明显的增多,另外软管用的增强材料也有了更多的选择。纤维和钢丝的品级基本可以满足软管生产的需求。在生产输空气、输水低压软管时仍旧以人造丝、聚酯纤维作为增
21、强材料,而在生产中高压液压软管时仍以钢丝作为软管的增强材料,所选用的钢丝,依所生产的液压软管压力和尺寸不同,钢丝直径从0.20mm到0.80mm之间不等。在生产大口径软管时还要选用钢丝帘线和扁钢丝作增强材料,具有高强度、致密性和抗疲劳性能。目前从软管行业上看,所采用的成型工艺与国外一样,也是硬芯法,软芯法和无芯法三种,用软芯法和无芯法生产软管的较多。从硫化工艺上看,绝大多数仍采用缠尼龙水包布后进行蒸汽硫化。在近十年里尼龙水包布已经取代了纯棉水包布,用锦纶布带已经在国内众多胶管厂家获得成功,这是一个提高软管外观质量的一个佳措施。用尼龙水包布包缠的软管外观质量完全符合HG218591橡胶软管外观质
22、量标准的要求。随着合成橡胶用量的增加,液压软管,高压树脂软管,油田用软管,汽车工业用软管,还有大口径、大长度软管都相继工业化生产,以钢丝或纤维编织和缠绕结构的比重大为增加,与世界软管工业的先进水平差距大为缩短。我国软管行业所用的设备大部分为国产设备,70年代末,随着钢丝编织和缠绕增强的软管在国内少数厂家生产并开始投入市场,受到用户的欢迎,这种类型软管的生产受到了重视。国内软管行业有40余家,从国外引进软管生产线或单机设备,促进了生产的发展。从1985年起,国内软管厂家开始引进国外设备,如沈阳第四橡胶厂引进WSW型钢丝缠绕机1台,225型钢丝编织机1台,RB2型编织机4台。青岛第六橡胶厂引进MR
23、型编织机4台,广州胶管厂引进225型钢丝编织机2台,上海橡胶总厂引进MR型编织机2台,RB2型编织机2台。山东枣庄橡胶厂引进MR型编织机7台。西北橡胶厂引进MR型编织机2台,RB2型编织机1台。重庆中南橡胶厂引进MR型编织机2台,RB2型编织机1台。齐齐哈尔橡胶厂引进225型钢丝编织机1台。河南平顶山胶管厂引进RB2型编织机1台。沈阳橡胶研究院引进WSW型钢丝缠绕机1台。北京橡胶二厂从瑞士引进了年产量为100万米缠绕增强的胶管热空气连续硫化生产线,南京7425工厂从意大利引进了年产400万根高档制软管和200万根空调软管的生产线;可满足300万辆汽车配套用,江西宜春橡胶厂从英国引进了年产量为4
24、.5万米的制动编织软管生产线,邯郸橡胶厂从美国引进了SE18型高速缠绕机,沈阳胶管总厂从德国引进了HM604型双梭园织机生产消防水龙带,重庆中南橡胶厂从西班牙引进了一条年生产能力为150200万标米的针织软管微波硫生产线。六、 项目名称及项目单位项目名称:胶管工程项目项目单位:xxx投资管理公司七、 项目建设地点本期项目选址位于xxx(待定),占地面积约28.00亩。项目拟定建设区域地理位置优越,交通便利,规划电力、给排水、通讯等公用设施条件完备,非常适宜本期项目建设。八、 建设规模该项目总占地面积18667.00(折合约28.00亩),预计场区规划总建筑面积30126.46。其中:主体工程2
25、2140.55,仓储工程3240.59,行政办公及生活服务设施3566.17,公共工程1179.15。九、 项目建设进度结合该项目建设的实际工作情况,xxx投资管理公司将项目工程的建设周期确定为24个月,其工作内容包括:项目前期准备、工程勘察与设计、土建工程施工、设备采购、设备安装调试、试车投产等。十、 建设投资估算(一)项目总投资构成分析本期项目总投资包括建设投资、建设期利息和流动资金。根据谨慎财务估算,项目总投资11461.66万元,其中:建设投资9315.07万元,占项目总投资的81.27%;建设期利息230.68万元,占项目总投资的2.01%;流动资金1915.91万元,占项目总投资的
26、16.72%。(二)建设投资构成本期项目建设投资9315.07万元,包括工程费用、工程建设其他费用和预备费,其中:工程费用8129.57万元,工程建设其他费用893.21万元,预备费292.29万元。十一、 项目主要技术经济指标(一)财务效益分析根据谨慎财务测算,项目达产后每年营业收入21000.00万元,综合总成本费用16524.98万元,纳税总额2113.72万元,净利润3274.11万元,财务内部收益率21.93%,财务净现值3440.88万元,全部投资回收期5.81年。(二)主要数据及技术指标表主要经济指标一览表序号项目单位指标备注1占地面积18667.00约28.00亩1.1总建筑面
27、积30126.46容积率1.611.2基底面积10453.52建筑系数56.00%1.3投资强度万元/亩325.762总投资万元11461.662.1建设投资万元9315.072.1.1工程费用万元8129.572.1.2工程建设其他费用万元893.212.1.3预备费万元292.292.2建设期利息万元230.682.3流动资金万元1915.913资金筹措万元11461.663.1自筹资金万元6753.873.2银行贷款万元4707.794营业收入万元21000.00正常运营年份5总成本费用万元16524.986利润总额万元4365.487净利润万元3274.118所得税万元1091.379
28、增值税万元912.8110税金及附加万元109.5411纳税总额万元2113.7212工业增加值万元7265.7613盈亏平衡点万元7509.92产值14回收期年5.81含建设期24个月15财务内部收益率21.93%所得税后16财务净现值万元3440.88所得税后十二、 数据分析与挖掘概述(一)信息分析信息分析是根据咨询问题的具体需要,对与之有关的信息进行整理、鉴别、评价、分析和综合,以便取得咨询所需新信息的过程。信息分析有如下几种用途:1跟踪。所谓跟踪,就是及时了解各领域新动向、新发展,从而发现问题、提出问题。2比较。比较各种事物的内部矛盾之后,把握事物间的联系,认识事物的本质,从而提出问题
29、、确定目标、拟定方案并作出选择。3预测。利用已掌握的信息、知识和手段,推断事物的未来或未知方面。4评价。进行评价时应选择合适的变量和评价指标,应当考虑评价对象之间的可比性。信息分析所用方法,可分为定性和定量分析两种。定性方法主要靠逻辑推理;而定量方法涉及数据间的数量关系,要建立数学模型,计算、求解。如今,信息越来越复杂,定性与定量分析已无法单独奏效,只能越来越多地结合起来。(二)数据分析数据分析是信息分析的一部分,数据分析是对收集数据进行系统的分析,建立适当的模型,揭示数据中隐含的技术、经济、社会和其他关系,以及发展趋势,为有关的咨询活动提交的有用的数字、信息或建议。数据分析的对象可分为时间序
30、列和截面数据。如企业历年的咨询收入、利润总额等就是时间序列。截面数据是在同一时间的数据,如企业同一年咨询业务数目、营业额、费用、收入、人工耗费等。两种数据都要注意样本容量大小。对于截面数据,常用线性或非线性回归模型体现数据之间的各种关系。数据分析属定量分析,包括数据统计分析、时间数据分析、空间数据分析。(三)数据挖掘数据挖掘就是从数据中挖掘出隐含、先前未知、有潜在用途,最终可为人理解的关系、模式、趋势和其他有用信息,并建立模型,用于预测、判断或决策,帮助企业更好地适应变化并做出更明智的决策的过程。数据挖掘广泛应用于制造、金融、零售、保健、中医药及电信等行业的客户关系管理、风险防范、供应链管理、
31、竞争优势分析、部门分析等领域。数据挖掘要用到统计分析、人工智能、数据库和神经网络等方面的知识,如记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等。数据挖掘需要用户参与,并非某种单一工具、技术或软件即可独自完成。另一方面,并非所有信息查询都可视为数据挖掘。例如,使用数据库管理系统查找个别记录,或用搜索引擎查找互联网特定的网页,属于信息检索,不能视为数据挖掘。当然,数据挖掘技术也有强大的信息检索能力。十三、 大数据系统和数据挖掘技术(一)数据挖掘概述1大数据大数据是指超过既往数据库系统规模、传输速度和处理能力,或者既往数据库系统结构无法容纳的数据。大数据常以万亿或EB衡量,且种类多、实时
32、性强,蕴藏的商业价值大。很多现有的新或旧的信息基础设施、工具和技术可用来开发和利用大数据中蕴藏的价值。大数据有各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章、买卖记录、网络日志、病历、事监控、视频和图像档案,及大型电子商务。大数据是数据挖掘产生与生存发展的土壤。如今数据每五年翻一番,面对前所未有的海量数据,为了从中发现有用的信息必须进行数据挖掘。此外,计算机存储、处理大量数据,以及运算的能力大为增强,为数据挖掘创造了条件,使其成为一门独特的学科和技术。2数据挖掘与数据分析的区别数据挖掘与数据分析的主要区别在于:(1)处理工作量。数据分析的数据量可能并不大,而数据挖掘的数据量极
33、大。(2)制约条件。数据分析是从某些假设出发,建立方程或模型,而数据挖掘不作假设,可以自动建立方程。(3)处理对象。数据分析往往是针对数字型数据,而数据挖掘对象类型繁多,例如图像、声音、文本等。(4)处理结果。数据分析可以解释结果的含义;数据挖掘的结果不易解释,着眼于预测未来,并提出决策建议。想要从数据中发现规律(即认知),往往需将数据分析和数据挖掘结合起来。(二)数据挖掘步骤按挖掘对象,数据挖掘分为数据库与数据仓库挖掘和网络挖掘两种,各自步骤分述如下。1数据库与数据仓库挖掘数据挖掘一般有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤。(1)信息收集。从
34、确定的挖掘对象中提取特征,然后选择合适的收集方法,将收集到的信息存入数据库。对于海量数据,必须选择合适的数据仓库。(2)数据集成。把来源、格式、特点、性质不同的数据按逻辑或物理属性加以编排,以便以后使用。(3)数据规约。多数数据挖掘算法耗时很长,商业数据往往较多,数据挖掘更耗时间。数据规约就是简化已有可用数据集的表示,规约后数量大减,但仍能保持原数据的完整性,对规约数据的挖掘结果,与对规约前数据的挖掘结果相同或几乎相同。(4)数据清理。有些数据不完整(属性缺少属性值)、含噪声(属性值错误),不一致(同一信息有多种表示),需要清理,使其完整、正确、一致后存入数据仓库。(5)数据变换。将数据变换成
35、适合数据挖掘的形式。实数型数据,可将其分层和离散化。(6)数据挖掘。根据数据格式、属性与特点,选择合适的处理工具,例如统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络,取得有用的信息。(7)模式评估。由行业专家核实数据挖掘结果是否合理、是否可用。(8)知识表示。将数据挖掘得到的信息以可视方式交给用户,或作为新的知识存人知识库,供其他应用程序使用。并非所有的数据挖掘都要走上述的每一步。若只有一个数据源,则可以省略数据集成。数据规约、数据清理、数据变换合称数据预处理。数据挖掘至少60%的费用要花在信息收集阶段,而至少60%以上的精力和时间要花在数据预处理上。数据挖掘是一个反复多次的过程,
36、若一次未满足要求或未得到有用结果,则需回到前面,经过调整后重新开始。2,网络挖掘网络挖掘可分为网络用户行为挖掘与网络信息挖掘。前者基本不在工程咨询人员关心之列。后者可理解为“从WWW中发现和分析有用的信息”。网络信息挖掘是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等发现挖掘对象间的内在关系与特性,进而在网络中提取用户感兴趣的信息,获得更高层次的知识和规律。网络信息挖掘沿用了Robot,全文检索、人工智能的模式识别、神经网络等技术。现在的搜索引擎使用了这些技术,能够在网页或网站数据库中为用户搜寻有用信息。网络信息挖掘具体步骤如下:(1)确立目标样本。由用户选择目标文本,提取特征信息。(2)提取特征信息。根据目标样本的词频分布,从统计词典中提取挖掘目标的特征向量并计算出相应的权值。(3)网络信息获取。先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息,生成WWW资源索引库。(4)信息特征匹配。提取索引库中的源信息特征向量,并与目标样本的特征向量对照,将符合要求的信息交给用户。