《基于数据统计分析的知识发现.pdf》由会员分享,可在线阅读,更多相关《基于数据统计分析的知识发现.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、高技术通讯2 0 0 1 1 1 基于数据统计分析的知识发现。柴毅黄席樾李佳潦运华何 离废(重庆大学 自动化学院 重庆 4 0 0 0 4 4)摘要以数据 库 中的数据 为对 象建立 数据 的统 计模 型,提 出了一种定 量统 计分 析方法,对数据进行有序的组织,结合定性描进的归纳性知识,找 出规律,形成可用于生产 实践的 知识规则。最后,甩所提出的方法对农业生产数据进行 了分析,归纳出生产管理的决策知 识 用 于指 导生 产。关键词知识发现,统计分析,数据库 0 引言 在 生产 实践 和社 会 生 活 中,无 论 是 投 入产 出 或 者是产品的质量、数量等,都产生 了大量的数据及丰 富的信
2、息资料,在这些数据 和资料中隐藏着各种有 规律的信息和知识。怎样对数据进行有序 的分析,找出规律,从大量低层次的原数据集 中抽出高层次 的知识,形成可用于生产实践的知识规则就显得非 常重要。近年来,随着计算机技术和数据库技术 的 广泛应用,为数 据中的知识发 现(K D D)提供 了基 础。数据 挖掘 可 以从 大量 数据 中提取 出 隐藏在数 据 之中的有用信息,基 于数据库的知识发现是识别数 据中有潜在规律、有效 的和最终可被理解的数据并 归纳和推 理 的过程。各个 领域 都从 不 同的角度 利用 相 应的理 论 和分析 方法进 行 数据挖 掘 的研 究 和开发 二 =作,数据挖掘和知识发
3、 现所采用 的方法涉及到机 器学 习、统计分析、数据库 分析、模式识别、神经 网 络、不确定性推理、模糊逻辑和粗集理论等。本 文 以农 业 生 产 为对 象,针对 农 业 生产 实 践 中 的品种、产量、质量等数据,利用数理统计的方法,处 理偏差强化正例,发现农业生产管理知识。1 知识发现 与数据 的有序组 织 1 1 知 识发现 的关键 知 识发现 是解 决如何从 大量 数 据 中获 取 知识 的 关 键。与“人 工”方式向领域专家获取专门知 识不 同,自学 习获取知识强调利 用 领域 知识 对学 习过程 的控 制提 供约束,在建立的知识获取 自动 化的研究中要强调知识获取 的通用性、真实性
4、和可 靠性。中国农业生产有着长期、重复和家庭式耕作 的 特点,加之农 村中生产习惯等因素,一个村,甚至一 个镇栽种 品种、操作管理方式差别不大,直接反映为 一个 品种 的农 产 品产量 和质量 会 在一个 时期维 持 相 对 的稳 定。那 么 在长期 的生产 中,“生产操 作有 无 问 题?该品种是否适合于在该地区生产?”等等 问题,就 需要有 科学 的解答 和 指导。因此,只有 从 大量 农 业 生产数 据 中进行 归 纳 发 现 知识,提 供 决 策来 指 导 生 产。数据 中的知识 发现取 决 于大量 数据 的有序 组织 和归纳。在 农 产 品 的产 量 和 质量 数 据 处 理 中,定
5、 量 分析的方法是知识有效归纳获取 的关键,通过定量 的数学 分 析,对 数据 进 行 加 工处 理,运 算 求 解,归 纳 出 问题 的 本质,再 经 过 定性 分 析,概 括 出 知识 因 此,知识 的 有效获 取 就取 决 于数 据 的 有效 组 织 和处 理方 式。由于农业生产数据 的不精确,严格的数学归纳 结 果又 不适 用,所 以归纳 结 果 的 有 效 程度 取 决 于 所 使用的归纳算法和可以使用的数据集合。1 2 作 物生产 数据描 述 数 据 库 系 统 可 以 被 描 述 为 一 个 四 元 组:S=(R,A ,),其中 R是 一组对象 的有限集 合,设 有 个对 象,则
6、 R 可 表 示 为:R:j r l,r ,A 表示有限个属性的集合,设有 m 个属性,则 A,可表 示 为:A =l,“2,d ,V 是 属 性 的 值 域 集,V=Vl,V2,值域=口?2 I ,f是 a和 r的函数,V =f(a ,r _)。农业 生产是一个 复杂的系统工程,作物的产量 和质量不仅仅与品种有关,除 了作物生长过程中的 害彗 毕 譬 ;箍;器 :人 工 智 能 专 家 幕 ,数 字 信 ;联 系 (收稿 日期:2 0 0 1 0 l 一 1 2;修订 日期:2 0 0 1 0 5 1 2)一3 2一 维普资讯 http:/ 柴毅等:基 于数 据统计分析 的知识发现 栽培技术
7、和管理技术之外,还涉及栽培期的气候情 况、土质情 况、栽种地 区环境条 件、栽 培 方式 等 这些 数据可用 四元组 s来描述。其 中集合 R 为记录数,集合 A 中有 6个元 素,即 6个字段,n =“农 户”n =“土质情况”,n =“气象”,a =“栽种种类”,a =“产量”,n 6=“质量”。例如,V6,=f(r 6,a,)表 示第 6条记录的第 7 个字段(,=1,2,3,4,5,6)。(1)农户信息 N(农户)=;乡镇 名,村 组名,农户 名 ;(2)土质情 况 GI(地理信 息)=O t e a r a l e(地 名)酸碱度,有机质,全氮,全磷,碱解氮,速效磷,速效钾 ;(3)
8、气候情况 wI(气象年型)=正常年,暖年,冷年 ;(4)环境条件和栽培方式 E I=;环境条件(沿江河谷,丘陵平坡,低 山区),栽培方式(地膜,露地,温室,遮荫);(5)栽种作物种类 z(作物)=作物种类:B;B=品种 l 作 钎 种 类 ;(6)生产产量和质量 P(产 量)=P:Z(B)l wI GI,C I l Q(质量)=优,良,合格:z(B)j wl,GI,C I I 这样 就 描述 了 某地 所生 产 的某 个 的 农 产 品 z(B)在土壤状况、气象年型、环境条件和栽培方式 的约束下某农户所获得的产量和质量。对各地区的乡、镇农业生产数据的收集和整理 就可以建成农业统计信息综合数据库
9、,从而为大量 数据中的知识发现提供了条件。2 基于统 计推 断的数据分析 2 1 农 作物生产 数 据 的统计模 型 对于每一个品种 的农作物,在该地区栽培时,由 于土质、栽培技术和操作管理的相似 环境条件和栽 培方式 的一致,其亩产量 c(数据库 中的产量数据集 合)表现为围绕当地基本亩产量 A 波动。用 i 表示 年份,k表示各家各户,则某地第 年某种农作物的 亩产 量 为 c (c C),可表 示 为:c =c ,c ,一,c ,c ,=1 2,一,M 其 中 c 表示 当地第 i 年 农户的某种农作 物的亩产 量。若某农户栽种某个品种 的亩数 为 J,则可 表示 为:c =c 】,c
10、2,c ,c ,=1,2,L 式 中 c 表示第 i 年 k农户第J亩的产量 由于随机因素的影响,使得这种产量 c 的波动 是一个随机值,样本 的取 值遵从一定 的统计 规律。因为,农户 每年 的生 产相 互 独 立,即 c 是 相 互 独 立 的,以 E 表示随机 误差,则:,=A;【1)i=1,2,-,N;k=1 2,-,M;J=1,2 一 L 那 么样 本 C 的分 布 由(】,2,E 3,M)的 分 布 决 定,随机误差 的分布通常满足以下条件:(1)的分 布与 无关,1,2,N,k=1,2,一,M;(2)1,2,E 3,M 相互独立;(3)】,2,E 3,M是 相 同分布 的;(4)
11、的分布属于连续型,且关于 0对称。因为 受大量随机 因素的影响,在正常生产情 况下 它对 产量 的 影 响很 小 根 据 中 心极 限定 理 可 以认 为 服从 正态 分 布,N(0,),因而 c 也 服 从 正态分 布:c N(A )(2)=1,2,一,N;=1,2,M 2 2 特征的求解 对于 同一地 区 同一 品种 的产 量,可 以认 为是 同 一正态总体下的样本 c ,用均值 H 表示基本亩产 量A 对数据库 中的数据集合按时 间顺序排列,进 行有序的组合,使之成为一个 向量,从而可以用线性 代数的方法对它进行处理,则式(1)可写成如下向量 形 式:C=Xu +8 (3)式 中:=q1
12、,q2 ,qL,c ,c 2,c U i:,x:0 O O o 1 L 1 L E:矗1,2,L,1,e 2,e (1)H 的最小二乘估计为,有:j l X u a j l,rai n I:V H =(,“,“)令 Q()一3 3 (4)维普资讯 http:/ 高技 术通 讯2 0 0 1 1 1 :()2(C )+()凼 为:x Ou 丛 :2 x a 于是有:a(鱼 f):一2 Xr C +2 x x a 令 旦 ):0,得 到正 规方程 Xr Cr:x X u 。当 x 满秩 r a n k(X)=时,x x 为非 奇异 方 阵,方 程 有 唯一 解:=(x x)x c (5)XTX X
13、 Cz:由(5)式 可得 M 0 0 M 0 0 1+C:+C l C 1+2+M C l+C 2+C M 1 M l 0 0 0 1 0 (2)由残差 向量 R =C 。计 算!的估计 量:一 L l R l=R o R =()(7)=l J=1 得 的无偏估 计:ll 里 (8)sm 式 中 P=r a n k(x),n 为某 一 品种 生 产 的样 本 总 数 2 3 偏 差数 据的处 理 假设 检验计 算 同一正 态 总体每户 产量 的均 值差 异。假设:一3 4一 H:“=“;一 K:“N 旦2(8)1。J 其 中 t 1 i 和 N 分别 为某一 品种 的某 个 用户 栽 种 的亩
14、 数和当地 区的栽种亩数 如果(8)式成立 则应拒绝 H,可以认为该农户的 亩平均产量与 当地区该 品 种 的平 均 亩 产量有 显 著 差 异;否则 可 以认 为亩 产 量 无差 异 2 4 亩产量的置佶 区间 利用置信区问和置信 系数表达某种作物在该地 区亩产量的区间和可能的程度。若某快地亩产量落 入该区问,则可认 为是正常收成;否则就要加以分 析。根 据p 了 (1专)I 1 一 a 一 得 到 基本亩产量 A 的(1 a)的置信区间为:己=者 一 号)。3统计分析 的知识发现 3 1 反 映 了平均 亩产 情况 若 与该品种的推荐亩产量相差较大,则说明 该地区可能不适应于栽种这种品种的
15、作物:因为 产量总体水平低,而不是发生在某一农户,可能从土 壤情况或气候条件等反 映了该品种 的不适应,应 请 农技专家实地考察,作 出科学的结论。从 中可以发 现决策 知识:Ru l e l:I F 比其他 地 区 的小 T H E N 该 地 区 不适应 栽 种该 品种 Ru l e 2:I F 比产 品 的推 荐 产 量 低 T HE N 该 地区不适应栽种该品种 Ru l e 3:I F 比其他 地 区的小 T H E N 栽种 不 正常 Ru l e 3 1:I F栽种不正常 TH E N该品种不适应 R u l e 3 2:I F栽 种不 正常 T HE N 土质不 适应 R u
16、l e 3 3:I F栽种不正常 T H E N气候条件不适应 R u l e 3 4:I F栽 种 不 正常 T H EN 栽 培 和管 理 不 正 确 3 2 反 映 了亩产 量的离散 情况 值越大,则离散程度越大,表 示该地 区农 民 科 学种 田的水 平相 差太 大:有 技术 的农 民有好 的收 获;而有 一部分 农 民,则 有 可能 是 土地 使 用不 合理,栽培管理技术不当等等因素造成欠收。后者应当在 专家调查的基础上给出科学的指导。从 中可以发现 _ _ _ _ 6 札 维普资讯 http:/ 柴毅等:基 于数据统计分析 的知识发现 决策 知识:Ru l e 4:I F方差 大
17、T H E N 栽种水 平相 差大 Ru t e 4 1:I F该品种产 量低 T HE N 科学种 田水 平差 R u l e 4 2:I F该品种产量高 T HE N 科学种 田水 平高 3 3 统计 数 据偏差 表现 平 均亩产量 差异 数据 偏 差则具体 地 反 映了那些 农户 的平均 亩产 量低 于 当地 的平 均 亩 产 量,或 者是 高 于 当地 的平 均 亩产 量。对 于低 于 当地 平 均 亩产 量 的农 户,就应 分 析是偶然,还是必然的,原 因何在 帮助他提高栽 培 技术,提高产量。而高于当地平均亩产量的农户、就 要请他将科学种 田、科学管理的经验和方法,传授给 其他农户
18、,并总结经验 推广普及。从中可以发现决 策 知识:Ru l e 5:I F(8)式 成立 T H EN 该农户 产量 低 Ru e 5 1:I F农户产 量 低 TH E N 栽 种技术 差 R u l e 5 2:I F农户产 量 低 T HE 科 学管理 差 R u l e 6:I F(8)不成立 T HE N该农户产量合适 R u l e 6 1:I F农户产 量 合适 T H EN 栽 种技术好 R u l e 6 2:I F农户产 量 合适 T HE N 科学 管理好 采 用 这种方法 可 以归 纳整 理 出 其他 知 识 表 2 给出了利用小麦生产的历史数据进行的分析和处理 的结果
19、。从表 l可以得出以下知识:该地 区基 本亩 产量 的置 信 区间 为:5 2 1 5,6 0 7 9 ,共有 8组数据,5组数据表明亩产量水平正 常,有 3组数据与本地区的平均亩产量有显著差异。第 一 组:5 8 6 4,4 7 6 3,4 5 1,4 8 5 5 说 明 除第 一个数据 5 8 6 4在区间之内,其余的亩产量都较低,且低 于本地基本水平,结合 其他数据可以得到该 地 栽种 的 有 关 知 识。第 二 组:5 1 3 0,4 5 0 0,5 0 6 0,5 5 1 0;第 三组:6 6 8 0,7 4 2 0,6 2 0 0,5 6 6 0 说 明除第 二组第二个 数据 4
20、5 0 0在 区间之外,其余的 亩产量都较高,且高于本地基本水平,结合其他数据 可以得 到该 地栽 种的有 关知识。表 1 不同乡镇 的地 块栽种的丰 8小 麦 亩产 1 9 8 7 l 和置 信区间 4 结束语 近年来,智能化信息技术在 中国农村展开了较 大规模的应用,改变了传统 的耕作方式,“量地种 田”和“科学种田”将使农业生产走上无毒、无害、绿色的 可持续发展之路。本文针对大量农业数据的加工处 理,提 出 了知识 发现 的一 种方 法,有效 地处 理大量 数 据,有利于农业管理部门发现问题,推广适合当地栽 培的优质 品种,引导农户进行科学生产。参考文献:1 L u H I E E E
21、T r a n s a c t i o n s o 1 K n o w l e d g e a n d D a t a E n g i n e e r i n g1 9 9 6,8(6):9 5 7 2 A g r o wa l R,S t r k a n t R F a s t a l g o r i t h ms f o r mi n i n g a s s o c i a t io n r u l e s I n:Pr o c e e d i n g o f t h e 2 0 t h I n t e r n o t i o n a【C o n f e r e ne e o n Ve r
22、 y La r ge Dat a ba s e s,S t a t i n go Ch i le=1 9 94 4 87 【3 J S t r i k a n t R,V u Q A g r a w a【RMi n i n g a s s o c i a t i o n r u te s wi t h i t e m c o ns t r a i ns l n:Pmc e I i n g o f t h e 3r d I nt e m a r io n a l Co n f e r e n c e O n Kn o wt e d g e Di s m v e r y i n Da t a b
23、a s e a n d Da t a M i n i n g,Ne wp o r t Be a c h C a i f o r n i a:1 9 9 7 6 3 4 Hu a n g X,C h a i Y A p r a c t i c a l s o r t o f a d a p t i v e e x p e r t s y s t e m f i t t i n g t o t h e g u i d a n c e o f f o r e c a s t i n g o p e r a t io n o n【i n e I CARCV 9 4Si n g ap or e 1 99
24、 4 1 03 5 鄙力军等 、工智能基础 北京:电子工业出版社,2 0 0 0 1 9 3 Kn o wl e d g e Di s c o v e r y Ba s e d O i l Da t a S t a t i s t i c De du c i ng C h a i Yi,Hu a n g Xi y u e,L i J i a,Tu Yu n h u a,He Li q i n g (Au t o ma t i o n C o l l e g e Ch o n g q i n g Un i v e r s i t y,C h o n g q i n g 4 0 0 0 4 4)A
25、b s t r a c t Th e k n o wl e d g e d i s c o v e r y i n d a t a b a s e i s s t u d i e d a n d t h e s t a t i s t i c mo d u l e Th e a p p r o a c h f o r t h e s t a t i s t i c a n a 一 y s i s o f q u a n t i t a t i v e a n d c o mp u t i n g o f d a t a i s p r e s e n t e d Th e d a t a i
26、s c l a s s i f i e d a n d i t s r e s u l t c a n b e u s e d t o g e t h e r wi t h t h e n a t u r e k n o wl e d g e f o r c o n c l u d i n g t h e l a w Th e r u l e t h a t c a n b e u s e d i n t h e p r a c t i c e i s s u mme d t o f o T i n On t h i s b a se,t h e d a t a i s p r o c e sse d a n d wo r k e d O u t d e c i s i o n ma k i n g k n o wl e d g e o f c u l t i v a t i o n f o r a g r i c u l t u r a l p r o d u c fi o n Ke y wo r d s:Kn o wl e d g e d i s c o v e r yS t a t i s t i e a n a l y s i s,Da t a b a s e 鑫 嘉 j 维普资讯 http:/