《2023年数据分析与挖掘实验报告.pdf》由会员分享,可在线阅读,更多相关《2023年数据分析与挖掘实验报告.pdf(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 数 据 挖 掘 实 验 报 告 目 录 1.关 联 规 则 的 基 本 概 念 和 方 法.错 误!未 定 义 书 签。1.1数 据 挖 掘。错 误!未 定 义 书 签。1.1.1 数 据 挖 掘 的 概 念。错 误!未 定 义 书 签。1.1.2 数 据 挖 掘 的 方 法 与 技 术.错 误!未 定 义 书 签。1.2关 联 规 则.错 误!未 定 义 书 签。1.2.1 关 联 规 则 的 概 念.错 误!未 定 义 书 签。1.2.2 关 联 规 则 的 实 现 Apr i o r i算 法 错 误!未 定 义 书 签。2.用 M a t la b实 现 关 联 规 则。错 误!未
2、定 义 书 签。2.IM a tla b概 述.错 误!未 定 义 书 签。2.2 基 于 M a t la b 的 A p r i o r i算 法.错 误!未 定 义 书 签。3.用 ja v a实 现 关 联 规 则.错 误!未 定 义 书 签。3.1 ja v a 界 面 描 述。错 误!未 定 义 书 签。3.2J a v a 关 键 代 码 描 述。错 误!未 定 义 书 签。4、实 验 总 结.错 误!未 定 义 书 签。4.1实 验 的 局 限 性 和 改 善.错 误!未 定 义 书 签。4.2 实 验 心 得.错 误!未 定 义 书 签。1.关 联 规 则 的 基 本 概 念
3、 和 方 法 1.1 数 据 挖 掘 1.1.1数 据 挖 掘 的 概 念 计 算 机 技 术 和 通 信 技 术 的 迅 猛 发 展 将 人 类 社 会 带 入 到 了 信 息 时 代。在 最 近 十 几 年 里,数 据 库 中 存 储 的 数 据 急 剧 增 大。数 据 挖 掘 就 是 信 息 技 术 自 然 进 化 的 结 果。数 据 挖 掘 可 以 从 大 量 的、不 完 全 的、有 噪 声 的、模 糊 的、随 机 的 实 际 应 用 数 据 中,提 取 隐 含 在 其 中 的,人 们 事 先 不 知 道 的 但 又 是 潜 在 有 用 的 信 息 和 知 识 的 过 程。许 多 人
4、将 数 据 挖 掘 视 为 另 一 个 流 行 词 汇 数 据 中 的 知 识 发 现(KDD)的 同 义 词,而 另 一 些 人 只 是 把 数 据 挖 掘 视 为 知 识 发 现 过 程 的 一 个 基 本 环 节。知 识 发 现 过 程 如 下:数 据 清 理(消 除 噪 声 和 删 除 不 一 致 的 数 据)数 据 集 成(多 种 数 据 源 可 以 组 合 在 一 起)数 据 转 换(从 数 据 库 中 提 取 和 分 析 任 务 相 关 的 数 据)数 据 变 换(从 汇 总 或 聚 集 操 作,把 数 据 变 换 和 统 一 成 适 合 挖 掘 的 形 式)数 据 挖 掘(基
5、本 环 节,使 用 智 能 方 法 提 取 数 据 模 式)模 式 评 估(根 据 某 种 爱 好 度 度 量,辨 认 代 表 知 识 的 真 正 有 趣 的 模 式)知 识 表 达(使 用 可 视 化 和 知 识 表 达 技 术,向 用 户 提 供 挖 掘 的 知 识)。1.1.2 数 据 挖 掘 的 方 法 与 技 术 数 据 挖 掘 吸 纳 了 诸 如 数 据 库 和 数 据 仓 库 技 术、记 录 学、机 器 学 习、高 性 能 计 算、模 式 辨 认、神 经 网 络、数 据 可 视 化、信 息 检 索、图 像 和 信 号 解 决 以 及 空 间 数 据 分 析 技 术 的 集 成 等
6、 许 多 应 用 领 域 的 大 量 技 术。数 据 挖 掘 重 要 涉 及 以 下 方 法。神 经 网 络 方 法:神 经 网 络 由 于 自 身 良 好 的 鲁 棒 性、自 组 织 自 适 应 性、并 行 解 决、分 布 存 储 和 高 度 容 错 等 特 性 非 常 适 合 解 决 数 据 挖 掘 的 问 题,因 此 近 年 来 越 来 越 受 到 人 们 的 关 注。典 型 的 神 经 网 络 模 型 重 要 分 3大 类:以 感 知 机、bp反 向 传 播 模 型、函 数 型 网 络 为 代 表 的,用 于分 类、预 测 和 模 式 辨 认 的 前 馈 式 神 经 网 络 模 型;以
7、 hopf i el d 的 离 散 模 型 和 连 续 模 型 为 代 表 的,分 别 用 于 联 想 记 忆 和 优 化 计 算 的 反 馈 式 神 经 网 络 模 型;以 a r t模 型、k。h。1 o n模 型 为 代 表 的,用 于 聚 类 的 自 组 织 映 射 方 法。神 经 网 络 方 法 的 缺 陷 是“黑 箱 性,人 们 难 以 理 解 网 络 的 学 习 和 决 策 过 程。避 传 算 法.,遗 传 算 法 是 一 种 基 于 生 物 自 然 选 择 与 遗 传 机 理 的 随 机 搜 索 算 法,是 一 种 仿 生 全 局 优 化 方 法。遗 传 算 法 具 有 的
8、隐 含 并 行 性、易 于 和 其 它 模 型 结 合 等 性 质 使 得 它 在 数 据 挖 掘 中 被 加 以 应 用。s u n i l已 成 功 地 开 发 了 一 个 基 于 遗 传 算 法 的 数 据 挖 掘 工 具,运 用 该 工 具 对 两 个 飞 机 失 事 的 真 实 数 据 库 进 行 了 数 据 挖 掘 实 验,结 果 表 白 遗 传 算 法 是 进 行 数 据 挖 掘 的 有 效 方 法 之 一。遗 传 算 法 的 应 用 还 体 现 在 与 神 经 网 络、粗 糙 集 等 技 术 的 结 合 上。如 运 用 遗 传 算 法 优 化 神 经 网 络 结 构,在 不 增
9、 长 错 误 率 的 前 提 下,删 除 多 余 的 连 接 和 隐 层 单 元;用 遗 传 算 法 和 bp算 法 结 合 训 练 神 经 网 络,然 后 从 网 络 提 取 规 则 等。但 遗 传 算 法 的 算 法 较 复 杂,收 敛 于 局 部 极 小 的 较 早 收 敛 问 题 尚 未 解 决。决 第 湖 协 法.决 策 树 是 一 种 常 用 于 预 测 模 型 的 算 法,它 通 过 将 大 量 数 据 有 目 的 分 类,从 中 找 到 一 些 有 价 值 的,潜 在 的 信 息。它 的 重 要 优 点 是 描 述 简 朴,分 类 速 度 快,特 别 适 合 大 规 模 的 数
10、 据 解 决。粗 糙 集 方 法:粗 糙 集 理 论 是 一 种 研 究 不 精 确、不 拟 定 知 识 的 数 学 工 具。粗 糙 集 方 法 有 几 个 优 点:不 需 要 给 出 额 外 信 息;简 化 输 入 信 息 的 表 达 空 间;算 法 简 朴,易 于 操 作。粗 糙 集 解 决 的 对 象 是 类 似 二 维 关 系 表 的 信 息 表。目 前 成 熟 的 关 系 数 据 库 管 理 系 统 和 新 发 展 起 来 的 数 据 仓 库 管 理 系 统,为 粗 糙 集 的 数 据 挖 掘 奠 定 了 坚 实 的 基 础。但 粗 糙 集 的 数 学 基 础 是 集 合 论,难 以
11、 直 接 解 决 连 续 的 属 性。而 现 实 信 息 表 中 连 续 属 性 是 普 遍 存 在 的。因 此 连 续 属 性 的 离 散 化 是 制 约 粗 糙 集 理 论 实 用 化 的 难 点。覆 箴 正 以 排 斥 反 例 方 宏.它 是 运 用 覆 盖 所 有 正 例、排 斥 所 有 反 例 的 思 想 来 寻 找 规 则。一 方 面 在 正 例 集 合 中 任 选 一 个 种 子,到 反 例 集 合 中 逐 个 比 较。与 字 段 取 值 构 成 的 选 择 子 相 容 则 舍 去,相 反 则 保 存。按 此 思 想 循 环 所 有 正 例 种 子,将 得 到 正 例 的 规 则
12、(选 择 子 的 合 取 式)。比 较 典 型 的 算 法 有 m i c h a l s k i 的 a q 11方 法、洪 家 荣 改 善 的 a q l5方 法 以 及 他 的 ae 5 方 法。记 录 分 析 方 法:在 数 据 库 字 段 项 之 间 存 在 两 种 关 系:函 数 关 系(能 用 函 数 公 式 表 达 的 拟 定性 关 系)和 相 关 关 系(不 能 用 函 数 公 式 表 达,但 仍 是 相 关 拟 定 性 关 系),对 它 们 的 分 析 可 采 用 记 录 学 方 法,即 运 用 记 录 学 原 理 对 数 据 库 中 的 信 息 进 行 分 析。可 进 行
13、 常 用 记 录(求 大 量 数 据 中 的 最 大 值、最 小 值、总 和、平 均 值 等)、回 归 分 析(用 回 归 方 程 来 表 达 变 量 间 的 数 量 关 系)、相 关 分 析(用 相 关 系 数 来 度 量 变 量 间 的 相 关 限 度)、差 异 分 析(从 样 本 记 录 量 的 值 得 出 差 异 来 拟 定 总 体 参 数 之 间 是 否 存 在 差 异)等。模 糊 集 方 法.即 运 用 模 糊 集 合 理 论 对 实 际 问 题 进 行 模 糊 评 判、模 糊 决 策、模 糊 模 式 辨 认 和 模 糊 聚 类 分 析。系 统 的 复 杂 性 越 高,模 糊 性
14、越 强,一 般 模 糊 集 合 理 论 是 用 从 属 度 来 刻 画 模 糊 事 物 的 亦 此 亦 彼 性 的。李 德 毅 等 人 在 传 统 模 糊 理 论 和 概 率 记 录 的 基 础 上,提 出 了 定 性 定 量 不 拟 定 性 转 换 模 型 一 云 模 型,并 形 成 了 云 理 论。尚 有 接 下 来 重 点 介 绍 的 关 株 规 殿 方 法。1.2关 联 规 则 1 2 1关 联 规 则 的 概 念 关 联 规 则 的 一 个 典 型 例 子 是 购 物 篮 分 析。它 是 由 著 名 的 全 国 五 百 强 沃 尔 玛 发 现 的,沃 尔 玛 有 着 世 界 最 大
15、的 数 据 仓 库 系 统,为 了 可 以 准 确 了 解 顾 客 在 其 门 店 的 购 买 习 惯,沃 尔 玛 对 其 顾 客 的 购 物 行 为 进 行 购 物 篮 分 析,想 知 道 顾 客 经 常 一 起 购 买 的 商 品 有 哪 些。沃 尔 玛 数 据 仓 库 里 集 中 了 其 各 门 店 的 具 体 原 始 交 易 数 据。在 这 些 原 始 交 易 数 据 的 基 础 上,沃 尔 玛 运 用 数 据 挖 掘 方 法 对 这 些 数 据 进 行 分 析 和 挖 掘。一 个 意 外 的 发 现 是:跟 尿 布 一 起 购 买 最 多 的 商 品 竟 是 啤 酒!通 过 大 量
16、实 际 调 查 和 分 析,揭 示 了 一 个 隐 藏 在“尿 布 与 啤 酒”背 后 的 美 国 人 的 一 种 行 为 模 式:在 美 国,一 些 年 轻 的 父 亲 下 班 后 经 常 要 到 超 市 去 买 婴 儿 尿 布,而 他 们 中 有 3 0%40%的 人 同 时 也 为 自 己 买 一 些 啤 酒。产 生 这 一 现 象 的 因 素 是:美 国 的 太 太 们 常 叮 嘱 她 们 的 丈 夫 下 班 后 为 小 孩 买 尿 布,而 丈 夫 们 在 买 尿 布 后 又 随 手 带 回 了 他 们 喜 欢 的 啤 酒。关 联 规 则 由 此 进 入 人 们 的 视 野。关 联 规
17、 则 挖 掘 被 定 义 为 假 设 I 是 项 的 集 合。给 定 一 个 交 易 数 据 库 D,其 中 每 个 事 务(Tra nsaction)t 是 I 的 非 空 子 集,即 每 一 个 交 易 都 与 一 个 唯 一 的 标 记 符 T ID(T r ansa c tio n ID)相 应。关 联 规 则 在 D 中 的 支 持 度(s u p p o r t)是 D 中 事 务 同 时 包 含 X、丫 的 比 例,即 概 率;置 信 度(c o n f i d e n c e)是 包 含 X 的 事 务 中 同 时 又 包 含 丫 的 比 例,即 条 件 概 率。下 面 举 个
18、 例 子 来 更 好 地 说 明 关 联 规 则。给 定 A ll E le c tro n ic s关 系 数 据 库,一 个 数 据 挖 掘 系 统 也 许 发 现 如 下 形 式 的 关 联 规 则 A ge(X,“2 0.2 9”)Aincom e(X,2 0,0 00.29,0 0 0 w)?=buys(X,“C D-P 1 aye r”)Suppor t=2 0%,Co n f i d e n t=6 0%其 中 X是 变 量,代 表 顾 客,该 关 联 规 则 表 达 所 研 究 的 Al 1 Ele c tronics数 据 库 中,顾 客 有 2 0%在 20-29岁,年 收
19、 入 在 20,000-29,00 0 之 间,并 且 购 买 C D机;这 个 年 龄 和 收 入 组 的 顾 客 购 买 C D机 的 也 许 性 有 60%。1.2.2关 联 规 则 的 实 现-Apr i o r i算 法 1.2.2.1算 法 描 述 A priori算 法 在 发 现 关 联 规 则 领 域 具 有 很 大 影 响 力。算 法 命 名 源 于 算 法 使 用 了 频 繁 项 集 性 质 的 先 验(P r i o r)知 识。在 具 体 实 验 时,A p rio ri算 法 将 发 现 关 联 规 则 的 过 程 分 为 两 个 环 节:第 一 步 通 过 迭 代
20、,检 索 出 事 务 数 据 库 中 的 所 有 频 繁 项 集,即 支 持 度 不 低 于 用 户 设 定 的 阈 值 的 项 集;第 二 步 运 用 频 繁 项 集 构 造 出 满 足 用 户 最 小 信 任 度 的 规 则。其 中,挖 掘 或 辨 认 出 所 有 频 繁 项 集 是 该 算 法 的 核 心,占 整 个 计 算 量 的 大 部 分。Ap r i or i 算 法 使 用 一 种 称 作 逐 层 搜 索 的 迭 代 方 法,K 项 集 用 于 搜 索(K+1)项 集。一 方 面,通 过 扫 描 数 据 库,累 积 每 个 项 的 计 数,并 收 集 满 足 最 小 支 持 度
21、 的 项,找 出 频 繁 1项 集 的 集 合。该 集 合 记 作 L 1。然 后,L 1用 于 寻 找 频 繁 2 项 集 的 集 合 L 2,L 2用 于 寻 找 L 3,如 此 下 去,直 到 不 能 再 找 到 频 繁 K 项 集。为 提 高 频 繁 项 集 逐 层 产 生 的 效 率,一 种 称 作 A p r i o ri的 重 要 性 质 用 于 压 缩 搜 索 空 间。Ap r io!i 性 质:频 繁 项 集 的 所 有 非 空 子 集 也 必 须 是 频 繁 的。如 何 在 算 法 中 使 用 A p ri。r i 性 质?重 要 有 两 步 过 程 组 成:连 接 步 和
22、 剪 枝 步。(1)连 接 步:为 找 LK,通 过 将 L(i)与 自 身 连 接 产 生 候 选 K 项 集 的 集 合。该 候 选 项 集 合 记 作 CKo 设 11和 12是 Lk”中 的 项 集。记 号 1而 表 达 h 中 的 第 j 项。执 行 L(k-i)连 接 Lg),假 如 它 们 的 前(K 2)项 相 同 的 话,其 中 L(kr)的 元 素 是 可 连 接 的。(2)剪 枝 步:为 压 缩 C K,可 以 用 A p r iori的 性 质:任 何 非 频 繁 的(K-1)项 集 都 不 是 频 繁 K 项 集 的 子 集。因 此,假 如 候 选 K 项 集 的(K
23、1)项 子 集 不 在 L g)中 厕 该 候 选 也 不 也 许 是 频 繁 的,从 而 可 以 从 C K 中 删 除。1.2.2.1算 法 举 例 A p ri o r i 算 法 的 伪 代 码 Input:DB,mi n _su pOut p ut:resu It=所 有 频 繁 项 集 的 他 们 的 支 持 度 方 法:Result:=;K:=l;G:=所 有 的 1-项 集 W h i I e(Ck)dob e g i n为 每 一 个 Ck中 的 项 集 生 成 一 个 计 数 器;For(i=1;iDB;i+)beg i n对 第 i个 记 录 T 支 持 的 每 一 个
24、Ck中 的 项 集,其 计 数 器 加 1;en dLk:=Ck中 满 足 大 于 mins u p 的 全 体 项 集;Lk支 持 度 保 存;Result:=R e s u ItIL KCk+i:=所 有 的(k+1)-项 集 中 满 足 其 k-子 集 都 在 Lx里 的 全 体;k=k+l;end d o下 面 举 个 例 子 来 说 明 Ap r i o r i算 法。设 某 个 数 据 库 中 有 9 个 事 务。即|D|二 9。使 用 图 1.2解 释 A p rio ri算 法 发 现 D 中 的 频 繁 项 集。表 1.1某 超 市 的 销 售 项 目 的 事 务 记 录 T
25、ID ItemsT100 11/2/3T200 I2J4T300 I2J3T400 I1J2J4T500 I1J3T600 I2J3T700 I1J3T800 I1J2J3J5T900 11/2/3(1)在 算 法 的 第 一 次 迭 代 时,每 个 项 都 是 候 选 1项 集 的 集 合 C i的 成 员。算 法 简 朴 地 扫 描 所 有 的 事 务,对 每 个 项 的 出 现 次 数 计 数。(2)假 设 最 小 支 持 度 计 数 为 2,即,m i n _ s u p=2 o可 以 肯 定 频 繁 1项 集 的 集 合 L i。(3)为 了 发 现 频 繁 2 项 集 的 集 合
26、L-算 法 使 用 L 和 L i的 连 接 C?。注 意,在 剪 枝 步 中,没 有 候 选 从 C 2中 删 除,由 于 这 些 候 选 的 每 个 子 集 也 是 频 繁 的。(4)扫 描 数 据 库 D 中 的 事 务,累 计 C2中 每 个 候 选 相 集 的 支 持 计 数,如 图 1.2的 第 二 行 中 间 的 表 所 示。(5)然 后 拟 定 频 繁 2 项 集 的 集 合 L 2,它 由 C2中 满 足 最 小 支 持 度 的 候 选 2 项 集 组 成。(6)候 选 3 项 集 的 集 合 C3的 产 生 要 用 到 Apr i o ri的 逐 层 搜 索 技 术,频 繁
27、 项 集 的 所 有 子 集 都 必 须 是 频 繁 的,给 定 一 个 候 选 k 项 集,只 需 要 检 查 它 们 的(k-1)项 集 是 否 频 繁。如 图 1.2中 的 第 三 行 的 第 一 个 表 所 示。(7)扫 描 D中 事 务 以 拟 定 L 3,它 由 C3中 满 足 最 小 支 持 的 的 候 选 3 项 集 组 成,如 图 1.2中 的 第 三 行 的 第 三 个 表 所 示。(8)算 法 使 用 L3和 L3连 接 产 生 候 选 4 项 集 C,。尽 管 会 产 生 结 果 I 1,12,13,15,但 是 这 个 项 集 被 剪 去,由 于 它 的 子 集 12
28、,13,15 不 是 频 繁 的。所 以 C4=空 集,所 以 算 法 终 止,找 出 所 有 的 频 繁 项 集。扫 描 D,对 于 每 个 候 选 集 计 数-候 选 项 集 C1选 出 支 持 度 2的 项 集-频 繁 项 集 L 1TID Items TID ItemsII 6 1 1 6I2 7 1 2 7I3 6 1 3 61 4 2 1 4 21 5 2 1 5 2由 L生 成 候 选 集 C?候 选 项 集 C2扫 描 D,并 对 每 个 候 选 计 数 候 选 项 集 C211,12 11,12 411,13 11,13 4频 繁 项 集 L211,14 11,14 1I1J
29、2 4I1J3 4I1J5 I1J5 2逃 出 乂 持 J2的 项 集 12,13 12,13 4I1J5 2I2J4 12,14 2 I2J3 4I2J5 12,15 2I2J4 2I3J4 13,14 0I2J5 213,15 13,15 1-14,15 I4J5 0图 6.2 候 选 相 集 合 频 繁 项 集 的 产 生,最 小 支 持 度 为 2由 1 _ 2生 成 候 选 集 C 3-候 选 项 集 C 3 扫 描 D,并 对 每 个 候 选 计 数-3候 选 项 集 C 3选 出 支 持 度 频 繁 项 集 L 3I1J2J32的 项 集 11,12,13 2-yI1J2J3 2
30、11,12,1511,12,15 2 I1J2J5 22.用 M a tl a b 实 现 关 联 规 则 2.1 M a tlab 概 述 Matl a b 是 由 美 国 m a t h w o r k s 公 司 发 布 的 重 要 面 对 科 学 计 算、可 视 化 以 及 交 互 式 程序 设 计 的 高 科 技 计 算 环 境。它 将 数 值 分 析、矩 阵 计 算、科 学 数 据 可 视 化 以 及 非 线 性 动 态 系 统 的 建 模 和 仿 真 等 诸 多 强 大 功 能 集 成 在 一 个 易 于 使 用 的 视 窗 环 境 中,为 科 学 研 究、工 程 设 计 以 及
31、 必 须 进 行 有 效 数 值 计 算 的 众 多 科 学 领 域 提 供 了-种 全 面 的 解 决 方 案,并 在 很 大 限 度 上 摆 脱 了 传 统 非 交 互 式 程 序 设 计 语 言(如 C、F o rtran)的 编 辑 模 式,代 表 了 当 今 国 际 科 学 计 算 软 件 的 先 进 水 平。M a tla b的 基 本 数 据 单 位 是 矩 阵,它 的 指 令 表 达 式 与 数 学、工 程 中 常 用 的 形 式 十 分 相 似,故 用 M A T L A B来 解 算 问 题 要 比 用 C,FORTRAN等 语 言 完 毕 相 同 的 事 情 简 捷 得
32、多,并 且 M A TL A B也 吸 取 了 像 M aple等 软 件 的 优 点,使 M A TLA B成 为 一 个 强 大 的 数 学 软 件。由 于 M a t 1 a b 使 用 矩 阵 作 为 其 基 本 数 据 单 位,所 以 使 用 M a tlab进 行 Apriori算 法 的 编 辑 有 着 先 天 的 优 势,可 以 使 代 码 简 洁 易 懂。下 面 就 来 介 绍 用 M at 1 a b 编 写 的 A p r io ri算 法。2.2 基 于 Matlab 的 Ap r iori 算 法 采 用 的 原 始 数 据 是 上 节 表 1.1的 某 超 市 的
33、销 售 项 目 的 事 务 记 录。以 下 为 基 于 Mat 1 ab的 Aprio r i算 法 的 源 代 码 以 及 相 关 解 释。s u p=2;%假 设 支 持 度 为 2s hw=1 1 0 0 1;0 1 0 1 0;0 1 1 0 0;1 1 0 1 0;1 0 1 0 0;0 11 0 0;1 0 1 0 0;1 1 1 0 1;1 1 1 0 0;%shw是 事 务 矩 阵,行 表 达 一 个 事 务,列 表 达 项 目;若 某 一 事 务 没 有 某 项,则 该 项 目 用 0表 达。将 上 述 表 1.1的 数 据 表 达 为 事 务 矩 阵,每 个 项 目 都 用
34、 数 字 表 达。s h w=1 10 10 11 10 00 100 11001 0 1 0 00 1 11 0 11 1 11 1 10 00 00 10 0m l,n l=s iz e(s h w);m 1=9n 1=5%寻 找 1项 集 c o l=(1:n l)1;c o l=2-T45c o u n t _ s u p=sum(shw,1)co u n t su p=%求 出 所 有 候 选 项 集 Cl的 支 持 度7622tem p=f i nd(count_sup=sup);%查 找 候 选 项 集 Cl中 支 持 度 2 的 项 集,生 成 频 繁 项 集 L1t emp=
35、12345co 1=c o 1(t e m p);count_ c ol_ s up=c o u n t _ s u p(temp);5 2%产 生 2 项 集 i=0;j=0;co2=n choo s e k(c ol,2);%产 生 候 选 项 集 C 2CO 2=1 21 31 41 5-2-32 42 53 43 5-4-1 5m2,n2=s i z e(co2);co u n t _ c o 2_s u p=z eros(m2,1);for i=1:m 2for j=1:mlif(s h w(j,c o2(i,1)=1)&(shw(jzco2(iz2)=1)count_ co 2 _
36、s u p(i)=count_co2_sup(i)+1;endj=j+l;e ndendt emp=f ind(c o u n t_ co 2 _s u p=sup);%查 找 候 选 项 集 C2支 持 度 2的 项 集,生 成 频 繁项 L2co 2=c o 2(temp,:);c oun t _c o 2 _sup=cou n t_co2_sup(temp,:);2 4 22 5 2%寻 找 3项 集 A=c 0 2(:,1)co 2(:z 2);235mA,n A=si z e(A);B(1)=A(1);k=2;for i=l:m Af or j=1:nAi f(A(i,j)=e nd
37、)%查 找 反 复 出 现 的 商 品 号 B(k)=A(i,j);k=k+l;%B=1 2 3 5 4 1e ndj=j+l;endi=i+l;endc o 3=nchoo s ek(Bz 3);%产 生 候 选 项 集 C3co3=1 21 2 51 21 31 334541 5 42 3 52 3 42 5 43 5 4m3,n3=size(co 3);c ou n t_ c o 3sup=z e r os(m 3 z 1);for i=1:m3f o r j=1:m 1i f(shw(j,co3(i,1)=1)&(shw(j z c o 3(i,2)=1)&(s hw(j,co 3(i
38、,3)=1)count_ c o3_sup(i)=c o u n t _c o 3_sup(i)+1;endj=j+l;e ndm3=m 3+1;e n dt e m p=f i n d(c o u nt_c o 3 _ sup)=sup);%查 找 候 选 项 集 C3支 持 度 2 的 项 集,生 成 频 繁 项 L 3co3=co 3(t e m p,:);c ount_c o 3 _s u p=c o un t _ co3_sup(t e m p,:);L 3=c o3 coun t _c o 3_sup;L3=1 2 31 2 5 2义 寻 找 4项 集 C=c o 3(:,1)c
39、o 3(:,2)c o 3(:,3);me,nC=s i ze(C);D(l)=C(1);K=2;for i=2:nCif(C(i)=D(1:end)%查 找 反 复 出 现 的 商 品 号D(K)=C(i);K=K+1;endi=i+l;endco 4=nc h o o s e k(D,4);m4,n 4=s i ze(c o 4);c o u nt_ c o4_ s up=z eros(m4,1);f or i=1:m4for j=l:mli f(shw(c o 4(i,1)=1)&(shw(j,c o4(iz2)=1)&(shw(j zco4(i z3)=l)&(shw(j,co4(i,
40、4)=1)co u nt_ c o 4_s u p(i)=coun t _co4_su p(i)+1;endj=j+l;en de ndt emp=f ind(co u n t _c o 4_sup)=s up);c o 4=co4(t e m p z:);coun t _co 4 _sup=co u nt_co4_su p(t e mp,:);L4=co4 count_co 4 _sup;C 4=E m p t y ma t r i x:0-b y-5上 述 基 于 Mat 1 ab的 Apriori算 法 的 结 果 与 上 节 的 图 6.2 一 致,由 于 C4是 空 集,所 以 算
41、法终 止,共 找 到 频 繁 项 集 L i,L2,L3O3.用 ja va实 现 关 联 规 则 3.1 jav a 界 面 描 述 运 营 程 序 A p r i o r i,进 入 关 联 规 则 主 界 面,如 图 3.1 所 示 图 3.1 关 联 规 则 主 界 面 点 击“载 入”选 择 g:/l.txt”,选 择“打 开”,载 入 到 j a v a界 面 中,如 图 3.2所 示图 3.2载 入 界 面 载 入 完 毕 后 的 界 面,如 图 3.3 所 不图 3.3 载 入 完 毕 界 面 输 入 最 小 支 持 度 阈 值,如 2,点 击“生 成 频 繁 项 集”,生 成
42、 所 有 频 繁 项 集,如 下 图 3.4 所 示 图 3.4 频 繁 项 集+输 入 最 小 可 信 度 的 值,如 0.6,点 击 生 成 关 联 规 则,结 果 如 下 图 3.5所 示图 3.5关 联 规 则 3.2java关 键 代 码 描 述 1、删 除 小 于 支 持 度 的 键 p u b lic void reniovellot Support Key(H ashtable h t)S trin g s t r=s u p p o rt.g e tT e x t();in t j=In te g e r.p a r s e ln t(s tr);Set s=h t.k e
43、y S e t();f o r(It e r a to r i=s.it e r a t o r();i.h a s N e x t();)i f(In te g e r.p a rs e ln t(S trin g)h t.g e t(i.n e x t()j)i.reniove();2、创 建 并 返 回 L i的 结 果 集p u b lic S trin g c re a te L l()S trin g s t r=fo r(in t i=0;i in fo.le n g th;i+)fo r(in t j=0;j i n f o i.le n g th;j+)i f(!h t l.
44、c o n t a in s K e y(in f o i j)h t l.p u t(i n f o l i l,Mr);,else h t l.p u t(in f o i j,In te g e r.parselr?t(S trin g)ht 1.g e t(i n f o i(j)p enioveFlot Support Key(ht 1);s t r=如 下:+MnM;s t r=s t r+p r in t(h t 1)+Mns t r=s t r+re tu rn s t r;3、创 建 并 返 回 L2的 结 果 集 p u b lic S tr in g c re a te
45、L 2()S tr in g s t r=s t r=c r e a te L l();Set s=h t 1.k e y s e t();f o r(I t e r a t o r i t e r=s.i t e r a t o r();ite r.h a s U e x t();)O b je c t o=i t e r.n e x t();f o r(i n t i=0;i in f o.le n g t h;i+)f o r(i n t j=O;j i n f o i.le n g th-1;j+)i f(o.e q u a ls(in f o i j)f o r(i n t k=j+
46、1;k i n f o i.le n g th;k+)i f(!t h i s.c o n ta in(h t 2.k e y s e t(),(S tr in g)o,i n f o i k,n u l l)Ite m ite m=new Ite m(S tr in g)o,i n f o i k);h t 2.put(i t ein,e ls e O b je c t key=t h i s.fin d K e y(h t2.k e y s e t(),(S tr in g)o,i n f o i k,n u l l);h t 2.put(k e y,In te g e r.p a rs
47、e lr7 t(S tr in g)h t2.g e t(k e y)丁 1 丁 b re a k;)renioveflotSupportKey(ht2);str=str+”L2 如 下:“+nM;str=str+print(ht2)+“n”;str=str+“-+“n”;return str;4、创 建 并 返 回 L3的 结 果 集 p u b lic S trin g c re a te L 3()S trin g s tr=s t r=c re a te L 2();Set s=h t2.k e y s e t();fo r(It e r a t o r i t e r=s.i t e
48、 r a t o r();it e r.h a s N e x t();)Item o=(Ite m)i t e r.n e x t();f o r(i n t i=0;i in fo.le n g th;i+)fo r(in t j=0;j i n f o i.le n g th-1;j+)i f(o.g e tA().e q u a ls(i n f o i j)&o.g e tB().e q u a ls(in f o i j+1)&j+1(in fo.le n g th)fo r(i n t k=j+2;k i n f o i.le n g th;k-*-*-)i f(!t h i s
49、.c o n ta in(h t 3.k e y S e t(),o.g e tA(),o.g e tB(),i n f o i k)Item item=new Ite m(o.g e tA(),o.g e tB Q,i n f o i j+2);.p u t(ite m,f);e ls e O b ject key=t h i s.fin d K e y(h t?.k e y s e t(),o.g e tA(),o.g e tB Q,i n f o i k);h t3.p u t(k e y,In t e g e r.p a rs e ln t(S trin g)ht3.g e t(k e
50、 y)+1+”“);b reak;removeHotSupportKey(h t3);s tr=s tr+”L3 如 下”+wn;s tr s tr+p r in t(h t 3)+nM;s tr=s tr+*n 0;re tu rn s t r;5、在 健 集 k eyset里 查 找 健 值 为 a,b,c 的 健p u b l i c O b j e c t f i n d K e y(S e t k e y s e t,S t r i n g a.S t r i n g b.S t r i n g c)i-F(b-n u l l)-F o r(I t e r a t o r 1=k e