基于bp神经网络的自适应伪最近邻分类-曾勇.pdf

上传人:1890****070 文档编号:99799 上传时间:2018-05-12 格式:PDF 页数:6 大小:843.28KB
返回 下载 相关 举报
基于bp神经网络的自适应伪最近邻分类-曾勇.pdf_第1页
第1页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于bp神经网络的自适应伪最近邻分类-曾勇.pdf》由会员分享,可在线阅读,更多相关《基于bp神经网络的自适应伪最近邻分类-曾勇.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第 38卷 第 11期 电 子 与 信 息 学 报 Vol.38No.112016年 11月 JournalofElectronics&InformationTechnology .Nov.2016基 于 BP 神 经 网 络 的 自 适 应 伪 最 近 邻 分 类曾勇舒欢*胡江平葛月月(电子科技大学自动化工程学院成都611731)摘 要 : 在 伪 最 近 邻 (PNN)分 类 算 法 中 , 待 分 类 样 本 点 与 每 一 类 样 本 集 中 各 个 近 邻 的 距 离 加 权 系 数 都 是 主 观 确 定 的 ,这 就 使 得 算 法 得 不 到 最 优 距 离 加 权 值 。 针

2、 对 这 一 问 题 , 该 文 提 出 一 种 基 于 BP神 经 网 络 的 自 适 应 伪 最 近 邻 分 类 算 法 。首 先 通 过 计 算 待 分 类 样 本 点 与 每 一 类 样 本 集 中 各 个 近 邻 的 距 离 值 , 并 将 其 作 为 BP神 经 网 络 的 输 入 。 然 后 根 据 BP神 经 网 络 输 入 与 输 出 之 间 的 映 射 来 自 适 应 确 定 相 应 的 距 离 加 权 值 。 最 后 由 BP神 经 网 络 的 输 出 值 判 别 样 本 类 别 号 。实 验 结 果 表 明 , 该 算 法 能 够 自 适 应 地 调 节 距 离 加 权

3、 系 数 , 同 时 还 能 有 效 地 改 善 分 类 准 确 率 。关 键 词 : 伪 最 近 邻 分 类 ; BP神 经 网 络 ; 自 适 应中 图 分 类 号 : TP181 文 献 标 识 码 : A 文 章 编 号 : 1009-5896(2016)11-2774-06DOI:10.11999/JEIT160133Adaptive Pseudo Nearest Neighbor ClassificationBased on BP Neural NetworkZENGYong SHUHuan HUJiangping GEYueyue(School of Automation Eng

4、ineering, University of Electronic Science andTechnology of China, Chengdu 611731, China)Abstract: Distance-weighted coefficients between unlabeled sample point and its nearest neighbors belonging tosamesamplesetaredeterminedsubjectivelyinthePseudoNearestNeighbor(PNN)classificationalgorithm,whichmak

5、es it difficult to obtain optimal distance-weighted value. In this paper, an adaptive pseudo neighborclassification algorithm based on BP neural network is proposed. Firstly, the distance-weighted values betweenunlabeled sample point and its neighbors lying in the same sample set are regarded as the

6、 input of BP neuralnetwork. Secondly, the corresponding distance-weighted values are adaptively determined according to themappingbetweentheinputsandoutputsofBPneuralnetwork.Finally,theclassificationofunlabeledsamplepointisjudgedbytheoutputsofBPneuralnetwork.Experimentalresultsshowthattheproposedapp

7、roachadaptivelyadjuststhedistance-weightedcoefficients.Moreover,theclassificationaccuracycanbeeffectivelyimproved.Key words:PseudoNearestNeighbor(PNN)classification;BPneuralnetwork;Adaptive1 引 言k - 近 邻 分 类 规 则 (the voting k-NearestNeighbor Rule,k -NNR)是 一 种 经 典 的 非 参 数 分 类方 法 , 作 为 数 据 挖 掘 领 域 的 十 大

8、 经 典 算 法 之 一 1, 已在 字 符 识 别 2、 文 本 分 类 3、 时 间 序 列 4 6- 、 生 物 医学 研 究 7,8、 空 间 查 询 9等 诸 多 领 域 10,11得 到 了 广 泛 的应 用 。 在 k -近 邻 分 类 规 则 里 , 测 试 样 本 的 k 个 近 邻类 别 信 息 被 赋 予 相 同 的 权 值 。 事 实 上 , 不 同 近 邻 对测 试 样 本 的 分 类 会 产 生 不 同 的 影 响 。 基 于 此 , 文 献收 稿 日 期 : 2016-01-29; 改 回 日 期 : 2016-06-17; 网 络 出 版 : 2016-09-0

9、8*通 信 作 者 : 舒 欢 基 金 项 目 : 国 家 自 然 科 学 基 金 (61104104,61473061), 四 川 省 信 号 与信 息 重 点 实 验 室 基 金 (SZJJ2009-002)Foundation Items: The National Natural Science Foundation ofChina(61104104,61473061),TheFundofSichuanProvincialKeyLaboratoryofSignalandInformationProcessing(SZJJ2009-002)12-14提 出 了 几 种 距 离 加 权 的

10、 k -近 邻 规 则 。 在 加 权的 k -近 邻 分 类 规 则 里 , 与 测 试 样 本 距 离 较 近 的 近 邻被 赋 予 较 大 的 权 值 , 反 之 , 距 离 较 远 的 近 邻 被 赋 予较 小 的 权 值 。 在 某 些 场 合 , 文 献 12已 经 发 现 加 权 的k -近 邻 规 则 可 以 比 传 统 的 k -近 邻 规 则 取 得 较 好 的性 能 。 但 是 一 些 学 者 发 现 , 在 样 本 无 限 的 情 况 下 ,加 权 的 k -近 邻 规 则 的 渐 进 分 类 误 差 率 并 不 好 于 传统 的 k -近 邻 规 则 15,16。受

11、到 距 离 加 权 的 k -近 邻 分 类 规 则 的 启 发 , 文 献17提 出 了 伪 最 近 邻 分 类 规 则 (Pseudo NearestNeighborRule,PNNR)。 在 伪 最 近 邻 分 类 规 则 中 ,一 个 称 之 为 伪 最 近 邻 (Pseudo Nearest Neighbor,PNN) 的 新 的 最 近 邻 取 代 原 来 的 最 近 邻 , 伪 最 近 邻由 待 分 类 样 本 点 的 属 于 同 一 类 别 的 k 个 近 邻 的 距 离加 权 和 决 定 , 待 分 类 样 本 被 指 定 为 伪 最 近 邻 所 属 的万方数据第 11期 曾

12、 勇 等 : 基 于 BP神 经 网 络 的 自 适 应 伪 最 近 邻 分 类 2775类 别 。 PNNR充 分 利 用 了 测 试 样 本 在 每 一 类 原 型 样本 集 里 的 多 个 近 邻 信 息 , 大 量 的 实 验 结 果 显 示 该 算法 的 分 类 性 能 优 于 传 统 的 最 近 邻 分 类 方 法 与 传 统 的k -近 邻 分 类 方 法 , 也 优 于 传 统 的 距 离 加 权 的 近 邻 分类 算 法 。 然 而 在 PNNR算 法 中 , 对 待 分 类 样 本 点 的属 于 同 一 类 别 的 k 个 近 邻 的 距 离 进 行 加 权 时 , 无 论

13、采 用 倒 数 距 离 加 权 , 还 是 采 用 指 数 逆 距 离 加 权 , 距离 加 权 系 数 都 是 人 为 主 观 确 定 的 , 并 不 能 得 到 较 优的 距 离 加 权 值 。为 了 解 决 PNNR存 在 的 不 足 , 本 文 提 出 了 一 种新 的 分 类 方 法 : 基 于 BP神 经 网 络 的 自 适 应 伪 最 近邻 分 类 方 法 (Adaptive pseudo Nearest Neighborclassification based on BP neural network,BPANN), 根 据 同 类 样 本 特 征 相 似 , 而 不 同 样

14、本 特征 值 差 异 较 大 这 一 特 性 来 计 算 测 试 样 本 在 每 一 个 类别 中 的 k 个 近 邻 点 , 充 分 利 用 了 测 试 样 本 在 每 一 类原 型 样 本 集 里 的 多 个 近 邻 信 息 , 将 计 算 出 的 测 试 样本 与 各 近 邻 点 间 的 距 离 值 作 为 网 络 输 入 , 并 通 过 BP神 经 网 络 输 入 和 输 出 之 间 的 映 射 自 适 应 地 训 练 距 离加 权 系 数 , 使 得 分 类 器 的 分 类 精 度 得 以 提 高 。本 文 其 余 部 分 组 织 如 下 : 第 2节 介 绍 伪 最 近 邻分 类

15、算 法 ; 第 3节 将 给 出 本 文 所 提 出 的 BPANN的具 体 算 法 步 骤 以 及 分 类 器 设 计 ; 第 4节 是 实 验 及 结果 分 析 ; 最 后 是 本 文 结 论 。2 伪 最 近 邻 分 类对 于 N 个 原 型 样 本 , 1 2, , , MN N N 分 别 各 自 表示 属 于 类 1,2, ,M 的 原 型 样 本 数 , 在 伪 最 近 邻 分 类规 则 里 , ( ) ( ) ( )1 2, , , jkj j jx x x 表 示 测 试 样 本 x 在 第 j 类 原型 样 本 里 的 jk 个 近 邻 , ( ) ( ) ( )1 2,

16、, , jkj j jd d d 表 示 其 对 应 按升 序 排 列 的 与 测 试 样 本 x 的 距 离 , 为 jk 个 近 邻 分 配权 值 1 2, , , jkj j jw w w , 这 些 权 值 有 多 种 分 配 方 式 , 如 加权 距 离 赋 值 方 式 、 指 数 逆 距 离 加 权 方 式 、 倒 数 距 离加 权 等 方 式 , 并 且 1 2, , , jkj j jw w w 必 须 满 足 式 (1)关 系 :1 2 1 1, 1j jk kj j j j jw w w w w- = (1)式 中 , 取 测 试 样 本 x 在 不 同 类 的 原 型 样

17、 本 集 里 的 近邻 数 相 等 , 即 令 ,j ik k k i j= = , 且 1min( ,k N2, , )MN N , 近 邻 数 jk 是 利 用 交 叉 验 证 方 法 得 到 的 。同 时 , 令 相 应 的 权 值 m mi jw w= , 这 里 1,2, , m k ,miw 与 mjw 分 别 是 测 试 样 本 x 在 第 i 类 原 型 样 本 里 的第 m 个 近 邻 ( )mix 的 距 离 加 权 值 及 测 试 样 本 x 在 第 j类 原 型 样 本 里 的 第 m 个 近 邻 ( )mjx 的 距 离 加 权 值 。 令jd 表 示 测 试 样 本

18、 x 在 第 j 类 原 型 样 本 里 的 k 个 近 邻的 距 离 加 权 和 , 则 有 ( )1 1 , 1,2, ,kkj j j j jd w d w d j M= + + = (2)定 义 测 试 样 本 x 的 伪 最 近 邻 PNNx 为( )PNN 1 2min , , , Mx d d d= (3)必 须 指 出 的 是 , 这 里 测 试 样 本 x 的 伪 最 近 邻PNNx 是 一 个 标 量 , PNNx 并 不 是 测 试 样 本 x 真 实 的 最近 邻 , 它 是 一 个 假 的 最 近 邻 , 因 而 称 为 伪 最 近 邻 。伪 最 近 邻 PNNx 代

19、 表 的 是 测 试 样 本 x 在 某 一 类 原 型 样本 里 的 k 个 近 邻 的 距 离 加 权 和 的 最 小 值 , 实 际 上 最后 代 表 的 是 类 别 信 息 , 因 此 可 用 它 来 进 行 分 类 , 即伪 最 近 邻 规 则 。由 文 献 17提 出 的 伪 最 近 邻 规 则 PNNR(PseudoNearestNeighborRule)如 下 : 一 个 测 试 样 本 对 ( ),x 给 定 , 则 伪 最 近 邻 分 类 规 则 把 测 试 样 本 x 分 配 为 其伪 最 近 邻 PNNx 所 属 的 类 别 , 如 果 有 多 个 伪 最 近 邻 ,则

20、 在 其 中 随 机 选 择 一 个 , 并 把 其 对 应 的 类 别 指 定 给测 试 样 本 。实 验 表 明 伪 最 近 邻 分 类 方 法 的 分 类 性 能 优 于 传统 的 最 近 邻 分 类 方 法 与 传 统 的 k -近 邻 分 类 方 法 , 也优 于 传 统 的 距 离 加 权 的 近 邻 分 类 算 法 17, 但 由 于 其中 的 距 离 加 权 系 数 都 是 人 为 主 观 确 定 的 , 并 不 能 得到 较 优 的 距 离 加 权 值 , 为 此 本 文 提 出 了 一 种 基 于 BP神 经 网 络 的 自 适 应 伪 最 近 邻 分 类 的 方 法 。3

21、 基 于 BP 神 经 网 络 的 自 适 应 伪 最 近 邻 分 类基 于 BP神 经 网 络 的 自 适 应 伪 最 近 邻 分 类 是 伪最 近 邻 分 类 方 法 的 扩 展 , 与 PNN分 类 算 法 不 同 的是 , BP神 经 网 络 分 类 器 的 输 入 不 是 待 分 类 样 本 点 的特 征 值 , 而 是 待 分 类 样 本 在 每 一 类 样 本 集 中 的 各 个近 邻 的 距 离 值 。 并 且 距 离 加 权 值 不 需 要 人 为 确 定 ,而 是 由 BP神 经 网 络 输 入 和 输 出 之 间 的 映 射 自 适 应确 定 , 同 时 对 每 类 原

22、型 样 本 自 适 应 的 设 计 其 相 应 的分 类 器 , 从 有 效 的 样 本 资 料 中 得 到 尽 可 能 多 的 信 息 ,使 其 获 得 更 好 的 分 类 效 果 。 图 1显 示 的 是 自 适 应 伪 最近 邻 分 类 器 的 训 练 原 理 图 , 其 中 输 入 数 据 是 训 练 数 据集 , 1 2, , , MN N N 分 别 各 自 表 示 属 于 类 1,2, ,M 的原 型 样 本 数 , ( ) ( ) ( )1 2, , , kj j jd d d 表 示 其 对 应 k 个 近 邻 按升 序 排 列 的 与 测 试 样 本 x 的 距 离 , 1

23、 2, , , Mj j j 表 示M 个 分 类 器 的 输 出 值 。图 1 自 适 应 伪 最 近 邻 分 类 器 训 练 原 理 图万方数据2776 电 子 与 信 息 学 报 第 38卷3.1 BPANN 模 型 的 参 数 设 置BP神 经 网 络 具 有 良 好 的 容 错 性 、 与 人 脑 相 似 的高 度 并 行 性 以 及 联 想 记 忆 功 能 , 容 错 能 力 和 自 适 应学 习 都 较 强 , 可 以 实 现 从 输 入 到 输 出 的 非 线 性 映 射 。应 用 于 近 邻 分 类 的 BP神 经 网 络 分 类 器 , 必 须 结 合数 据 集 的 情 况

24、 设 计 , 并 在 试 验 中 不 断 改 进 , 才 能 训练 出 泛 化 性 能 好 的 模 式 分 类 器 。 所 以 , 必 须 选 择 适当 大 小 的 网 络 结 构 , 网 络 太 小 不 能 解 决 问 题 , 太 大则 推 广 能 力 差 。 本 文 中 , BP神 经 网 络 在 样 本 训 练 阶段 通 过 附 加 动 量 法 来 调 整 层 与 层 之 间 的 权 值 和 阈值 , 从 而 通 过 网 络 输 入 输 出 之 间 的 映 射 自 适 应 的 调节 距 离 加 权 权 值 , 同 时 针 对 样 本 数 据 的 数 据 类 别 自适 应 的 设 计 其

25、相 应 的 分 类 器 , 以 便 选 出 较 优 的 分 类器 。 (1)输 入 与 输 出 层 节 点 数 确 定 : BP网 络 的 输入 、 输 出 层 维 数 需 要 根 据 实 际 要 求 而 定 , 本 实 验 中 ,若 样 本 预 处 理 时 采 用 的 是 k 近 邻 , 那 么 输 入 层 的 维数 就 为 k ; 而 输 出 层 输 出 的 则 是 样 本 的 相 似 度 即 新的 距 离 加 权 和 , 因 此 输 出 层 的 维 数 为 1。(2)隐 层 层 数 的 选 择 及 隐 层 节 点 数 : 根 据 戈 尔 莫戈 罗 夫 (Kolmogorov)定 理 ,

26、一 个 3层 的 BP网 络 足以 完 成 任 何 从 输 入 到 输 出 的 连 续 映 射 , 因 此 , 我 们采 用 具 有 一 个 隐 层 的 3层 BP神 经 网 络 。 隐 节 点 数目 的 选 择 是 一 个 比 较 复 杂 的 问 题 , 目 前 确 定 隐 节 点数 的 方 法 有 很 多 种 , 主 要 有 修 剪 方 法 、 复 杂 性 调 整方 法 、 增 益 方 法 、 进 化 方 法 、 自 适 应 方 法 18等 。 在大 量 实 验 的 基 础 上 , 这 里 选 择 式 (4)作 为 参 考 。( )( )Hidden In Out Classmax , 2

27、N N N N= + (4)其 中 , HiddenN 为 隐 层 节 点 数 , InN , OutN , ClassN 分别 为 BP网 络 的 输 入 、 输 出 层 节 点 数 和 所 需 分 的 目标 分 类 数 即 样 本 数 据 的 类 别 数 。(3)激 活 函 数 的 选 择 : 神 经 元 的 激 活 函 数 一 般选 用 Sigmoid函 数 , 经 过 大 量 实 验 对 比 , 最 终 我 们选 取 式 (5)所 示 logistic函 数 作 为 激 活 函 数 。( ) ( )1( ) 1 exp ( )j j jv n v nj = + - (5)其 中 , (

28、 )jv n 是 神 经 元 j 的 诱 导 局 部 域 , 其 范 围 位 于( , )- + , 输 出 ( ( )j jv nj 的 范 围 位 于 0,1 区 间 内 。(4)初 始 权 值 的 选 取 : 因 系 统 的 非 线 性 性 使 初 始权 值 对 学 习 是 否 收 敛 关 系 很 大 , 故 而 希 望 初 始 权 值在 输 入 累 加 时 使 每 个 神 经 元 的 状 态 值 接 近 于 零 。 一般 , 初 始 权 值 取 随 机 数 , 而 且 权 的 值 要 求 比 较 小 。(5)学 习 率 以 及 冲 量 项 的 选 择 : 原 则 上 , 只 要 学习

29、率 足 够 小 以 保 证 收 敛 , 但 实 际 上 学 习 率 可 以 影 响到 最 后 的 网 络 性 能 。 而 冲 量 项 的 目 的 在 于 : 允 许 当 误差 曲 面 中 存 在 平 坦 区 时 , 网 络 可 以 以 更 快 的 速 度 学习 , 增 加 了 学 习 过 程 的 稳 定 性 。 对 于 我 们 所 用 的Sigmoid型 网 络 , 可 以 首 先 将 学 习 率 h 设 为 0.2, 冲量 项 设 为 0.9, 然 后 可 以 在 学 习 过 程 中 适 当 的 改 动 。3.2 BPANN 分 类 方 法 的 实 现基 于 BP神 经 网 络 的 自 适

30、应 伪 最 近 邻 分 类 方 法实 现 的 流 程 图 如 图 2所 示 。由 于 在 实 际 应 用 中 用 于 训 练 的 样 本 各 元 素 之 间取 值 范 围 不 可 能 完 全 一 致 , 这 就 给 网 络 的 训 练 带 来很 大 不 便 , 不 仅 加 大 了 逼 近 函 数 的 波 动 性 , 使 网 络训 练 速 度 下 降 , 而 且 容 易 造 成 网 络 训 练 失 败 。 因 此先 对 数 据 进 行 适 当 的 预 处 理 是 非 常 重 要 的 , 这 在 一定 程 度 上 可 以 加 速 训 练 , 提 高 训 练 的 成 功 率 。 样 本集 经 过 预

31、 处 理 后 , 便 将 其 送 入 BP神 经 网 络 中 进 行网 络 训 练 。 对 于 一 个 数 据 集 中 N 个 可 得 的 训 练 样 本 ,令 1 2, , , MN N N 分 别 表 示 对 应 于 属 于 类 1,2, ,M 的训 练 样 本 数 。BPANN的 具 体 步 骤 如 下 :步骤1 将 样 本 数 据 集 (data)分 为 训 练 集(trainsam)和 测 试 集 (testsam), 进 行 数 据 预 处 理 。计 算 每 个 训 练 样 本 点 x 在 每 一 类 训 练 样 本 中 的 k 个近 邻 ( ) ( ) ( )1 2, , , (

32、 1,2, , )kj j jx x x j M= , 以 及 到 各 个 近 邻的 距 离 , 并 将 其 按 升 序 排 列 为 ( ) ( ) ( )1 2, , , (kj j jd d d j =1,2, , )M , 对 每 一 类 样 本 数 据 经 过 归 一 化 处 理 后 计算 对 应 的 正 例 、 反 例 , 类 1,2, ,M 的 正 例 、 反 例 个数 分 别 为1 2, , , MN N N , 其 中 正 例 指 在 类 内 寻 找 的样 本 点 , 反 例 指 从 类 间 寻 找 的 样 本 。 将 每 一 类 的 正例 、 反 例 作 为 BP神 经 网

33、络 的 输 入 , 表 示 为 X , 并且 数 据 集 中 每 一 类 样 本 分 别 对 应 一 个 BP网 络 分 类器 , 类 1,2, ,M 共 对 应 M 个 分 类 器 。步骤2 for 1 to n M=初 始 化 BP神 经 网 络 , 即 设 定 网 络 参 数 。 其 中输 入 层 到 隐 含 层 与 隐 含 层 到 输 出 层 的 权 值 和 偏 置 分别 表 示 为 1, 2, 1, 2b bw w , 将 它 们 分 别 取 随 机 数 。图 2 基 于 BP神 经 网 络 的 自 适 应 伪 最 近 邻 分 类 方 法 实 现 流 程万方数据第 11期 曾 勇 等

34、 : 基 于 BP神 经 网 络 的 自 适 应 伪 最 近 邻 分 类 2777完 成 步 骤 3-步 骤 5。步骤3 预 处 理 后 的 数 据 送 入 网 络 中 进 行 训 练 ,得 到 新 的 权 值 以 及 偏 置 。本 文 采 用 附 加 动 量 法 来 作 为 权 值 和 偏 置 的 学 习算 法 , 其 权 值 学 习 公 式 为() ( 1) () ( 1) ( 2)w t w t w t w t w t= - +D + - - - (6)式 中 , (), ( 1), ( 2)w t w t w t- - 分 别 为 , 1, 2t t t- - 时 刻的 权 值 , 其

35、 中 h 为 学 习 率 , 为 冲 量 项 , ()w tD =d ()w th , d ()w t 表 示 对 相 应 的 权 值 求 导 。 权 值 和 偏置 1, 2, 1, 2b bw w 的 变 化 率 分 别 为outd 1=dlogsig( ) ( 2 ), d 2= ,d 1=dlogsig( ) ( 2 ), d 2=b I e b eI X e I eww w w (7)式 中 e是 网 络 输 出 的 误 差 , 用 于 权 值 和 偏 置 的 修 正 , I是 网 络 隐 含 层 的 输 出 , = 1 + 1I X bw , out=logsig( 1I w1)X

36、b + , 网 络 输 出 层 的 输 出 为 T out2 2y I b= +w 。这 个 训 练 过 程 由 BP神 经 网 络 输 入 输 出 间 的 映 射 自适 应 调 节 权 值 , 从 而 替 代 了 PNN中 人 为 计 算 距 离 加权 系 数 。步骤4 将 预 处 理 后 的 测 试 样 本 送 入 已 经 训 练好 的 网 络 中 进 行 分 类 , 找 出 网 络 输 出 值 中 的 最 大 值 ,也 就 是 新 的 伪 最 近 邻 , 并 将 测 试 样 本 分 到 最 大 值 对应 的 的 索 引 类 。步骤5 分 类 结 果 与 期 望 值 对 比 计 算 误 差

37、 率Err, dfErr , 1,2 ,nN n MN= = , 其 中 dfN 表 示 实 际分 类 输 出 值 与 期 望 值 不 同 的 样 本 数 据 个 数 。步骤6 选 择 出 M 个 BP网 络 分 类 器 中 误 差 率最 小 即 分 类 效 果 最 好 的 一 个 。4 实 验 结 果 及 分 析实 验 是 在 MATLAB7.11.0环 境 下 实 现 , 采 用 了机 器 学 习 库 UCI19上 的 9个 数 据 集 。 所 使 用 的 数 据介 绍 见 表 1。 数 据 集 Letter,Pen,Thyroid,Optdigits,Landsat-Satellite

38、和 Image-Segmentation, 其 训 练样 本 集 与 测 试 样 本 集 已 被 预 先 指 定 。 而 其 余 的 3个数 据 集 , 通 过 5倍 交 叉 验 证 来 选 择 训 练 集 与 测 试 集 ,其 中 对 于 数 据 集 采 用 的 距 离 度 量 是 欧 几 里 得 距 离 。现 在 用 BPANN与 PNN以 及 传 统 的 KNN一 起对 机 器 学 习 库 UCI19上 的 9个 数 据 集 进 行 分 类 , 其中 PNN1,PNN2,PNN3,PNN4分 别 是 距 离 逆 加 权 、指 数 衰 减 距 离 加 权 、 线 性 距 离 逆 加 权 、

39、 倒 数 距 离 加权 的 伪 最 近 邻 分 类 , 分 类 结 果 见 表 2。 对 每 一 个 数据 集 , 几 种 分 类 方 法 中 最 好 的 分 类 结 果 用 黑 体 表 示 。从 表 2 可 以 看 到 , 对 数 据 集 Letter, Pen,Optdigits, Image-Segmentation, Landsat-Satellite以 及 Wine, 基 于 BP神 经 网 络 的 自 适 应 伪 最 近 邻 分类 的 分 类 性 能 明 显 好 于 传 统 的 近 邻 分 类 以 及 伪 最 近邻 分 类 。 而 在 数 据 集 Thyroid上 , BPANN也

40、 取 得了 较 好 的 分 类 效 果 。 对 于 数 据 集 Iris和 Glass, 最 终的 分 类 效 果 没 有 得 到 明 显 改 善 , 这 是 由 于 它 们 属 于小 样 本 数 据 集 , 先 前 没 有 分 出 训 练 集 和 测 试 集 。 而BPANN分 类 算 法 在 分 类 器 设 计 阶 段 , 是 通 过 5倍交 叉 验 证 来 选 择 训 练 集 与 测 试 集 , 交 叉 分 组 的 训 练数 据 每 次 的 变 化 会 对 权 值 优 化 产 生 较 大 影 响 , 进 而影 响 分 类 结 果 。 并 且 该 算 法 在 小 样 本 数 据 集 上 的

41、 误差 率 是 5次 分 类 结 果 的 平 均 值 , 避 免 了 实 验 结 果 由于 训 练 集 与 测 试 集 选 择 的 随 机 性 引 起 的 偶 然 性 。表 3为 表 2中 几 种 算 法 取 得 相 应 分 类 结 果 的 分类 时 间 (因 为 KNN直 接 计 算 测 试 样 本 与 训 练 样 本 之间 的 距 离 , 不 需 要 进 行 训 练 , 因 此 实 验 中 记 录 的 是各 个 算 法 的 测 试 时 间 , 即 分 类 时 间 ), 表 中 时 间 单 位均 为 秒 , 几 种 分 类 算 法 分 别 在 每 个 数 据 集 上 最 少 的分 类 时 间

42、 用 黑 体 表 示 。表 1 所 使 用 数 据 集 的 一 些 特 征仿 真 所 使 用 的 数 据 集 特 征 维 数 样 本 数 类 数 误 差 估 计Letter 16 16000个 训 练 样 本 26 测 试 样 本 4000个Pen 16 7494个 训 练 样 本 10 测 试 样 本 3498个Thyroid 21 3772个 训 练 样 本 3 测 试 样 本 3428个Optdigits 64 3823个 训 练 样 本 10 测 试 样 本 1797个Landsat-Satellite 36 4435个 训 练 样 本 3 测 试 样 本 2000个Image-Seg

43、mentation 19 210个 训 练 样 本 7 测 试 样 本 2100个Iris 4 150 3 5CVGlass 9 214 6 5CVWine 13 178 3 5CV万方数据2778 电 子 与 信 息 学 报 第 38卷表 2 在 9 个 数 据 集 上 的 分 类 误 差 (%)数 据 集 KNN PNN1 PNN2 PNN3 PNN4 BPANNLetter 4.12 k=3 3.80 3.75 4.30 3.93 3.67Pen 2.12 k=4 1.94 2.26 2.26 1.97 1.92Thyroid 6.33 k=5 6.65 6.42 8.02 6.42 6

44、.33Optdigits 2.00 k=1 1.67 1.84 2.00 1.67 1.56Landsat-Satellite 10.60 10.55 10.35 10.55 9.90 8.90Image-Segmentation 12.33 12.33 12.33 12.33 12.33 12.14Wine 30.72 28.57 27.47 28.60 28.01 25.73Iris 2.67 2.67 2.67 3.33 2.67 3.33Glass 35.05 37.17 37.61 37.20 36.28 35.27平 均 误 差 率 11.77 11.71 11.63 12.36

45、11.38 10.98表 3 不 同 算 法 在 各 数 据 集 上 的 分 类 时 间 (s)数 据 集 KNN PNN1 PNN2 PNN3 PNN4 BPANNLetter 35.9965 38.1466 44.4699 45.7013 41.6946 23.9958Pen 14.3465 18.0775 14.7245 13.4599 12.5943 8.0977Thyroid 16.9841 13.5748 11.9098 11.4273 11.0418 3.6130Optdigits 14.9394 18.9481 14.3248 16.6299 13.9480 4.1931Lan

46、dsat-Satellite 13.4912 13.3566 11.0128 11.6741 11.7278 2.7176Image-Segmentation 3.9030 4.0412 4.0186 3.3453 3.7430 3.3353Wine 0.0163 0.0090 0.0296 0.0091 0.0085 0.0234Iris 0.0119 0.0216 0.0342 0.0378 0.0269 0.0187Glass 0.0091 0.0100 0.0126 0.0190 0.0257 0.0344由 表 3可 得 , BPANN算 法 在 数 据 集 Letter,Pen,T

47、hyroid, Optdigits, Landsat-Satellite 以 及 Image-Segmentation上 的 分 类 时 间 明 显 的 小 于 PNN以 及KNN, 从 算 法 原 理 可 对 此 作 出 解 释 , PNN是 通 过计 算 距 离 加 权 和 来 分 类 , 而 BPANN是 由 神 经 网 络输 入 与 输 出 间 的 映 射 来 调 节 权 值 并 分 类 , 使 得 分 类时 间 相 对 较 少 。 对 于 小 样 本 数 据 集 Wine, Iris 和Glass,BPANN在 分 类 时 间 上 没 有 取 得 明 显 改 善 ,这 是 由 于 为

48、 了 避 免 实 验 的 偶 然 性 , 其 分 类 时 间 计 算的 是 交 叉 验 证 次 数 的 平 均 值 。5 结 论针 对 PNN算 法 中 距 离 加 权 系 数 的 确 定 问 题 , 本文 提 出 了 一 种 新 的 伪 最 近 邻 方 法 : 基 于 BP神 经 网络 的 自 适 应 伪 最 近 邻 分 类 方 法 。 在 该 分 类 方 法 中 ,BP神 经 网 络 的 输 入 不 是 待 分 类 样 本 点 的 特 征 值 , 而是 待 分 类 样 本 在 每 一 类 样 本 集 中 的 各 个 近 邻 的 距 离值 , 同 时 距 离 加 权 值 不 需 要 人 为

49、确 定 , 而 是 由 BP神 经 网 络 输 入 和 输 出 之 间 的 映 射 自 适 应 确 定 , 并 且对 每 一 个 数 据 集 自 适 应 的 设 计 其 相 应 分 类 器 。 因 此在 整 个 分 类 过 程 中 进 一 步 减 少 了 主 观 因 素 的 参 与 成分 , 这 使 得 分 类 器 性 能 具 有 更 好 的 稳 定 性 和 推 广 性 。在 多 个 UCI数 据 集 上 的 实 验 结 果 表 明 , 该 算 法 与 传统 的 KNN算 法 以 及 PNN算 法 相 比 , 取 得 了 更 好 的分 类 性 能 。 参 考 文 献1 WU Xindong, KUMAR V, QUINLAN J R, et al. Top 10algorithms in data miningJ. Knowledge and InformationSystems,2008,14(1):1-37.doi:10.1007/s10115-007-0114-2.2 MATEI O,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁