数据与计算科学基础全书课后习题答案1.pdf-淘文阁

资源描述

《数据与计算科学基础全书课后习题答案1.pdf》由会员分享，可在线阅读，更多相关《数据与计算科学基础全书课后习题答案1.pdf（39页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据与计算科学基础全书课后习题答案习题 1 一、单项选择题 1.B 2.A 3.D 4.B 5.D 6.C 7.A 8.D 9.A 10.D 11.A 12.A 13.B 14.B 15.C 16.A 二、判断题 1.2.3.4.5.6.7.8.9.10.三、简答题 1.【解答】信号是消息的传输载体，以声波、光、电磁波等方式来呈现，被人们所识别。消息是信息的物理形式，例如：语音、文字、图像、数字等。数据是计算机对消息通过二进制编码之后获得原始物理符号序列。信息是消息通过计算、处理、组织后的有效内容，通常是对消息所代表的数据处理后的结果。2.【解答】行移动。5.【解答】冯诺依曼架构计算机模型由

2、存储器、算术逻辑运算单元、控制单元和输入/输出子系统组成。冯诺依曼架构的核心思想为“存储程序、顺序执行”。冯诺依曼模型中要求程序必须存储在内存中，这和早期只有数据才存储在存储器中的计算机结构完全不同。冯诺依曼模型中的一段程序是由一组数量有限的指令组成。按照这个模型，控制单元从内存中提取一条指令，接着解释指令、执行指令，然后针对下一条指令重复上述操作。换句话说，指令就一条接着一条地顺序执行。6.【解答】计算机网络的核心功能：数据通信、资源共享和分布式计算。数据通信用于快速传送计算机与终端、计算机与计算机之间的各种信息和数据。资源共享指将网络中的软硬件和数据资源共享给网络中的用户。分布式计算指通过

3、计算机网络可将新任务转交给空闲的计算机来完成，对大型综合性问题，可将问题各部分交给不同的计算机分头处理，充分利用网络资源，扩大计算机的处理能力。7.【解答】TCP/IP 模型的核心协议是 TCP 协议和 IP 协议，即传输控制协议和网际协议。TCP/IP 的通信任务组织成 5 个相对独立的层次：应用层、传输层、互联网层、网络接口层和物理层，其中网络接口层和物理层常称为物理网络层。通过分组交换，应用层数据分组依据分组交换的分层模型，在发送端通过层层增加分组头部，先封装应用层数据再封装传输层数据，依此类推形成最终的物理帧，再通过通信网络传递到接收端，接收端再经过一个逆过程，先解包物理网络层数据再解

4、包互联网层数据，以依此类推获取原始的应用层数据分组。8.【解答】大数据的“5V”特点，即：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）和 Veracity（真实性）。Volume 指大数据的容量非常大，单台机器无法容纳它，因此需要专门的工具和框架来存储处理和分析这些数据。Velocity 指数据生成的速度，由于数据增长速度快，要求实时分析与处理数据，并进行合理丢弃，而非事后批处理，这是大数据区别于传统数据挖掘的地方。Variety指数据种类和来源呈现多样性特征，包括不同种类的数据，比如文本、图像、音频、视频、位置信息、各种传感器状态等，它们可

5、以被归类为各种结构化、半结构化和非结构化数据。Value 指海量信息中的价值密度相对较低，单位数据的价值低。数据的价值是指数据对于预期目的的有用性，任何大数据分析系统的最终目标都是从数据中提取价值。Veracity 是指大数据的质量，它的内容是与真实世界息息相关的，是真实数据而不是虚假数据，这也是数据分析的基础。习题 2 一、单项选择题 1.C 2.A 3.A 4.B 5.D 6.D 7.D 8.A 9.B 10.A 二、判断题 1.2.3.4.5.6.7.8.9.10.三、简答题 1.【解答】进程是执行中的程序，程序是静态的，进程是动态的。一个程序被操作系统加载到内存中，开始执行，并尚未结束

6、时，它就是一个进程。线程本质上是轻量级的进程，线程不拥有资源，而进程拥有资源。线程是最小执行单位，最小的分配资源单位，可以看成是只有一个线程的进程。2.【解答】冯诺依曼现代计算机模型由三大子系统组成，分别是中央处理单元，主存储器和输入/输出子系统。3.【解答】存储器的层次结构自容量小到大分别是寄存器，cpu 缓存和主存储器（内存）。这么设计的目的是为了兼顾较好的性能和较低的成本。4.【解答】CPU 利用重复的机器周期来执行程序中的指令，一步一条，从开始到结束。一个简化的指令执行周期包括三个步骤：取指令、译码和执行。5.【解答】系统软件是指指控制和协调计算机及外部设备，支持应用软件开发和运行的系

7、统，主要功能是调度、监控和维护计算机系统的各种独立硬件，使得它们可以协调工作。比如：各类操作系统如windows、Linux、Unix 等；各种语言处理程序如 C/C+编译程序、连接器程序、其他各种高级语言程序等；各种数据库管理程序如MySQL、Oracle、Access 等。应用软件是是用户使用各种程序设计语言编制的应用程序的集合。比如：工具软件、游戏软件、管理软件、财务软件等都属于应用软件类。6.【解答】操作系统主要分为批处理操作系统、分时操作系统、实时操作系统、并行操作系统以及分布式操作系统。7.【解答】操作系统核心功能分别有处理机管理、内存管理、文件管理以及设备管理。处理机管理中操作系

8、统主要实现算术运算、逻辑运算等计算功能，高效利用 CPU 的计算能力是操作系统内核设计最关键的问题之一。内存管理是现代操作系统的另外一个核心功能，其作用是如何高效的为多道“并发”执行的程序提供内存分配、管理和释放等机制。文件管理是操作系统为了实现对数据的“持久化”存储，普通硬盘、SSD 固态硬盘、光盘等媒介是常见的“持久化”存储材料。为有效的对这些数据进行组织和存储，现代操作系统通过“文件管理”的核心组件来实现。设备管理功能主要体现“设备处理程序”，又称为“驱动程序”的机制设计上，它实现主机系统（CPU+内存）和外部设备的协同工作。8.【解答】分时调度机制又被称为时间片轮询调度机制，进程/线程

9、轮流获得 CPU 的使用权，并且平均分配每个线程占用的 CPU 时间片。9.【解答】按先后顺序分别为数据搜集、数据预处理、数据分析/计算方法确定、分析模式以及数据可视化。其中数据搜集可以使用各种类型的连接器，例如发布-订阅消息传递框架、消息传递队列、关系数据库连接器、文件导入、系统日志信息、网络爬虫数据爬取等。所收集到的数据为一些结构化、半结构化，以及非结构化数据。数据预处理包括各种任务，例如数据清理、数据整理、重复数据删除、归一化、数据采样和过滤，以及其他特征工程相关工作。数据分析/计算方法通常基于传统的统计分析、机器学习、深度学习等方法。确定分析模式，可以是批处理、实时或交互式等不同模式。

10、数据可视化可以是静态的、动态的或交互式的。可视化便于人机交互和后续分析。10.【解答】一个大数据分析和处理系统的系统架构可以为采用 kafka 消息中间件、RabbitMQ队列、Sqoop数据库实现数据访问，采用Hadoop框架实现批处理，Storm框架实现实时分析，HBase实现数据存储，Spark SQL实现用户的交互式查询，最后通过Django框架搭建Web平台连接到两个大数据分析框架，通过 MySQL/MongoDB 数据库存储 Web 服务器的数据。习题 3 一、单项选择题 1.B 2.C 3.A 4.D 5.A 6.D 7.B 8.B 9.C 10.C 11.D 12.B 13.B

11、 14.A 15.B 16.A 17.C 18.A 19.C 20.C 21.B 22.A 23.B 24.D 25.C 26.B 27.C 28.C 29.D 30.A 二、判断题 1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.三、简答题 1.【解答】（1）物理上容易实现，可靠性强。电子元件大都具有两种稳定的状态，如电压的高与低，电路的通与不通等，这两种状态正好可以表示二进制数的 0 和 1。（2）运算简单，通用性强。二进制的运算比十进制的运算简单，如二进制的乘法运算只有 3 种：10=01=0，00=0，11=1。如果是十进制运算的话，则有 55 种情况。（

12、3）计算机中二进制数的 0、1 数字与逻辑值“假”和“真”正好吻合，便于表示和进行逻辑运算，也方便算术运算和逻辑运算的转换。2.【解答】由于在计算机中采用固定位数的二进制数来表示数值，即仅使用数符和固定的位权来表示数的大小、正负等特征。因此计算机中是使用编码来表示数值的，称为机器数。原码、反码、补码是整数的 3 种编码。假设用 n 位二进制来对整数X编码，那么在原码、反码、补码的编码规则中都用最高位来表示数的正负特征，其余位表示数值大小。（1）符号编码。02n-1表示零和正数，12n-1表示负数。（2）数值编码。如果 X0，那么数值的原码、反码、补码都直接用数值X表示。如果X0，那么数值的原码

13、为X的绝对值（|X|）；数值的反码为|X|的 n-1 位反数（2n-1-1-|X|）；数值的补码为|X|的 n-1 位补数（2n-1-|X|）。假设 a 和 b 都是正数，使用补码表示 a-b 运算，可表示为 a+（-b），对应的补码运算为 a+（12n-1+12n-1-b），化简得 a+12n-b，舍弃超出 n 位能表示的部分 12n得 a-b，可见补码可将减法运算转换为加法运算，既实现了符号位参与数值计算，也减少了运算规则，很适合于进行整数的加减法运算。3.【解答】Unicode 是一种通用字符集，适用于跨语言、跨平台进行文本转换、处理。Unicode 使用(0)H (10FFFF)H 之

14、间的数字来表示字符，每一个数字对应一个字符。Unicode 将(0)H (10FFFF)H 分成17 个平面，每个平面含 216个码位，可以映射 216个字符。Unicode 字符集只是起到字符分组、字符和数字之间逻辑映射的作用，并没有指定字符的存储结构。因此需要为每个字符编制存储码。如果采用等长的编码方案，每一个 Unicode 字符需要使用 4个字节进行存储，那么存储空间浪费很大。由此出现多种不同的编码方案，UTF-8 就是其中的一种。UTF-8 是以 8 个二进制位为单位的变长编码方案。UTF-8 将Unicode 字符集分组，分别使用 1 字节编码方案、2 字节编码方案、3 字节编码方

15、案和 4 字节编码方案。其中，和 ASCII 码相应的Unicode 字符使用 1 字节编码方案，码值和 ASCII 码相同；CJK 文字使用 3 字节编码方案。由于 UTF-8 兼容 ASCII，因此使用比较广泛。然而，对于主要以汉字为主的文本而言，使用 UTF-8 则较DBCS 编码多占一半的空间。4.【解答】认识事物和分析事物可以从两个层面进行，即定性分析和定量分析。定性分析产生定性数据，定量分析产生定量数据。定性数据和定量数据都可以作为统计数据源。在统计上定性数据可分为定类数据和定序数据，定量数据可分为定距数据和定比数据。（1）定类数据。具有分类特征，数据之间没有顺序和大小关系。可做分

16、类计数统计和分类筛选。如性别数据的分类集合是“男”，“女”。（2）定序数据。具有分类、顺序特征。可做分类计数统计、分类筛选以及数据排序。如大学教师职称数据的分类集及按职称高低排列是“教授”、“副教授”、“讲师”、“助教”。（3）定距数据。具有间距、顺序特征。可做聚类分析、相关性分析等，并用各种指标（例如最大值、最小值、平均值、均方差等）支撑分析结果；也可做数据排序。例如事件发生的时刻数据、每日定时测量的温度数据。（4）定比数据。具有比例特征的数据。可做聚类分析、相关性分析、归一化处理等，并用各种指标（例如最大值、最小值、平均值、均方差等）支撑分析结果；也可做数据排序。例如考试用时数据，人的身高

17、数据。5.【解答】一个抽象数据类型是指一个数据集合以及定义在该数据集合上的操作集合。其中，数据集合定义了数据的取值范围及其结构，操作集合定义了可以作用在该数据集合上的合法操作。例如，整数是一个数据集合，对其的操作有+、-、*、/等。抽象数据类型的使用和实现是二个不同的层面。使用者关注抽象数据类型的外在和使用方法，设计者关注抽象数据类型的内在结构和具体实现。对使用者而言，只需理解一个抽象数据类型定义的数据集合和操作集合，掌握数据和操作的表达形式即可；该抽象数据类型的实现细节由设计者封装在内部，对使用者隐藏。因为数据结构表达数据对象的逻辑结构、物理结构以及作用在数据结构上的操作。因此数据结构是抽象

18、数据类型内在实现的技术手段。6.【解答】有的数据对象中数据元素之间存在联系（线性结构、树状结构、图状结构），有的数据对象中数据元素之间不存在联系。如果访问存在联系数据对象中的数据元素，则往往依据联系的结构来访问；如果访问不存在联系数据对象中的数据元素，则可以自定义规则进行访问。在本书介绍的数组和链表中，因为数组是通过数组元素的索引（下标）访问数据元素的，可以根据数组元素的索引（下标）值自定义规则，确定访问数组元素的顺序，数组表示不存在联系的数据对象较链表更合适。7.【解答】（1）相同点。无论是文本文件还是二进制文件，文件中的内容都是采用二进制编码的，本质上都是二进制文件。（2）不同点。按字符编

19、码方式存储数据的文件称为文本文件，不属于文本文件的其他文件统称为二进制文件。文本文件更适合不同软件、不同平台间的数据交换；而二进制文件由于其数据采用自定义编码，既节约空间、又可以快速访问，因此各种应用软件都会为自身处理的数据定义相应的二进制文件格式。8.【解答】模拟数据的数字化过程包括采样、量化和编码三个步骤。（1）采样。模拟数据表现为模拟信号，通常都有时空上的连续性，例如音频信号表现为时间上的连续性，图像信号表现为平面空间上的连续性。而数字数据对时空是离散的，采样就是按照一定的时空间隔对模拟信号进行测量。（2）量化。用有限个值来近似表示采样得到的含无限可能的模拟信号测量值，即模拟信号离散化，

20、通常借助 A/D 转换器完成。量化过程中，量化比特（bit）数是重要参数，假设量化比特数为 n，则量化级数等于 2n，n 值越大，量化的精度就越高，数字信号越接近于模拟信号。（3）编码。按照一定的规律，将量化值转换为二进制数的过程。在音频信号数字化过程中，采样时间间隔越小，单位时间内采样的点（采样频率）越多，数据量越大；量化比特数越大，量化的精度就越高，数据量越大。9.【解答】有些数据对象中的数据之间存在一定的关联关系。按照拓扑结构，数据之间的关联形式分线性结构和非线性结构，其中非线性结构又分树状结构和图状结构。例如数字化音频数据的采样点之间存在线性结构，家谱人物数据之间存在树状结构，数字化图

21、像数据的采样点之间存在图状结构。10.【解答】数据对象和数据对象之间的关联是指一个数据对象中的数据元素和另一个数据对象中的数据元素存在一定的关联关系。2 个数据对象之间如果有关联，则可以是 1 对 1 关联、1 对多关联、多对多关联。举例如下：（1）假设学院的院长一定是学校的教职工，一个学院只有 1 名院长，1 名教职工只能担任 1 个学院的院长，那么院长关联就是学院数据对象和教职工数据对象之间的 1 对 1 关联。（2）假设 1 名学生只属于 1 个学院，1 个学院有多名学生，那么学院关联就是学院数据对象和学生数据对象之间的 1 对多关联。（3）学生数据对象和课程数据对象之间就存在选课关联，

22、即学生数据对象中的 1 名学生可以选课程数据对象中多门的课程，课程数据对象中的 1 门课程也可以同时被学生数据对象中多名学生选。选课关联就是学生数据对象和课程数据对象之间的多对多关联。习题 4 四、单项选择题 1.B 2.C 3.C 4.A 5.D 6.A 7.A 8.D 9.C 10.A 11.D 12.C 13.C 14.B 15.D 16.A 17.C 18.C 19.C 20.B 21.D 22.A 23.C 24.B 25.D 26.B 27.C 28.B 29.D 30.B 31.D 32.A 五、判断题 1.2.3.4.5.6.7.8.9.10.11.12.六、简答题 1.【解答

23、】算法是一组可以方便转化为计算机指令的明确步骤，它能在有限的时间内终止并产生运算结果。符合用现代计算机来实现的算法应有以下 5 个特征：（1）明确性。算法的每个步骤必须有明确、具体的含义，算法表示中所使用的运算符号、控制符号也是前后一致的。（2）可行性。算法的每一个步骤都可以转化为一个或多个计算机可执行的运算，并实际可执行。（3）有穷性。算法必须能在执行有限个步骤后终止。（4）0 个或多个输入。算法是用于处理数据的，必须接收到外部输入的初始数据，才能对这些数据进行处理。如果算法内包含了初始数据，则不需外部再输入数据。（5）1 个或多个输出。算法对数据加工处理后，一定要有输出结果。2.【解答】条

24、件驱动问题求解策略进行求解是首先输入数据，然后逐步求得中间值，并最终计算出输出结果。在条件驱动问题求解策略中，变量的作用有标识或保存输入值、求解过程的中间值以及输出结果。3.【解答】目标驱动问题求解策略进行求解是将问题分解为若干个子问题，子问题再分解为更小的子问题，直到子问题简单可解为止，建立起一条从问题追溯到已知条件的通道，再从已知条件出发，沿着这条通道回溯到问题，从而得到求解。相应地，若将问题求解定义为一个算法，则算法可以分解为若干个子算法，子算法再分解为更小的子子算法，直到子算法足够简单。算法标识的作用有两点：（1）作为算法定义的标识。包括算法名、输入数据名、输出数据名。（2）作为调用算

25、法的标识。使用算法名和输入数据调用该算法，同时作为输出的占位。4.【解答】伪代码是注重算法结构严谨性的算法表示方法。它借助计算机语言的控制结构表达算法的结构，结合自然语言和数学符号来表示数据和操作。伪代码具有书写简洁、结构清晰、易阅读等优点。5.【解答】迭代算法从一个假设的目标值出发，计算出目标值；再从这个目标值出发，计算出新的目标值；如此不断重复，直到目标值符合要求为止。一个完备的迭代算法具有 3 个关键要素：（1）确定迭代变量。一个或多个直接或间接地不断由旧值推出新值的变量。在迭代开始前，这些变量的值为假设值，称为迭代初值。在循环结构中，迭代变量初值在初始化阶段完成。（2）建立迭代式。迭代

26、变量从旧值推出新值的计算过程。在循环控制结构中，迭代式体现在循环体中。（3）迭代过程控制。控制是继续迭代还是终止迭代。可以是固定的迭代次数，也可以用条件来控制迭代。在循环控制结构中，由循环条件来控制迭代过程。6.【解答】适合分治法求解的问题应具有如下特点：（1）可以分解为多个规模较原问题小的、性质和原问题相同的子问题。这是可以使用分治法求解的前提。（2）分解出的子问题之间相互无关，不会产生重复计算。子问题的独立性是分治法执行效率的保证。（3）问题分解不会无休无止，即问题的规模小到一定程度就变得简单可解。（4）子问题的解可以合并构成原问题的解。7.【解答】算法的输出结果是 13。8.【解答】算法

27、的输出结果是 4。begin x,y-48,28 while y0:r-x mod y x,y-y,r output x end 9.【解答】如果 x 是一个升序或降序的列表，则可以使用二分查找算法来查找其中的数据元素（简称 key）。其基本原理是：在 x 的索引区间left-right之间查找 key，lefti 的区间 2 33,38,45,62 4 7 5 3824,数据在i 的区间 3 33 4 4 4 3324,数据在mini 运算 mini 0 i 赋初值 0 mini赋初值x0,mini=28 假设列表为 x，x=28,35,2,7,18，x 中元素的索引值用 i 表示（索引值从

28、左向右分别为 0,1,2,3,4），x 中元素用 xi表示，到目前为止求得的最小值用 mini 表示，求解过程如下：求解结束，mini 的值就是最小值，即 2。5.【解答】begin x=input#输入一组数据 n=len(x)#测得 x 中数据个数 i=1#控制排序趟数初始化 while i=n-1:x=bubbleSort(x,0,n-i)i=i+1 output x end def bubbleSort(listData,beginIdex,endIndex):begin i=beginIdex while i listDatai+1:listDatai,listDatai+1=lis

29、tDatai+1,listDatai return listData end 1 i值加1，i=1+1,i=1 35 True mini 值不变 2 i值加1，i=1+1,i=2 2 False mini 值改变为 xi值，mini=2 3 i值加1，i=1+1,i=3 7 True mini 值不变 4 i值加1，i=1+1,i=4 18 True mini 值不变 6.【解答】def C(n,k):begin if k=0 or k=n:return 1 else：return C(n-1,k)+C(n-1,k-1)end 7.【解答】begin n=input#输入一个正整数，存

30、入 n s=0#数列的和用 s 表示，初值为 0 i=0#已经求到 i 项的和 while i 0,则 n=n/2，x=x*x。（3）迭代过程控制：n 0。算法的伪代码表示如下：begin n=input x=input odd=1 while n 0:if n mod 2=1:n=n-1 odd=odd*x if n 0:n=n/2 x=x*x output x*odd end 递归求解：（1）递归出口：如果 n=0,则返回 1；如果 n=1，则返回 x。（2）递归公式：如果 n 为奇数，则计算 x*(x*x)(n-1)/2；否则计算(x*x)(n)/2。def power(x,n):beg

31、in if n=0:return 1 else：if n=1:return x else:if n mod 2=1:return x*power(x*x,(n-1)/2)else:return power(x*x,n/2)end 10.【解答】begin n=input m=input i=1 f=0 while i n Then n=Rng.Columns.Count For i=1 To n For j=1 To i tmp=Rng.Cells(i,j)Rng.Cells(i,j)=Rng.Cells(j,i)Rng.Cells(j,i)=tmp Next Next 3.【解答】Cells

32、.ClearContents r=1 For i=1 To 9 For j=0 To 9 For k=0 To 9 n=i*100+j*10+k If i 3+j 3+k 3=n Then Cells(r,1)=n r=r+1 End If Next Next Next 4.【解答】Cells.ClearContents r=1 For i=2 To 100 For j=2 To i-1 If i Mod j=0 Then Exit For Next If i=j Then For k=2 To i+1 If(i+2)Mod k=0 Then Exit For Next If i+2=k Th

33、en Cells(r,1)=i Cells(r,2)=i+2 r=r+1 End If End If Next 5.【解答】Cells.ClearContents r=1 For i=0 To 100 5 For j=0 To 100 3 k=100-i-j If i*5+j*3+k/3=100 Then Cells(r,1)=i Cells(r,2)=j Cells(r,3)=k r=r+1 End If Next Next 6.【解答】m=Val(InputBox(m:)n=Val(InputBox(n:)i=m j=m+n-1 Do While i=1 If Cells(1,k)Cell

34、s(2,i)Then Exit Do Cells(1,k+1)=Cells(1,k)k=k-1 Loop Cells(1,k+1)=Cells(2,i)m=m+1 Next 8.【解答】n=Val(InputBox(n:)Cells(1,3)=n&日移动平均值 m=A1.End(xlDown).Row For r=2 To n Cells(r,3)=Next For r=n+1 To m Cells(r,3)=Average(B&r-n+1&:B&r&)Next 习题 6 一、单项选择题 1.D 2.B 3.C 4.C 5.D 6.A 7.A 8.C 9.D 10.C 11.A 12.B 13

35、.D 14.D 15.D 二、判断题 1.2.3.4.5.6.7.8.9.10.三、简答题 1.【解答】数据来源的途径与方法通常有以下几种。（1）文本数据文本数据是指以纯文本形式存储的表格数据，主要包括数字和文本。采集文本数据时可在 Excel 菜单中直接导入。（2）数据库数据库中的数据是按指定数据结构来组织、存储和管理的，是以指定的方式存储在表中。采集数据库中的数据可在 Excel 中直接导入。（3）网站数据采集网站数据的常用方法是先在浏览器中访问相应的网站，然后使用鼠标选中网页中的表格复制后，粘贴到 Excel 工作表中。（4）从文件夹批量导入多个文件进行数据收集很多时候，原始数据

36、分散保存在多个文件中，在 Excel 环境中采集这些数据时，可通过【数据】选项卡的【获取数据】【自文件】逐个导入文件，但是文件数量比较多时，逐个导入需要耗费大量的时间。在 Excel 2019 版本中提供了从文件夹批量导入多个文件的功能，可轻松解决这个问题。2.【解答】缺失数据处理的常用方法有以下三种：（1）删除。该处理方式直接删除含有空值的整条记录，而不仅仅删除该空值所在的单元格。（2）填补空值。用均值、众数或中位数等数据填补空值。填补空值时，可用 Excel 中的批量填补和查找替换方法。（3）统计学方法。在统计学中，空值的处理也可利用回归分析或决策树推断出该条记录特定属性的最大可能的取值。

37、四、应用题根据 6.1 数据清洗的相关步骤找出缺失数据、重复数据习题 7 一、单项选择题 1.D 2.D 3.B 4.A 5.C 6.B 7.C 8.C 9.A 10.D 二、判断题 1.2.3.4.5.6.7.8.9.10.三、简答题 1.【解答】略 2.【解答】略 3.【解答】略四、应用题 1.【解答】略 2.【解答】isbn=InputBox(ISBN:)s=0 For i=1 To 11 Step 2 s=s+Val(Mid(isbn,i,1)Next For i=2 To 12 Step 2 s=s+Val(Mid(isbn,i,1)*3 Next s=10-s Mod 10

38、If s=10 Then s=0 MsgBox 校验码:&s 3.【解答】sfzh=InputBox(身份证号码:)n=Array(7,9,10,5,8,4,2,1,6,3,7,9,10,5,8,4,2)m=Array(1,0,X,9,8,7,6,5,4,3,2)s=0 For i=1 To 17 s=s+Val(Mid(sfzh,i,1)*n(i-1)Next s=s Mod 11 MsgBox 校验码:&m(s)习题 8 一、单项选择题 1.C 2.C 3.A 4.B 5.A 6.D 7.D 8.C 9.D 10.D 二、判断题 1.2.3.4.5.6.7.8.9.10.三、简答题 1.【

39、解答】略 2.【解答】略 3.【解答】略 4.【解答】关联分析（correlation analysis）用于发现大量数据中隐藏的关联性或者相关性，分析结果用于指导对行为的选择。例如，从购物数据中发现某些商品可能被一起购买后，就可将这些商品捆绑销售。如数学成绩好的学生可能编程成绩也好，也许这些学生可以选择与计算机相关的专业。5.【解答】聚类分析（cluster analysis）把相似的事物归入合适的类别，使同类中的事务尽可能地相似（组内同质性），而类与类之间保持显著的差异（组间异质性）。例如，根据描述顾客相似或差异性的指标，将顾客群体分成若干具有不同特点的类别，进而达到市场分割的目的。6.【解答】时间序列是指同一个变量按照事件发生的先后顺序排列起来的一组观察值或记录值。可以从时间序列中找出变量变化的特征、趋势及发展规律，从而对变量的未来变化进行有效的预测。时间序列分析是指利用历史数据形成的时间序列对未来进行预测，对预测目标的未来状态和发展趋势做出定量判断。四、应用题 1.【解答】略 2.【解答】略 3.【解答】略 4.【解答】略

展开阅读全文