《齐鲁工业大学大数据技术基础成考复习资料.docx》由会员分享,可在线阅读,更多相关《齐鲁工业大学大数据技术基础成考复习资料.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据技术基础1 .参数检验是指对参数平均值、方差进行的统计检 验,其中t检验是通过t分布理论推断差异发生的概 率来判断两个样本或样本与群体的平均值差异是否 显著的方法。2 .新型数据质量管理的方法和工具中,关联图是对原 因-结果、目的手段等关系复杂而相互纠缠的问题的 表述,在逻辑上用箭头把各要素之间的因果关系连 接起来,从而找出主要因素的方法。3 .云平台分为公有云、私有云以及混合云。公有云 指第三方提供商为用户提供的云,一般可通过互联 网使用,可能是免费或低成本的,其核心属性是共 享资源服务。4 .多源数据融合工具NiFi是Apache公司的产品,适 合初学者不需要编写代码。5 .大数据决
2、策是以大数据为主要驱动的决策方式。6 .数据仓库是一个面向主题的、集成的、随时间变 化的、但信息本身相对稳定的数据集合,用于对管 理决策过程的支持.大数据应用向前发展的主要瓶颈是数据价值挖掘 过程中的隐私监管。7 .存储区域网络是采用网状通道技术,是通过交换 机等连接设备将磁盘阵列与相关服务器连接起来的 高速专用子网。8 . Python语言的函数中lambda用来定义匿名函数. Echarts侧重于数据统计图表化层面,即使用传统 的统计性图表来表示数据,用户可以通过其看到历 史数据的统计和解读。1L视频的全局运动特征中,通过将视频帧划分为许 多互不重叠的小块后,描述每个子块内像素运动矢 量的
3、是块运动特征.在执行HDFS的读写过程中,首先使用分布式文件 系统调用的是数字节点DataNodeo12 .许多网站和网络服务提供相应的应用程序接口 API,允许请求结构化格式的数据。API的大部分数据 都是JSON或XML格式,对于JSON格式的数据,可以 使用Python中的json模块来解析JSON。13 .描述性时序分析指通过直观的数据比较或绘图观 测来寻找时间序列中蕴含的发展规律,其操作简单 易懂且直观有效,通常是时间序列数据分析的第一 步。14 . NoSQL主要用于存储非结构化数据.音调(或称音高)是声音听起来调子高低的程度。 音调主要取决于声音的频率,它随频率的升降而升 降。1
4、5 . etc存放系统配置文件.执行Hbase读操作时,ZooKeeper返回存储meta 表的地址节点,客户端访问节点,读取元数据后得 到存储RowKeys所在的节点,客户端向存储节点发起 请求,对应节点先查找数据是否存储在内存,然后 查找HDFS磁盘存储,最后返回数据给客户端。16 .当循环体由多条语句组成时,循环体所有语句必 须对齐是关于Python语言的循环. MapReduce包含由程序员构建的两个主要过程: 映射(map)和归约(reduce)。17 .大数据应用模式导致数据的所有权和使用权分 离,产生了数据所有者、提供者、使用者三种角 色,数据不再像传统技术时代那样在数据所有者的
5、 可控范围之内。18 .传统的关系数据库难以应对Web2.0以及大数据 时代带来的挑战。传统数据库的问题主要表现在以 下几个方面:无法满足海量数据的管理需求;无法满 足数据高并发的需求;无法满足高可扩展性和高可用 性的需求。19 .图像特征是指通过计算机算法来获取图像中某些 关键信息,其是图像分析的起点,下列对图像数据 特征的划分是正确的:根据特征的计算区域大小可以将特征分为局部特征 和全局特征;根据特征的表现形式可以分为点特征、线特征、区域特征;根据特征的语义理解可以分为视 觉特征、中层语义特征、高层语义特征。20 .常用的计量经济学时间序列模型包括自回归模型 (AR)、滑动平均模型(MR)
6、、自回归移动平均模型(ARMA) o21 . JVM上NiFi的主要组件有Web服务器;控制器;数 据流存储库;内容存储库。22 .下列对大数据可视化的理解是正确的:利用计算机自动化分析能力的同时,充分挖掘人对 于可视化信息的认知能力优势,将人、机进行有机 融合;借助人机交互式分析方法和交互技术,包括图 形图像处理、计算机视觉及用户界面,通过表达、 建模以及对立体、表面、属性及动画等图形化手 段,帮助人们更好地理解和利用大数据;能够找出大 数据背后隐藏的信息并转化知识以及规律;大数据可 视化已经在用户画像、社交网络分析、地理信息系 统等领域得到广泛应用.下列关于无监督学习的常用算法描述是正确的
7、:主成分分析就是把原有的多个指标转换为少数几个 代表性较好的综合指标;在Python的sklearn库中,可 分别使用 decomposition. PCA ()、svd ()函数实现 主成分分析和奇异值分解;K-Means算法是基于相似性 的无监督的算法,通过比较样本之间的相似性,将 较为相似的样本划分到同一个类别中;基于密度的聚 类(DBSCAN)算法通过在数据集中寻找被低密度区域 分离的高密度区域,将分离出的高密度区域作为一 个独立的类别. Hive中的表分为内部表、外部表、分区表和分桶 表。23 .弹性分布式数据集RDD是分布在一组节点中的具 有弹性的只读对象集合,可以通过Checkp
8、oint的 Checkpoint Data Logging The Updates 两种方式来实 现容错。24 .内部数据包括产品采购管理系统数据、客户资源 管理系统数据、仓储管理系统数据、人力资源系统 数据等。25 .常见的数据来源中,互联网开源数据抓取属于外 部数据。26 .于实时计算能在整体上把握输入数据,所以得出 的结果是最优解。27 .时空数据是指带有地理位置与时间标签的数据。28 .音色是人对声音音质的感觉,是伴随复合声出现 的,纯音不存在音色问题。29 .云数据的获取可以使用数据库或者调用API接 口。30 . Namenode负责保存系统的目录树和文件信息并 且保存有空间命名镜
9、像的编辑日志,它只对元数据 操作记录而不对数据块操作记录。31 .图像处理是图像分析的基础和前提,而图像分析 是图像处理的延伸和应用。32 .图像数据的颜色特征表示的是图像的全局特性, 而纹理特征则表示的是图像的局部特征。33 .数据资源体系是动态的,需要根据时代背景不断 更新和完善。34 .网络附加存储是连接到计算机网络的存储服务 器。35 .当学习器把训练样本学得太好,很可能已经把 训练样本自身的一些特点当作了所有潜在样本都会 具有的一般性质,这样就会导致泛化性能下降,这 种现象在机器学习中称为过拟合。36 .简述鲁棒性分析的作用?1)稳定整体理论结构,鲁棒性分析具有的多重可推 导性使研究人员所构建的科学理论得到更稳固的基 础,使理论结构更加可靠。2)找到模型核心因素, 鲁棒性分析能通过对大量研究同一现象的具有相似 性但又有区别的模型进行分析,找到这些模型对所 研究现象共同的预测结果。3)判别理论实体,鲁棒 性分析能够提供所研究事物真实存在的判别标准。4)证明理论的正确性,鲁棒性分析通过验证理论的 多样性与独立性增强了理论自身的可靠性与安全