《2023年CPDA考试真题与答案完整版.docx》由会员分享,可在线阅读,更多相关《2023年CPDA考试真题与答案完整版.docx(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、 判断题 1.数据可分为结构化数据和非结构化数据等。对的答案: 2.大数据与传统数据有着本质上的差别,因此之前解决数据的方法和软件都不再合用,大数据分析有专用的软件和方法。对的答案: 3.数据分析的核心是数据,因此数据的获取和解决十分关键。对的答案: 4.Apriori算法可用于分类预算。对的答案: 5.一组数据的众数和中位数都是唯一的。对的答案: 6.资金的时间价值体现在资金会随着时间而增值,如银行存款会增长利息。对的答案: 7.茎叶图不仅可以反映数据的分布情况,还能显示数据的原始信息。对的答案: 8.在多元回归分析中,检查方程的拟合优度用调整后的R的平方效果更好。对的答案: 9.在对不
2、同项目进行风险衡量时,可以用标准差作为标准,标准差越大,方案风险水平越高。对的答案: 10.时间序列若无季节变动,则其各月(季)季节指数为0.对的答案: 11.一个硬币掷 10 次,其中 5 次正面向上的概率是0.5。对的答案: 12.DBSCAN算法对异常值敏感,因此要在聚类前进行异常值分析。对的答案: 13.在假设检查中,当我们做出拒绝原假设而接受备择假设的结论时,表达原假设是错误的。 对的答案: 14.召回率(recall)指预测为正的样本中实际为正的样本所占比例。对的答案: 15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。对的答案: 二、 单选题1.Apriori算
3、法用下列哪个做项目集(Itemset)的筛选?A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购买数量对的答案: B 2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经记录学检查,p=0.00340.01,这意味着( )A、南方和北方女婴出生体重的差别无记录学意义B、南方和北方女婴出生体重差别很大C、由于P值太小,南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有记录学意义但
4、无实际意义对的答案: D 3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于( )A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型对的答案: C 4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环则射中环数的中位数和众数分别为( )A、8,9B、8,8 C、8.5,8D、8.5,9对的答案: B 5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,两者之间的关系是( )A、负相关B、正相关C、零相关D、曲线相关对的答案: B 6.下表为一交易数据库,请问A C 的信赖度
5、(Confidence)为( )A、75%B、50%C、60%D、66.7%对的答案: D 7.如何运用体重以简朴贝式分类(Naive Bayes)预测性别?A、选取另一条件属性B、将体重正规化为到01 之间C、将体重离散化D、无法预测对的答案: C 8.以下哪个属于时间序列的问题?( )A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是对的答案: B 9.数据缺失(Null Value)解决方法可分为人工填补法及自动填补法,下列哪种填补法可得到较准确的结果?A、填入一个通用的常数值,例如填入未知/UnknownB、把填补遗缺值的
6、问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数对的答案: B 10.某市有各类书店500家,其中大型50家,中型150家,小型300家。为了调查该市图书销售情况,拟抽取30家书店进行调查。假如采用分层等比例抽样法,下列在大型、中型、小型书店中样本的对的分派量为( )A、5、15、10B、7、10、13C、10、10、10D、3、9、18对的答案: D 11.以下哪种方法不属于有监督学习模型( )A、线性回归B、决策树C、主成分分析D、随机森林对的答案: C 12.下列关系中,属于正相关关系的有( )A、合理限度内,施肥量和平均单位产量之间的关系B、产品产量与单位
7、产品成本之间的关系C、商品的流通费用与销售利润之间的关系D、流通费用率与商品销售量之间的关系对的答案: A 13.某公司在进行市场调研,以决定是否推出一款新产品。调研得出的结论是:出现有利结果的概率为60%,出现不利结果的概率为40%。假如结果有利,则产品成功的概率为70%;假如结果不利,则产品失败的概率会达成75%。假如产品成功,该公司预期年利润将达成5 000 000元;假如产品失败,该公司每年将损失2 000 000元。那么,这款新产品的年利润盼望值为( )A、1 500 000元B、1 640 000元 C、2 000 000元D、2 650 000元对的答案: B 14.在类神经网络
8、中计算误差值的目的是( )A、调整隐藏层个数B、调整输入值C、调整权重(Weight)D、调整真实值对的答案: C15.某次英语考试的标准差为 5.1 分,考虑到这次考试的题目太难,评分时给每位应试者都加了 10 分,加分后成绩的标准差是( )A、10B、15.1C、5.1D、信息局限性,无法计算。对的答案: C 16.下列对 C4.5 算法的说法中不对的的是( )A、每个节点的分支度只能为2B、使用 gain ratio 作为节点分割的依据C、可以解决数值型态的字段D、可以解决空值的字段对的答案: A 17.根据下表的混乱矩阵(Confusion Matrix),可以得出属性值 YES 的准
9、确率(Precision)为( )18.K-Means聚类法规定自变量之间不存在共线性,是由于( )A、变量存在多重共线性时无法得到聚类结果。B、变量存在多重共线性时无法解释聚类结果。C、变量存在多重共线性时,相关变量会在距离计算中占据很高的权重,从而对聚类结果有负面的影响。D、变量存在多重共线性时,得到的聚类结果是完全错误的。对的答案: C 19.在多元回归模型的检查中,目的是检查每一个自变量与因变量在指定显著性水平下是否存在线性相关关系的是( )A、r检查B、t检查C、F检查D、DW检查对的答案: B 20.关于总体下列说法对的的是( )A、总体中的单位数都是有限的B、对于有限总体只能进行
10、全面调查C、对于无限总体只能进行非全面调查D、以上都不对的对的答案: C 21.某公司报告期产量比基期增长了15%,生产费用增长了10%,则其产品单位成本减少了( )A、33.33% B、95.65%C、5%D、4.35%对的答案: D 22.当样本容量充足大时,样本估计量充足地靠近总体指标的也许性趋于1,称为抽样估计的( )A、无偏性B、一致性C、有效性D、充足性对的答案: B 23.下列直线回归方程中,错误的是( )24.在假设检查问题中,犯第一类错误的概率的意义是( )A、在H0不成立的条件下,经检查H0被拒绝的概率B、在H0不成立的条件下,经检查H0被接受的概率C、在H0成立的条件下,
11、经检查H0被拒绝的概率D、在H0成立的条件下,经检查H0被接受的概率对的答案: C 25.方差分析是一个( )问题。A、假设检查B、参数估计C、随机实验D、参数检查对的答案: A 26.如何以神经网络仿真逻辑回归(Logistic Regression)?A、输入层节点个数设定为2B、输出层节点个数设定为2C、隐藏层节点个数设定为0D、隐藏层节点个数设定为1对的答案: C 27.根据可决系数R2与F记录量的关系可知,当R21时,有( )A、F=0B、F=1C、F=-1D、F=对的答案: D 28.关于逻辑回归分析(logistic regrssion modle)说法对的的是( )A、逻辑回归
12、的因变量为数值变量B、逻辑回归的因变量为定性变量C、逻辑回归的自变量是定性变量D、逻辑回归的因变量只能有两种取值对的答案: B 29.对客户的生命周期进行分类重要使用以下哪个方法?A、聚类分析B、判别分析C、逻辑回归D、线性回归对的答案: A 30.在时间序列分析中,一般用循环变动指数(C%)来测定循环波动,( )是计算C%的常用方法。A、移动平均法B、移动平均剔除法C、指数平滑法D、剩余法对的答案: D 三、 多选题1.用Excel可创建的图表有( )A、二维图表B、三维图表C、饼图D、雷达图对的答案: ABCD 2.直线回归方程( A、建立前提条件是现象之间具有较密切的线性相关关系B、关键
13、在于拟定方程中的参数a和bC、表白两个相关变量间的数量变动关系D、可用来根据自变量值推算因变量值,并可进行回归预测对的答案: ABCD 3.箱线图是用一组数据的五个顺序记录量来描述数据的分布状况的,这五个记录量是( ) A、中位数B、众数C、四分位数D、最值E、算数平均数对的答案: ACD 4.下列何者是类神经网络的缺陷?A、无法得知最佳解B、模型准确度低C、知识结构是隐性的,缺少解释能力D、训练模型的时间长对的答案: ACD 5.对于估计类模型,以下哪些记录量用于评价最合适?A、错分类率B、极大似然数C、ROC记录量D、SBC对的答案: BD 6.下列说法中不对的的是( )A、任何两个变量都
14、具有相关关系B、人的知识与其年龄具有相关关系C、散点图中各点的分散没有任何规律D、根据散点图求得的回归直线方程都是故意义的对的答案: ACD 7.利润与钞票流量的差异重要表现在( )A、购置固定资产付出大量钞票时不计入成本B、将固定资产的原值以折旧的形式记入成本时,不需要付出钞票C、钞票流量一般来说大于利润D、计算利润时不考虑垫支的流动资产的数量和回收的时间对的答案: ABD 8.决策树法分析问题的重要环节涉及( )A、结构化问题B、设计也许结果发生的概率C、设计结果的得益D、分析问题对的答案: ABCD 9.促销预算的方法重要有( )A、量入为出法 B、竞争对等法 C、销售比例法 D、目的任
15、务法对的答案: ABCD 10.按购买行为细分的消费者市场要考虑消费者( )等因素。A、消费者生活方式B、对商品的忠诚限度C、进入市场的限度D、对商品的购买数量对的答案: BCD 11.小王是一个股市投资人,手上持有 A、B、C、D、E 五只股票,请问以下不属于时间序列问题的有( )A、透过 A 只股票过去一年来的股价走势,预测明天 A 只股票的开盘价格B、将 A、B、C、D、E 五只股票区分为赚钱与赔钱两个类别C、将 A、B、C、D、E 五只股票区分为甲、乙、丙三个群体D、透过 A, C, D 三只股票过去一年来的走势,预测明天 A 只股票的开盘价格对的答案: BC 12.常见的用于预测 Y
16、 为分类变量的回归方法有( )A、伽玛回归B、泊松回归C、Logistic 回归D、Probit 回归对的答案: CD 13.对样本进行聚类,通常采用的相似性记录量有( )A、绝对距离B、欧式距离C、夹角余弦D、相关系数E、切比雪夫距离对的答案: ABE 14.方差分析的一般环节涉及( )A、建立原假设和备择假设B、选择显著性水平C、选择检查记录量D、给出判别准则对的答案: ABCD 15.以下属于机器学习的是( )A、监督式学习B、非监督式学习C、半监督式学习D、强化学习对的答案: ABCD 16.Apriori算法的计算复杂度受( )影响。A、支持度阀值B、项数(维度)C、事务数D、事务平
17、均宽度对的答案: ABCD 17.数据清理的目的是解决数据中的( )A、空缺值B、噪声数据C、不一致数据D、敏感数据对的答案: ABC18.OLAP系统和OLTP系统的重要区别涉及( )A、OLTP系统重要用于管理当前数据,而OLAP系统重要存放的是历史数据B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放具体的数据对的答案: ABD 19.根据关联分析中所涉及的数据维,可以将关联规则分类为( )A、布尔关联规则B、单维关联规则C、多维关联规则D、多层关联规则对的答案: BC 20.从结构的角度看,数据仓库模型涉及以下几类( )A、公司仓库B、数据集市C、虚拟仓库D、信息仓库对的答案: ABC