第五单元 数据分析与人工智能 单元测试(含答案)2022-—2023学年教科版(2019)高中信息
2023-11-17 18:09:51 学考宝 作者:佚名
Word文档版
学考宝(xuekaobao.com)友情提示:html格式不完整,如有需要请根据文末提示下载并进行二次校对Word文档。
第五单元 数据分析与人工智能 单元测试
一、选择题
1.数据分析是用适当的统计分析方法,对采集的大量数据进行分类、整理、统计、分析,发现有用信息以形成结论。下列软件中,通常不具备数据分析功能的是( )
A.图像处理软件 B.电子表格软件 C.在线数据分析平台 D.程序设计语言
2.数据分析广泛应用于社会的各个领域,发挥着重要作用,下列哪项不是数据分析的作用( )
A.了解事物发展的现状 B.识别事物发生的数据来源
C.剖析事物的发展历程 D.预测事物的未来走向
3.在日常考试成绩分析中,以下不属于常用的数据分析方法的是( )
A.横向对比 B.纵向对比 C.平均分析法 D.编程分析法
4.为了获得有价值的信息,需要对数据做进一步的分析,以下关于数据分析作用说法不正确的是( )
A.了解事物现状 B.剖析事物的发展历程
C.预测事物的未来走向 D.发现重复数据
5.现要了解同一家公司的商品数量与目标数量的差距情况,主要采用下列哪一种数据分析方法( )
A.对比分析法 B.平均分析法 C.结构分析法 D.构成分析法
6.matplotlib库中的pyplot子库主要用于绘制图表,其中用来绘制散点图的函数是( )
A.plot( ) B.scatter( ) C.title( ) D.bar( )
7.下列选项中不能体现数据分析作用的是( )
A.剖析事物的发展历程 B.了解事物的现状 C.预测事物的未来走向 D.对数据进行组织和管理
8.小申根据如图所示的七月份日平均风速异常情况检测可视化图形撰写数据分析报告,他对该图的分析正确的是( )
A.该月的日平均风速数据中存在异常值
B.可以进一步分析用小圆圈表示的这个数据
C.必须立即删除用小圆圈表示的这个数据
D.该月的日平均风速数据中存在缺失值
9.小张采集了运动会的报名数据录入到Excel文件,每位同学最多参加两个项目,部分界面如下图所示。他先使用Excel软件整理数据,存储为“运动会报名.xlsx”文件后,编写Python程序完成后续处理。小张编写了如下程序,实现输出跳高人数最多的3个班级的功能。
import pandas as pd
df=pd.read_excel("运动会报名.xlsx")
g=df.groupby("班级").跳高. ①
df1=pd.DataFrame({"班级":g.index,"跳高人数":g.values})
df2=df1.sort_values("跳高人数", ② )
print(df2. ③ )
划线处的代码应填( )
A.①count() ②ascending=False ③tail(3)
B.①sum() ②ascending=True ③head(3)
C.①count() ②ascending=True ③tail(3)
D.①sum() ②ascending=False ③head(3)
10.有如下Python程序段:
import pandas as pd
data={'姓名':['小明','夏丽','晶晶','李华'],'语文':[90,66,80,78],'数学':[92,86,75,80]}
dfl=pd.DataFrame(data,columns=['姓名','语文','数学'])
df2=df1[df1.语文>=80]
ans=df2['数学'].mean()
执行该程序段后,ans的值为( )
A.83 B.83.5 C.85 D.92
11.下列关于数据处理与应用的说法,正确的是( )
A.采集数据不能通过人工的方法采集
B.采集数据后均可直接对采集到的数据进行处理和分析
C.只能使用计算机程序语言编程进行数据处理
D.文本数据处理主要包括:分词、特征提取、数据分析、结果呈现等
12.数据集部分内容如图所示,小申发现其中存在着大量待处理的( )
A.缺失值 B.重复值 C.异常值
13.某中学食堂部署了一套刷脸支付系统,学生在食堂消费并通过刷脸支付后,系统可根据累积的消费数据分析每个学生的口味及最喜爱的菜品,食堂据此来改进服务。为获取上述分析结果,系统采用的关键技术是( )
A.数据挖掘 B.虚拟现实 C.智能代理 D.数据压缩
14.某学校引进了一个在线智慧教学平台,经过若干学期的线上教学实践积累了学习资源、教学互动、学情信息等大量教学数据。为了不断提高线上教学质量,在线智慧教学平台可根据当前积累的教学数据,采用( )技术来估计学生的学习效果,并生成综合的改进方案,完善线上教学方法。( )
A.数据存储与加密 B.数据索引与排序
C.数据分析与预测 D.数据共享与保护
15.下列选项中,不是数据分析作用的是( )
A.了解事物的现状 B.方便数据的获取
C.剖析事物的发展历程 D.预测事物的未来走向
16.想要横向比较两条公交线路的客流量,分析哪一条线路更加繁忙,需要用哪种数据分析方法?
A.对比分析法 B.平均分析法 C.关联分析法 D.聚类分析法
17.下列关于数据分析报告的说法不正确的是( )
A.数据分析报告是项目研究结果的展示
B.数据分析报告可以为决策者提供科学、严谨的决策依据
C.数据分析报告中的数据可以用文本、表格、图形等多种形式呈现
D.数据分析报告中只能体现出数据分析结果,不能展示数据分析的起因和过程
18.关于数据分析,说法正确的是( )
A.数据分析是指用适当的统计分析方法对收集来的少量数据进行分析
B.针对调查问卷收集的数据,我们只能针对一个指标进行分析
C.一般情况下,调查平台不提供分析功能
D.针对调查问卷收集的数据,我们可以对问卷指标进行交叉分析
19.某调查机构准备做一份关于《在校学生视力情况数据分析报告》,下列说法正确的是( )
A.学生视力情况分析的目的与背景在报告中可以忽略
B.该报告中涉及的数据呈现方式必须用图表
C.该报告报告重点呈现数据分析的过程,可以没有结论
D.该报告要重点呈现数据分析过程、结论和建议
20.某同学将自己在高三和高一年级时填写的霍兰德职业倾向调查数据进行分析,发现所有采集的数据在六个维度上与之前的变化不大。该同学使用的数据分析方法是( )
A.横向对比 B.纵向对比 C.平均分析 D.词云分析
二、填空题
21.根据问题的实际,不断寻找可利用的知识,构造一条推理路线解决问题,这个过程就是 。盲目搜索是按预定的 进行搜索,而不考虑 的搜索。这种搜索一般适用于求解比较简单的问题。启发式搜索是在搜索过程中加入 等启发信息,不断 搜索方向,加速求解进程。
22.神经网络是目前人工智能领域的研究热点之一,是一种模拟 行为特征,进行并行信息处理的 。
23.BP(back propagation)神经网络是目前应用最广泛的的算法,它是一种按照 逆向传播算法训练的多层前馈神经网络。神经网络的算法由信息的 与误差的 两部分组成,它们由可修正的 互连。在正向传播过程中,输入信息从输入层经 逐层计算传向输出层,当前层神经元的状态只影响 神经元的状态。如果输出层没有得到期望的输出,则 输出层的误差变化值,然后转向 传播,通过网络将误差信号沿原来的连接通路 ,修改各层神经元的 直至达到期望目标。
24.动态热力图一般用于数据关系分析中 的可视化呈现。
25.大数据是以 大、 多、 快、 高为主要特征的数据集合,它正快速发展为对数量巨大、来源分散、格式多样的数据进行 、 和 ,从中发现新知识,创造新价值、提升新能力的新一代信息技术和服务业态。
三、判断题
26.贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类算法,利用朴素贝叶斯算法可以实现新闻敏感词的屏蔽功能。贝叶斯分类属于大数据分析技术中的数据分类技术。( )
27.智能手机上利用指纹识别来鉴定人的身份从而解锁手机,这属于人工智能的一个应用。( )
28.人工智能将引发机器人控制人类、毁灭人类的问题,所以我们不能再使用人工智能,要消灭人工智能。( )
29.数据也会过时,过时了的数据没有任何价值。( )
30.欧姆定律的实验数据,利用Python工具进行分析、建模和验证,能够比较精确地发现规律,从而获得知识。( )
四、操作题
31.小明学校每期都会对学生的青年大学习数据进行统计,确保人人都参与,图 a是某期学习数据:
(1)小明发现“xm”列数据是混杂数据,他就利用Python语言编程将此列数据的姓名和班级分别提取,再存储到新的Excel文件进行数据整理,下列说法正确的是 (单选题)
A.如果表格中出现数据缺失,可以直接删除
B.通过公式统计每班学习人数属于数据整理
C.数据整理的目的是共享数据资源
D.进一步审核后可对重复的数据进行删除
(2)在 Excel 软件中统计各班学习人数,小明选择单元格 H3 输入公式,然后通过 H3 对 H4:H16 进行 自动填充,但发现计算结果有误。请输入正确的公式 。
(3)小明利用Pandas模块读取数据,统计出各班学习人数,并获取学习人数最少的10个班级,结果如图c,最后进行可视化处理,结果如图d,请在划线处补充代码:
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
df = pd.read_excel("qndxx。xlsx")
dfl = df. #按班级列进行分组
df2=df1.学校.count( ) #统计各班级学习人数
df2=df2.rename(columns= {"学校":"人数"})
df3=df2.sort_values ("人数",ascending=True).head(10) print(df3) #筛选前 10 名
#绘制柱形图
plt.title("学习人数最少的 10 个班级") #设置图表标题
plt.show( )
32.项目:探究高一各学科相关性分析
【项目情境】
在信息化浪潮的推动下,互联网技术不断发展,云计算、移动互联网、大数据和人工智能等新兴技术崭露头角。使用数据挖掘相关技术对中学教学活动中产生的数据进行收集与处理,获取有利于教学的相关信息,也是推进智慧教育的举措之一。在教学过程中,学科考试成绩能够在一定程度反映学生的认知发展水平,某校对高一年级学生的成绩进行数据处理,分析各学科之间的关联度找出优势学科,对教学及学生选科有重要的参考价值。
【项目综述】
概述项目目的、方法和过程。根据要求,回答问题。
(1)数据分析需要使用恰当的方法和工具,对数据进行各种分析。我们可以通过 寻找数据之间的关联性或相关性,可以通过 在分类标准未知的情况下进行数据自动分类,可以根据分类准则通过 对未知数据进行预测。(选填:数据分类、关联分析、聚类分析)
(2)本项目主要通过模拟大数据采集与分析方法,采用 (选填:数据分析关联分析、聚类分类)的方法进行数据分析,试图分析高一年级学生各学科之间的关联度,找出两到三门优势学科,作为指导教学及学生选科的重要参考依据。
(3)确定需要收集的数据为历年高-年级期中期末的各学科成绩,在数据收集、发布、传播、共享时,为保护学生的隐私应采用 (选填:数据精度处理、人工干扰、匿名处理、访问控制)等技术手段。
(4)选用Python语言作为数据分析工具,需要通过调用诸如标准模块、自定义模块以及第三方扩展库的支持,从而高效的完成数据采集处理分析、可视化。数据分析步骤有①数据呈现②数据分类/关联分析/聚类分析③数据采集④分析报告⑤数据预处理,正确的顺序是 。(写出序号即可)
【项目实施】
(一)数据采集与预处理
图1为记录历年高中各科成绩的部分文件,图2为获取所有高一成绩并写入指定文件“高一考试成绩总.xlsx”的部分程序代码。图3为获取的高一考试成绩的部分数据内容。根据要求,回答问题。
图1
图2
图3
(5)观察图2,该程序用 结构嵌套 结构(选填:顺序、选择、循环)描述算法,实现从若干个xlsx文件中筛选出高一成绩并保存为数据文件,其中在Python语言中表示判断数据大小关系的运算符“==”表示 (选填:不等于、等于)。补充程序代码中缺失的语句,应在下划线处填写 。
(6)对采集的数据进行有效存储,以便对数据进行分析和使用。海量的数据几乎包含一切形式的结构化、半结构化以及非结构化的数据。网络中的音视频图片、地理位置、网络日志等数据属于 数据,如图133-3,“高一考试成绩_总.xlsx”中的数据属于 数据。(选填:结构化、非结构化)
(7)在数据分析之前,需要运用 方法(选填:特征探索关联分析、聚类分析、数据分类)对数据进行预处理,发现和处理缺失值以保证数据的完整,还需要对异常数据进行清理,分析是否有冗余数据等。观察图3,“201”属于 数据,虚线部分属于 数据(选填:缺失值、异常值、冗余值),应当删除数据所在 (选填:行、列)。
(8)观察图33-3表格的数据,在收集数据的过程中,你认为哪些数据可以不采集?为什么?
(二)数据分析与可视化
运用Python语言编程进行数据分析与可视化表达,分析部分结果如图4、5。根据要求,回答问题。
图4
图5
(9)观察图4,该校学生地理、物理、生物同时优秀的概率最 ,政治、物理、化学同时优秀的概率较低。
(10)为便于理解数据之间的关系,使用数据可视化工具可以图表形式直观呈现。如折线图可以表示关于 的分析、散点图可以表示关于 的分析、数据地图可以表示关于 的分析(选填;逻辑关系空间关系、趋势)。如图5所示选用 图将数据分析可视化呈现。
(11)下列关于数据可视化的描述中,正确的是 (多选)
A.可视化也可以将数据以地图动画等形式表示
B.可视化可以有效提升数据分析的效率
C.可视化可以让人们快速抓住要点信息
D.可视化可以帮助人们发现数据背后的价值
(三)分析报告
在数据分析中,使用数据可视化工具可以直观的呈现数据之间的关系,寻找数据之间的内在规律,最终实现数据的应用。
(12)观察图5,说说你从图中发现了什么?挖掘出哪些信息 ?
(13)结合自己的学习和生活,谈一谈数据的重要性。(100字左右)
参考答案
1.A
2.B
3.D
4.D
5.A
6.B
7.D
8.AB
9.D
10.B
11.D
12.A
13.A
14.C
15.B
16.A
17.D
18.D
19.D
20.B
21.搜索 控制策略 问题本身特性 估价函数 自动调整
22.动物神经网络 算法模型
23.误差 正向传递 反向传播 权值 隐藏层 下一层 计算 反向 反传回来 权值
24.空间关系
25.容量 类型 存取速度 应用价值 采集 存储 关联分析
26.正确
27.正确
28.×
29.×
30.√
31. D =COUNTIF(C$3:C$1512,G3)或=COUNTIF($C$3:$C$1512,G3) groupby ("班级",as_index=False) plt.bar(df3.班级,df3.人数)
32.关联分析 聚类分析 数据分类 关联分析 匿名处理 ③⑤②①④ 循环 选择或分支 等于 ”高一” 非结构化 结构化 特征探索 异常值 缺失值 行 姓名和班级数据可以不采集,原因是这两列数据不影响数据分析结果,而且涉及个人隐私。 高 趋势 逻辑关系 空间关系 柱形(状) ABCD 由图5可知,后三项均包含物理科目,所在的组合优秀率均比较高,可挖掘出该班学生物理科目均比较优秀。 略