1. 小明搜集了某网络购物平台2021年1月1日至2021年9月30日时间段内的日用化妆品销售数据,原始数据如下图a所示。

(1) 小明对数据进行了整理,下列操作不恰当的是(   )(单选,填字母)。 A. 发现记录中有6 条重复,对这6 条记录进行了删除 B. 发现记录中有38 处数据项缺失,直接删除相关记录 C. 将某条记录中订单日期“2050-6-9”订正为“2021-6-9” D. 将某条记录中订单日期“2021#3#11”修改为“2021-3-11”
(2) 小明发现数据中仍有极少量时间段外的记录混杂其中,利用Python 及pandas 模块进行处理。请回答问题:

① 采用pandas 模块中的(单选:填字母:A .Series / B .DataFrame)

数据结构存储全部数据会比较高效。

② 全部数据保存于变量df 中,为筛选出订单日期为2021 年第一季度内的所有记录,

可以执行Python 语句df1 =  ,则df1 中保存筛选结果。(单选,填字母。

提示:多条件筛选时,条件之间用“&”连接,表示需要同时满足这多个条件)

A.df[ (df['订单日期'] <= '2021-1-1' ) & (df ['订单日期'] <= '2021-3-31') ]

B.df [ (df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] >= '2021-3-31') ]

C.df [(df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] <= '2021-3-31')]

(3) 经过以上两步处理之后,为了解“所在地市”第一季度“订购数量”前10 名的情况,

编写如下Python 程序段:

#数据整理结果保存于变量df1中,代码略

g = df1.groupby('所在地市', as_index = False).sum()

print           )

则划线处的代码可为(   )(多选,填字母)

A. g.sort_values('订购数量',ascending = False) [0:10] B. g.sort_values('订购数量',ascending = True).tail(10) C. g.sort_values('订购数量',ascending = True)[0:10] D. g.sort_values('订购数量',ascending = False).head(10)
(4) 根据以上数据整理结果,小明对第一季度所在地市的“订购数量”进行可视化处理,如图b所示。

实现上述功能的Python程序部分代码如下:

#按“所在地市”对第一季度数据分组并求和,再按“订购数量”升序排序

#选取最后10条数据,存入变量s,代码略

import matplotlib.pyplot as plt

x = s['所在地市']

y =

plt.barh(x, y, color = 'r')

plt.show( )

程序中划线处代码应为

(5) 小明借助大数据技术,对近几年来该网络购物平台的日用化妆品销售数据进行了分析。

应用该分析结果可能提供的数据服务是(列举一条即可)。

【考点】
编程处理数据与可视化; 表格数据的图表呈现; 数据表、字段、记录的编辑;
【答案】

您现在未登录,无法查看试题答案与解析。 登录
综合题 困难
能力提升
换一批
2.  某省2023年全年气象灾害预警数据保存在文件“qxyj.xlsx”中,部分数据如图a所示,编写Python程序,统计全年发布次数最多的5种气象预警。

图a

#导入模块略

df=pd.read_excel("qxyj.xlsx") #读取文件中的数据

(1) 整理数据,删除多余列,划线处代码正确的是:(    )(单选,填字母)

df=df.drop(["预警发布单位","预警发布时间"],____)#删除列

A. ascending=True B. index=True C. axis=0 D. axis=1
(2) 为统计每种气象的预警次数,划线处代码正确的是:____

df_g=df.groupby("预警名称",as_index=False).____ #分组并统计预警次数

df_s= df_g.sort_values("次数"ascending=False) #按"次数"降序排序

A. sum( ) B. count( ) C. min( ) D. mean( )
(3) 排序后给数据增加“预警等级”列,按照预警名称中的“红橙黄蓝”分别设置等级1234,输出结果如图 b 所示。划线处代码正确的是:(    )

图b

df_s["预警等级"]=0#插入新的"预警等级"列,默认值为0

for i in range(len(df_s)):

 s=

 if s[2]=="红":

 df_s.at[i,"预警等级"]=1

 elif s[2]=="橙":

 df_s.at[i,"预警等级"]=2

 elif s[2]=="黄":

 df_s.at[i,"预警等级"]=3

 elif s[2]=="蓝":

 df_s.at[i,"预警等级"]=4

print(df_s)

df_s=df_s.head(5)

A. df_s[i,"预警名称"] B. df_s.at[i,"预警名称"] C. df[i,"预警名称"] D. df.at[i,"预警名称"]
(4) 统计全年发布次数最多的5种气象预警,建立图表,如图c所示。请在程序划线处填写合适的代码。

图c

x=df_s.预警名称

y=

plt.bar(x,y) #绘制柱形图

plt.title('发布次数最多的 5 种气象预警')

plt.show() #显示图表

综合题 普通
3. 某地气象站每3小时记录一次数据,现收集了该地区2022年全年的天气数据,数据按时间日期顺序存储在“weather.xlsx”文件中,部分数据如图a所示。

图 a

图 b

统计全年每月降水天数(当日总降水量大于 0 即计入降水天数),编写 Python 程序,回答下列问题:

(1) 求每日总降水量并输出,结果如图b所示,部分程序代码如下,则划线处可行的是         (单选,填字母) 。

import pandas as pd

df=pd.read_excel ("weather.xlsx")

df1=                    

print(df1)

A. df.groupby("降水量",as_index= True). 日期.sum() B. df.groupby("降水量",as_index=False). 日期.sum() C. df.groupby("日期",as_index=False).降水量.sum() D. df.groupby("日期",as_index=True).降水量.sum()
(2) 统计每月降水天数,绘制柱形图如图 c 所示。程序代码如下,请在划线处填入合适的代码。

import matplotlib.pyplot as plt

plt.rcParams['font.family']='SimHei'  #设置图表中的中文字体

days=[31,28,31,30,31,30,31,31,30,31,30,31]   #2022 年每月天数

rain_days=[0]*12

begin=0

for m in range(12):

for d in range(begin, ):

if df1.at[d,"降水量"]>0:

begin+=days[m]

x=[i+1 for i in range(12)]

y=rain_days

plt.bar ( , label="降水天数") plt.xticks(x)    #设置横坐标刻度

plt.legend()

plt.show ()

(3) 已知全国月均降水天数约为11天,则超过全国月均降水天数的月份共有 个。

图 c

综合题 困难