利用Python程序采集、整理、分析数据。
第一步,从互联网中筛选出符合条件的诗人及诗作等文本,整理并形成盛唐诗库;第二步,确定人物关系分析策略,即从唐诗库中搜索、统计诗人或别名的引用次数,确定二人之间的疏密关系,规则是诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1,若一首诗中提到多次对方,只算一次引用;第三步,编写程序并调试验证。
用爬虫程序段(如下图所示)采集数据。根据要求,完成答题。
使用爬虫程序获取文本数据并形成唐诗库文件,所使用的数据采集方法为(选填:系统日志采集法、网络数据采集法、其他数据采集方法)。阅读程序可知,每首诗存放于列表poem[ ]中(以唐诗“春晓”为例,如下表),采集后的数据保存在poet.txt文件中,该文件是一个(选填:数据库文件、文档文件、图像文件、网页文件)。该数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的数据文件,并以化的方式存储(选填:结构化、半结构化)。
Poem[0]
|
Poem[1]
|
Poem[2]
|
Poem[3]
|
“春晓”
|
“唐"
|
“孟浩然”
|
“春眠不觉晓……花落知多少”
|
以诗人甲,乙为例,解密二人关系。根据要求,完成答题。
①数据处理过程中要运用一定的分析方法对大量、无序的数据进行整理、分析,挖掘数据内在的结构和规律,从而提取有价值的、有意义的数据。数据分析一般包括特征探索、关联分析、聚类与分类等。让计算机搜索遍历唐诗库中有关甲,乙两位诗人的诗文,统计两位诗,人或别名相互的引用次数,找寻二人之间的关联。这是运用了(选填:特征探索、关联分析、聚类与分类)方法进行数据分析,也是(选填:枚举、二分查找、排序)算法思想去求解这一问题的体现。
②编制计算机程序解决问题的过程中,是编程的核心, 是解决问题的方法和步骤。选用Python程序设计语言编写程序,Python属于(选填:分析问题、设计算法、编写程序、调试运行、机器语言、汇编语言高级语言)。图a示意,使用 (选填:自然语言、流程图、伪代码)进行算法描述,且运用循环控制结构嵌套了控制结构,如果要跳出本次循环体的执行,应使用语句实现跳转。
③阅读程序(图b示意),程序中以“#”开头的语句,其作用是,程序调试完成,通过“另存为”保存文件,文件后缀名为。