课程名称 |
数据采集与处理技术 |
授课对象所属专业 |
数据科学与大数据技术专业 |
课程类型 |
专业课 |
开课年级 |
3 |
课程性质 |
专业教育 |
课程总学时 |
48 |
一、课程简介
《数据采集与处理技术》是计算机科学、软件工程等专业中的一项面向实践的课程,与高级程序设计语言、计算机网络等课程相关。本课程的目标在于使学生循序渐进地了解并掌握网络爬虫编写,在学习Python编程的基本方法与常见技巧的同时,对网络与Web相关知识也取得较好的理解。本课程的安排为:第一部分中第一节介绍Python编程基础知识,第二节引入Web与HTML等网络抓取基本概念以及网络安全教育,在第三节和第四节中详细介绍使用Python处理各类问题的方法,包括网页解析、文件存储、数据库存储、文本分析等方面。第二部分进入主体部分即各类爬虫程序的编写,包括静态网页抓取、动态网页抓取、处理AJAX页面,视频数据采集等。第三部分以几个较为综合的实践课题来让学生应用所学内容,完成如电商评论分析这样的有一定应用价值的爬虫程序。
二、案例基本信息
1.案例名称:红色记忆里诞生的梦——网页视频数据采集
2.对应章节:第二章、第三章综合应用
3.课程讲次:2课次
三、案例教学目标
1.知识目标
(1)掌握网络爬虫的基本方法,了解Requests库请求原理以及Response返回对象的属性,掌握采集静态网页的通用方法,注意网络数据采集引发的道德和安全的问题。
(2)掌握xpath、css和正则表达式提取数据的方法。
(3)掌握视频采集过程中数据下载和保存方法。
(4)掌握视频数据采集解析播放方法。
2.能力目标
(1)通过百度搜索引擎原理案例分析,让学生能够了解web页面的组成原理,掌握数据寻找的方法以及爬虫的本质。,
(2)通过网页“共产党员网”红色故事汇静态页面视频采集,让学生掌握能运用爬虫库requests进行爬取网页数据。
(3)通过不同上海篇、江西篇、广州篇等不同地区的红色革命故事视频采集,让学生能够掌握爬虫使用xpath和正则表达式对网页进行解析的方法。
(4)通过视频保存及UI播放,让学生能够掌握保存网页爬虫获取数据的方法,掌握UI界面搭建的方法及美化技巧。
3.思政目标
(1)通过对百度网站、京东网站以及淘宝网站的robots协议查看及分析,引起学生对网络爬虫数据采集合法性的关注和思考。
(2)通过介绍全国首例“爬虫技术”犯罪案增强学生法律意识和职业道德操作。
(3)通过“共产党员网”红色故事汇视频采集,让学生重温红色经典,坚定学生的理想信念。
四、案例主要内容
本案例采用python编程语言,requests爬虫通用库获取网页数据,利用xpath和re正则表达式提取数据,从而实现“共产党员网”红色故事汇视频数据提取、下载和播放。案例主要以场景化的学习过程,经典的红色故事汇,激发学生的爱国热情和实践动力,坚定学生的理想信念。同时利用多环节的小组分工合作实践锻炼,让学生体验职业角色责任和具体实施过程以及岗位要求,把友善、沟通、合作、责任、诚信、创新等关键词与给予过程的个人心得分享和总结评价相结合,激发学生内心的“友善”,让学生践行“和谐”社会带来的“自由”,从而发现自我价值,养成爱岗敬业的优良品德。
五、案例教学设计
1.课程导入(10分钟)
(1)课程导入
互动课程导入–我们平时是如何通过百度获取网上的信息资源?-引出爬虫的基本原理。
(2)介绍爬虫流程
明确需求:明确采集网站以及数据内容
-网址
-数据
抓包分析
-确定数据:具体数据来源的网址
-浏览器开发者工具使用(F12)
-如何抓包和快速定位数据所在的包
代码实现
-发送请求
-获取数据
-解析数据
-保存数据
2.知识点讲解
知识点1:法律及安全问题(5分钟)
(1)爬虫引发的问题:介绍全国首例“爬虫”技术侵入计算机系统犯罪案件。
(2)网站的robots协议
(3)网络爬虫限制
知识点2:网络爬虫(30分钟)
案例:采集“共产党员网”红色故事汇视频
(1)数据来源分析
明确需求:https://xuexi.12371.cn/special/hsgsh/
(2)抓包分析
浏览器开发者工具(F12)
(3)Requests库使用+xpath/re提取数据
requests库的安装以及国内库源介绍
requests库的网页请求方法
requests库的对象属性
requests库的异常捕捉
数据采集的通用方法
思政融入:以红色故事视频为例,让学生在红色记忆里诞生自己的梦
学生课堂实践案例:网络图片采集–采集壁纸“爱上紫禁城”
思政融入:了解我国灿烂文化–保护历史建筑、保护国宝文物
知识点3:网页信息提取(30分钟)
(1)网页解析及数据获取
Python + requests + xpath + re
(2)数据保存为文件的方法
Withopen + urlretrieve
课堂案例演练(15分钟)
(1)红色故事汇视频提取
(2)红色故事汇视频保存
(3)红色故事汇视频UI播放
思政融入:让学生重温红色经典,坚定理想信念
六、教学反思
(1)深挖思政:持续将《数据采集与处理技术》这门专业课程内容和“思政元素”有机结合,加大思政内容与实验环节结合,体现课程高度;加大思政内容与研讨环节结合,体现课程热度。
(2)价值提升:持续探索让学生贴近时代主旋律并利用技术手段和工具的方法,引导学生创造价值,实现自我提升。
(3)N型教学:通过案例研讨法,读书指导法、操作示范法、探索讲授法、网络教学法等多种教学形式,促进学生的全程参与和自主探索,在潜移默化中将社会主义核心价值观植入当代青年学生的骨髓与血液。
数据科学与技术教研室供稿
责编:魏东平 审核:董西伟 郭景娟