課程名稱 |
數(shù)據(jù)采集與處理技術(shù) |
授課對(duì)象所屬專業(yè) |
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè) |
課程類(lèi)型 |
專業(yè)課 |
開(kāi)課年級(jí) |
3 |
課程性質(zhì) |
專業(yè)教育 |
課程總學(xué)時(shí) |
48 |
一、課程簡(jiǎn)介
《數(shù)據(jù)采集與處理技術(shù)》是計(jì)算機(jī)科學(xué)、軟件工程等專業(yè)中的一項(xiàng)面向?qū)嵺`的課程,與高級(jí)程序設(shè)計(jì)語(yǔ)言、計(jì)算機(jī)網(wǎng)絡(luò)等課程相關(guān)。本課程的目標(biāo)在于使學(xué)生循序漸進(jìn)地了解并掌握網(wǎng)絡(luò)爬蟲(chóng)編寫(xiě),在學(xué)習(xí)Python編程的基本方法與常見(jiàn)技巧的同時(shí),對(duì)網(wǎng)絡(luò)與Web相關(guān)知識(shí)也取得較好的理解。本課程的安排為:第一部分中第一節(jié)介紹Python編程基礎(chǔ)知識(shí),第二節(jié)引入Web與HTML等網(wǎng)絡(luò)抓取基本概念以及網(wǎng)絡(luò)安全教育,在第三節(jié)和第四節(jié)中詳細(xì)介紹使用Python處理各類(lèi)問(wèn)題的方法,包括網(wǎng)頁(yè)解析、文件存儲(chǔ)、數(shù)據(jù)庫(kù)存儲(chǔ)、文本分析等方面。第二部分進(jìn)入主體部分即各類(lèi)爬蟲(chóng)程序的編寫(xiě),包括靜態(tài)網(wǎng)頁(yè)抓取、動(dòng)態(tài)網(wǎng)頁(yè)抓取、處理AJAX頁(yè)面,視頻數(shù)據(jù)采集等。第三部分以幾個(gè)較為綜合的實(shí)踐課題來(lái)讓學(xué)生應(yīng)用所學(xué)內(nèi)容,完成如電商評(píng)論分析這樣的有一定應(yīng)用價(jià)值的爬蟲(chóng)程序。
二、案例基本信息
1.案例名稱:紅色記憶里誕生的夢(mèng)——網(wǎng)頁(yè)視頻數(shù)據(jù)采集
2.對(duì)應(yīng)章節(jié):第二章、第三章綜合應(yīng)用
3.課程講次:2課次
三、案例教學(xué)目標(biāo)
1.知識(shí)目標(biāo)
(1)掌握網(wǎng)絡(luò)爬蟲(chóng)的基本方法,了解Requests庫(kù)請(qǐng)求原理以及Response返回對(duì)象的屬性,掌握采集靜態(tài)網(wǎng)頁(yè)的通用方法,注意網(wǎng)絡(luò)數(shù)據(jù)采集引發(fā)的道德和安全的問(wèn)題。
(2)掌握xpath、css和正則表達(dá)式提取數(shù)據(jù)的方法。
(3)掌握視頻采集過(guò)程中數(shù)據(jù)下載和保存方法。
(4)掌握視頻數(shù)據(jù)采集解析播放方法。
2.能力目標(biāo)
(1)通過(guò)百度搜索引擎原理案例分析,讓學(xué)生能夠了解web頁(yè)面的組成原理,掌握數(shù)據(jù)尋找的方法以及爬蟲(chóng)的本質(zhì)。,
(2)通過(guò)網(wǎng)頁(yè)“共產(chǎn)黨員網(wǎng)”紅色故事匯靜態(tài)頁(yè)面視頻采集,讓學(xué)生掌握能運(yùn)用爬蟲(chóng)庫(kù)requests進(jìn)行爬取網(wǎng)頁(yè)數(shù)據(jù)。
(3)通過(guò)不同上海篇、江西篇、廣州篇等不同地區(qū)的紅色革命故事視頻采集,讓學(xué)生能夠掌握爬蟲(chóng)使用xpath和正則表達(dá)式對(duì)網(wǎng)頁(yè)進(jìn)行解析的方法。
(4)通過(guò)視頻保存及UI播放,讓學(xué)生能夠掌握保存網(wǎng)頁(yè)爬蟲(chóng)獲取數(shù)據(jù)的方法,掌握UI界面搭建的方法及美化技巧。
3.思政目標(biāo)
(1)通過(guò)對(duì)百度網(wǎng)站、京東網(wǎng)站以及淘寶網(wǎng)站的robots協(xié)議查看及分析,引起學(xué)生對(duì)網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集合法性的關(guān)注和思考。
(2)通過(guò)介紹全國(guó)首例“爬蟲(chóng)技術(shù)”犯罪案增強(qiáng)學(xué)生法律意識(shí)和職業(yè)道德操作。
(3)通過(guò)“共產(chǎn)黨員網(wǎng)”紅色故事匯視頻采集,讓學(xué)生重溫紅色經(jīng)典,堅(jiān)定學(xué)生的理想信念。
四、案例主要內(nèi)容
本案例采用python編程語(yǔ)言,requests爬蟲(chóng)通用庫(kù)獲取網(wǎng)頁(yè)數(shù)據(jù),利用xpath和re正則表達(dá)式提取數(shù)據(jù),從而實(shí)現(xiàn)“共產(chǎn)黨員網(wǎng)”紅色故事匯視頻數(shù)據(jù)提取、下載和播放。案例主要以場(chǎng)景化的學(xué)習(xí)過(guò)程,經(jīng)典的紅色故事匯,激發(fā)學(xué)生的愛(ài)國(guó)熱情和實(shí)踐動(dòng)力,堅(jiān)定學(xué)生的理想信念。同時(shí)利用多環(huán)節(jié)的小組分工合作實(shí)踐鍛煉,讓學(xué)生體驗(yàn)職業(yè)角色責(zé)任和具體實(shí)施過(guò)程以及崗位要求,把友善、溝通、合作、責(zé)任、誠(chéng)信、創(chuàng)新等關(guān)鍵詞與給予過(guò)程的個(gè)人心得分享和總結(jié)評(píng)價(jià)相結(jié)合,激發(fā)學(xué)生內(nèi)心的“友善”,讓學(xué)生踐行“和諧”社會(huì)帶來(lái)的“自由”,從而發(fā)現(xiàn)自我價(jià)值,養(yǎng)成愛(ài)崗敬業(yè)的優(yōu)良品德。
五、案例教學(xué)設(shè)計(jì)
1.課程導(dǎo)入(10分鐘)
(1)課程導(dǎo)入
互動(dòng)課程導(dǎo)入–我們平時(shí)是如何通過(guò)百度獲取網(wǎng)上的信息資源?-引出爬蟲(chóng)的基本原理。
(2)介紹爬蟲(chóng)流程
明確需求:明確采集網(wǎng)站以及數(shù)據(jù)內(nèi)容
-網(wǎng)址
-數(shù)據(jù)
抓包分析
-確定數(shù)據(jù):具體數(shù)據(jù)來(lái)源的網(wǎng)址
-瀏覽器開(kāi)發(fā)者工具使用(F12)
-如何抓包和快速定位數(shù)據(jù)所在的包
代碼實(shí)現(xiàn)
-發(fā)送請(qǐng)求
-獲取數(shù)據(jù)
-解析數(shù)據(jù)
-保存數(shù)據(jù)
2.知識(shí)點(diǎn)講解
知識(shí)點(diǎn)1:法律及安全問(wèn)題(5分鐘)
(1)爬蟲(chóng)引發(fā)的問(wèn)題:介紹全國(guó)首例“爬蟲(chóng)”技術(shù)侵入計(jì)算機(jī)系統(tǒng)犯罪案件。
(2)網(wǎng)站的robots協(xié)議
(3)網(wǎng)絡(luò)爬蟲(chóng)限制
知識(shí)點(diǎn)2:網(wǎng)絡(luò)爬蟲(chóng)(30分鐘)
案例:采集“共產(chǎn)黨員網(wǎng)”紅色故事匯視頻
(1)數(shù)據(jù)來(lái)源分析
明確需求:https://xuexi.12371.cn/special/hsgsh/

(2)抓包分析
瀏覽器開(kāi)發(fā)者工具(F12)
(3)Requests庫(kù)使用+xpath/re提取數(shù)據(jù)
requests庫(kù)的安裝以及國(guó)內(nèi)庫(kù)源介紹
requests庫(kù)的網(wǎng)頁(yè)請(qǐng)求方法
requests庫(kù)的對(duì)象屬性
requests庫(kù)的異常捕捉
數(shù)據(jù)采集的通用方法

思政融入:以紅色故事視頻為例,讓學(xué)生在紅色記憶里誕生自己的夢(mèng)
學(xué)生課堂實(shí)踐案例:網(wǎng)絡(luò)圖片采集–采集壁紙“愛(ài)上紫禁城”
思政融入:了解我國(guó)燦爛文化–保護(hù)歷史建筑、保護(hù)國(guó)寶文物
知識(shí)點(diǎn)3:網(wǎng)頁(yè)信息提取(30分鐘)
(1)網(wǎng)頁(yè)解析及數(shù)據(jù)獲取
Python + requests + xpath + re
(2)數(shù)據(jù)保存為文件的方法
Withopen + urlretrieve
課堂案例演練(15分鐘)
(1)紅色故事匯視頻提取
(2)紅色故事匯視頻保存
(3)紅色故事匯視頻UI播放


思政融入:讓學(xué)生重溫紅色經(jīng)典,堅(jiān)定理想信念
六、教學(xué)反思
(1)深挖思政:持續(xù)將《數(shù)據(jù)采集與處理技術(shù)》這門(mén)專業(yè)課程內(nèi)容和“思政元素”有機(jī)結(jié)合,加大思政內(nèi)容與實(shí)驗(yàn)環(huán)節(jié)結(jié)合,體現(xiàn)課程高度;加大思政內(nèi)容與研討環(huán)節(jié)結(jié)合,體現(xiàn)課程熱度。
(2)價(jià)值提升:持續(xù)探索讓學(xué)生貼近時(shí)代主旋律并利用技術(shù)手段和工具的方法,引導(dǎo)學(xué)生創(chuàng)造價(jià)值,實(shí)現(xiàn)自我提升。
(3)N型教學(xué):通過(guò)案例研討法,讀書(shū)指導(dǎo)法、操作示范法、探索講授法、網(wǎng)絡(luò)教學(xué)法等多種教學(xué)形式,促進(jìn)學(xué)生的全程參與和自主探索,在潛移默化中將社會(huì)主義核心價(jià)值觀植入當(dāng)代青年學(xué)生的骨髓與血液。
數(shù)據(jù)科學(xué)與技術(shù)教研室供稿
責(zé)編:魏東平 審核:董西偉 郭景娟