色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

用sleep間隔進(jìn)行python反爬蟲(chóng)的實(shí)例講解

瀏覽:3日期:2022-07-03 16:14:27

在找尋材料的時(shí)候,會(huì)看到一些暫時(shí)用不到但是內(nèi)容不錯(cuò)的網(wǎng)頁(yè),就這樣關(guān)閉未免浪費(fèi)掉了,下次也不一定能再次搜索到。有些小伙伴會(huì)提出可以保存網(wǎng)頁(yè)鏈接,但這種基本的做法并不能在網(wǎng)頁(yè)打不開(kāi)后還能看到內(nèi)容。我們完全可以用爬蟲(chóng)獲取這方面的數(shù)據(jù),不過(guò)操作過(guò)程中會(huì)遇到一些阻攔,今天小編就教大家用sleep間隔進(jìn)行python反爬蟲(chóng),這樣就可以得到我們想到的數(shù)據(jù)啦。

步驟

要利用headers拉動(dòng)請(qǐng)求,模擬成瀏覽器去訪問(wèn)網(wǎng)站,跳過(guò)最簡(jiǎn)單的反爬蟲(chóng)機(jī)制。

獲取網(wǎng)頁(yè)內(nèi)容,保存在一個(gè)字符串content中。

構(gòu)造正則表達(dá)式,從content中匹配關(guān)鍵詞pattern獲取下載鏈接。需要注意的是,網(wǎng)頁(yè)中的關(guān)鍵詞出現(xiàn)了兩遍(如下圖),所以我們要利用set()函數(shù)清除重復(fù)元素。

第三步是遍歷set之后的結(jié)果,下載鏈接。

設(shè)置time.sleep(t),無(wú)sleep間隔的話,網(wǎng)站認(rèn)定這種行為是攻擊,所以我們隔一段時(shí)間下載一個(gè),反反爬蟲(chóng)。

具體代碼

import urllib.request# url requestimport re # regular expressionimport os # dirsimport time’’’url 下載網(wǎng)址pattern 正則化的匹配關(guān)鍵詞Directory 下載目錄def BatchDownload(url,pattern,Directory): # 拉動(dòng)請(qǐng)求,模擬成瀏覽器去訪問(wèn)網(wǎng)站->跳過(guò)反爬蟲(chóng)機(jī)制 headers = {’User-Agent’, ’Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36’} opener = urllib.request.build_opener() opener.addheaders = [headers] # 獲取網(wǎng)頁(yè)內(nèi)容 content = opener.open(url).read().decode(’utf8’) # 構(gòu)造正則表達(dá)式,從content中匹配關(guān)鍵詞pattern raw_hrefs = re.findall(pattern, content, 0) # set函數(shù)消除重復(fù)元素 hset = set(raw_hrefs) # 下載鏈接 for href in hset: # 之所以if else 是為了區(qū)別只有一個(gè)鏈接的特別情況 if(len(hset)>1): link = url + href[0] filename = os.path.join(Directory, href[0]) print('正在下載',filename) urllib.request.urlretrieve(link, filename) print('成功下載!') else: link = url +href filename = os.path.join(Directory, href) # 無(wú)sleep間隔,網(wǎng)站認(rèn)定這種行為是攻擊,反反爬蟲(chóng) time.sleep(1) #BatchDownload(’https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/’,# ’(Storm-Data-Export-Format.docx)’,# ’E:stormeventscsvfiles’) # ’(Storm-Data-Export-Format.pdf)’,# ’(StormEvents_details-ftp_v1.0_d(d*)_c(d*).csv.gz)’,# ’(StormEvents_fatalities-ftp_v1.0_d(d*)_c(d*).csv.gz)’,# ’(StormEvents_locations-ftp_v1.0_d(d*)_c(d*).csv.gz)’,#BatchDownload(’https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/’,# ’(ugc_areas.csv)’,# ’E:stormeventscsvfileslegacy’)結(jié)果展示

為了讓大家能夠清楚的知道整個(gè)反爬過(guò)程,這里小編把思路和代碼都羅列了出來(lái)。其中可以time.sleep(t)解除網(wǎng)站對(duì)于爬蟲(chóng)的阻攔問(wèn)題,著重標(biāo)記了出來(lái)

用sleep間隔進(jìn)行python反爬蟲(chóng)的實(shí)例講解

到此這篇關(guān)于用sleep間隔進(jìn)行python反爬蟲(chóng)的實(shí)例講解的文章就介紹到這了,更多相關(guān)如何使用sleep間隔進(jìn)行python反爬蟲(chóng)內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 黄色成人免费观看 | 亚洲在线观看免费 | 欧美日韩一区二区三区在线 | 国产成人aaa在线视频免费观看 | 女人张开腿给男人桶爽免费 | 久久综合久久综合九色 | 一级片在线免费看 | 一本大道香蕉大vr在线吗视频 | 久久欧美精品 | 玖草在线播放 | 男人的天堂精品国产一区 | 国内精品久久久久久久亚洲 | 久久国产精品成人免费 | 久揄揄鲁一二三四区高清在线 | 亚洲欧美日韩在线一区二区三区 | 日韩精品中文字幕在线 | 成年人免费网站视频 | 男女生性毛片免费观看 | 性色午夜视频免费男人的天堂 | 欧美亚洲另类久久综合 | 东凛中文字幕 | 在线看黄网址 | 国产成人久久精品一区二区三区 | 欧美三级 欧美一级 | 男人一进一出桶女人视频 | 久久精品国产亚洲精品2020 | 国产精品高清全国免费观看 | 亚洲第五色综合网啪啪 | 免费国产高清精品一区在线 | 亚洲综合精品成人 | 亚洲七七久久精品中文国产 | 国产99视频精品免费视频免里 | 99这里只有精品视频 | 美女一级片视频 | 欧美大片在线播放 | 97久久免费视频 | 日韩欧美一区二区三区在线观看 | 亚洲日本在线观看视频 | 久久99精品国产免费观看 | 日韩欧美精品一区二区三区 | 欧美一级精品高清在线观看 |