文章詳情頁

python使用selenium爬蟲知乎的方法示例

瀏覽：89日期：2022-07-06 18:50:26

說起爬蟲一般想到的情況是，使用 python 中都通過 requests 庫獲取網(wǎng)頁內(nèi)容，然后通過 beautifulSoup 進(jìn)行篩選文檔中的標(biāo)簽和內(nèi)容。但是這樣有個(gè)問題就是，容易被反扒機(jī)制所攔住。

反扒機(jī)制有很多種，例如知乎：剛開始只加載幾個(gè)問題，當(dāng)你往下滾動(dòng)時(shí)才會(huì)繼續(xù)往下面加載，而且在往下滾動(dòng)一段距離時(shí)就會(huì)出來一個(gè)登陸的彈框。

這樣的機(jī)制對于通過獲取服務(wù)器返回內(nèi)容的爬蟲方式進(jìn)行了限制，我們只能獲得前幾個(gè)回答，而沒辦法或許后面的回答。

所以需要使用 selenium 模擬真實(shí)瀏覽器進(jìn)行操作。

最終實(shí)現(xiàn)效果如下：

python使用selenium爬蟲知乎的方法示例

前提是需要自行搜索教程安裝：

chromeDriver selenium 庫

想要使用下面代碼的可以直接修改 driver.get() 里的地址，然后爬取結(jié)果最終會(huì)存在message.txt文件中

代碼如下：

from selenium import webdriver # 從selenium導(dǎo)入webdriverfrom selenium.webdriver.common.by import By # 內(nèi)置定位器策略集from selenium.webdriver.support.wait import WebDriverWait # 用于實(shí)例化一個(gè)Driver的顯式等待from selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.action_chains import ActionChainsimport timeoption = webdriver.ChromeOptions()option.add_argument('headless')driver = webdriver.Chrome() # chrome_options=option 這個(gè)參數(shù)設(shè)置之后可以隱藏瀏覽器driver.get(’https://www.zhihu.com/question/22110581’) #修改這里的地址file = open('./messages.txt', 'w')def waitFun(): js = ''' let equalNum = 0; window.checkBottom = false; window.height = 0; window.intervalId = setInterval(()=>{ let currentHeight = document.body.scrollHeight; if(currentHeight === window.height){ equalNum++; if(equalNum === 2){clearInterval(window.intervalId);window.checkBottom = true; } }else{ window.height = currentHeight; window.scrollTo(0,window.height); window.scrollTo(0,window.height-1000); } },1500)''' # 這個(gè)暫停一下是因?yàn)橐却撁鎸⑾旅娴膬?nèi)容加載出,這個(gè) 1500 可以根據(jù)自己的網(wǎng)絡(luò)快慢進(jìn)行適當(dāng)?shù)恼{(diào)節(jié) # 這里需要往上移動(dòng)一下，因?yàn)椴煌弦苿?dòng)一下發(fā)現(xiàn)不會(huì)加載。 driver.execute_script(js)# selenium 可以獲取瀏覽器中 js 的變量。調(diào)用的js returndef getHeight(nice): # 這里獲取 js 中的 checkBottom 變量，作為到底部時(shí)進(jìn)行停止。 js = ''' return window.checkBottom; ''' return driver.execute_script(js)try: # 先觸發(fā)登陸彈窗。 WebDriverWait(driver, 40, 1).until(EC.presence_of_all_elements_located( (By.CLASS_NAME, ’Modal-backdrop’)), waitFun()) # 點(diǎn)擊空白關(guān)閉登陸窗口 ActionChains(driver).move_by_offset(200, 100).click().perform() # 當(dāng)滾動(dòng)到底部時(shí) WebDriverWait(driver, 40, 3).until(getHeight, waitFun()) # 獲取回答 answerElementArr = driver.find_elements_by_css_selector(’.RichContent-inner’) for answer in answerElementArr: file.write(’==================================================================================’) file.write(’n’) file.write(answer.text) file.write(’n’) print(’爬取成功 ’+ str(len(answerElementArr)) +’ 條，存入到 message.txt 文件內(nèi)’)finally: driver.close() #close the driver

這套代碼實(shí)現(xiàn)了打開知乎，然后自動(dòng)向下滑動(dòng)，當(dāng)彈出登陸框時(shí)，自動(dòng)點(diǎn)擊左上角關(guān)閉登陸框。然后繼續(xù)向下滑動(dòng)，加載頁面，直到滑動(dòng)到底部。然后將內(nèi)容寫在 message.txt 文件里面。

selenium 功能非常強(qiáng)大，可以模擬人為在瀏覽器的操作，進(jìn)行輸入、點(diǎn)擊、滑動(dòng)、播放、暫停等等操作，因此也可以用來寫一些腳本，用來刷學(xué)時(shí)，搶課等等。

到此這篇關(guān)于python使用selenium爬蟲知乎的方法示例的文章就介紹到這了,更多相關(guān)python selenium爬蟲知乎內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

python

上一條：詳解Python流程控制語句下一條：python如何快速拼接字符串

相關(guān)文章：

1. bootstrap select2 動(dòng)態(tài)從后臺(tái)Ajax動(dòng)態(tài)獲取數(shù)據(jù)的代碼2. layui Ajax請求給下拉框賦值的實(shí)例3. ASP 處理JSON數(shù)據(jù)的實(shí)現(xiàn)代碼4. python3更改word指定表格單元格內(nèi)容步驟分享5. 小技巧處理div內(nèi)容溢出6. ASP基礎(chǔ)入門第八篇（ASP內(nèi)建對象Application和Session）7. css進(jìn)階學(xué)習(xí) 選擇符8. Spring MVC+ajax進(jìn)行信息驗(yàn)證的方法9. .net6 在中標(biāo)麒麟下的安裝和部署過程10. JSP數(shù)據(jù)交互實(shí)現(xiàn)過程解析

排行榜

					
					Java 3D的動(dòng)畫展示(Part1-使用JMF)
IDEA設(shè)置編碼背景色的方法
小技巧處理div內(nèi)容溢出
IntelliJ IDEA設(shè)置自動(dòng)提示功能快捷鍵的方法
Docker創(chuàng)建容器時(shí)目錄權(quán)限踩坑
JavaScript canvas實(shí)現(xiàn)文字時(shí)鐘
IntelliJ IDEA創(chuàng)建web項(xiàng)目的方法
JSR 196:pluggable authentication for JEE containers 草案發(fā)布
探討JDBC 4.0在設(shè)計(jì)和性能方面的改進(jìn)
JSP數(shù)據(jù)交互實(shí)現(xiàn)過程解析
Docker搭建Harbor公開倉庫的方法示例