一、項(xiàng)目介紹

爬取網(wǎng)址：CSDN首頁的Python、Java、前端、架構(gòu)以及數(shù)據(jù)庫欄目。簡單分析其各自的URL不難發(fā)現(xiàn)，都是https://www.csdn.net/nav/+欄目名樣式，這樣我們就可以爬取不同欄目了。

以Python目錄頁為例，如下圖所示：

爬取內(nèi)容：每篇文章的博主信息，如博主姓名、碼齡、原創(chuàng)數(shù)、訪問量、粉絲數(shù)、獲贊數(shù)、評論數(shù)、收藏?cái)?shù)

（考慮到周排名、總排名、積分都是根據(jù)上述信息綜合得到的，對后續(xù)分析沒實(shí)質(zhì)性的作用，這里暫不爬取。）

不想看代碼的朋友可直接跳到第三部分~

二、Selenium爬取

分析目錄頁可知文章是需要動態(tài)加載的，此時(shí)需要selenium模擬瀏覽器不斷下拉才能獲取新的文章。文章的鏈接如下所示：

1、第一種爬取思路（未果）

思路圖如下：

執(zhí)行的關(guān)鍵代碼如下：

from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/nav/python')
#下拉若干次
for i in range(10):
        driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
	time.sleep(1)
#定位所有鏈接
blog_url = driver.find_elements_by_css_selector('div.title > h2 > a') #注意:這里保存的是所有element對象
for i in range(len(blog_url)):
	url = blog_url[i].get_attribute('href')
	driver.get(url)
	#------------相關(guān)信息爬取(省略)----------
	driver.back() #返回目錄頁

理論上，這段代碼看起來是可以實(shí)現(xiàn)要求的，但實(shí)際上會遇到以下兩個(gè)問題！

（1）元素定位問題

報(bào)錯的原因：selenium當(dāng)打開新的頁面后，原來定位過的元素都會失效，需要重新定位元素。上面的driver.back()相當(dāng)于打開的新的頁面（但是對于我們來說只是返回原來的頁面）

解決方式：只要每次返回目錄頁后重新定位元素即可，如下所示：

for i in range(len(blog_url)):
	blog_refind_url = driver.find_elements_by_css_selector('div.title > h2 > a')  #重新定位
	url = blog_refind_url[i].get_attribute('href')
	driver.get(url)
	#------------相關(guān)信息爬取(省略)----------
	driver.back() #返回目錄頁

重新定位后，不難發(fā)現(xiàn)，這必須要求blog_url和blog_refind_url這兩個(gè)列表的長度一致啊！那也就是：每次返回目錄頁后，需要保持在上一次瀏覽的位置！ 由此引發(fā)了第二個(gè)問題：定位元素的不一致。

（2）定位元素不一致

我們在獲取所有的文章鏈接之前，首先進(jìn)行的下滑頁面的操作。而每次driver.back()之后，頁面都會回到最初的位置！這就很頭疼，如果要保持一樣的瀏覽位置，難道每次返回后都要下拉相同次數(shù)的頁面么？那么此時(shí)我們需要解決的問題則是：如何保持上一級頁面的瀏覽位置。emm，查了一些資料，發(fā)現(xiàn)這個(gè)需求是和javascript相關(guān)的。詳細(xì)可參考這篇博客：js:返回到頁面時(shí)滾動到上次瀏覽位置

大致解決思路：保存每次下滑的位置，然后最終調(diào)用最后一次下滑的位置。但歸根到底，還是需要每次滑動頁面，依舊很麻煩，這種思路到這也只能不了了之了。（會javascript的朋友可以嘗試如何讓頁面直接恢復(fù)到上一級頁面瀏覽的位置）

2、第二種爬取思路（成功）

不過，仔細(xì)思考一下，上面兩個(gè)問題的來源關(guān)鍵在于selenium訪問頁面后，元素會重新定位。而我們第一步定位所有文章鏈接時(shí)保存的列表，里面的元素都是element對象（它是會隨著頁面變化而改變的?。?/strong>。所以，我們只要保存每個(gè)文章的url到一個(gè)列表，挨個(gè)訪問每個(gè)url，不就可以了？

思路圖如下：

兩種思路的對比與思考：前者裝有所有文章的列表里都是element對象，而后者裝有所有文章的列表里都是url。后者免去了再返回頁面這一操作，相當(dāng)于將一個(gè)爬取二級頁面問題轉(zhuǎn)化為一級頁面問題！

全部代碼如下：

from selenium import webdriver import os os.chdir('C:/Users/dell/Desktop') import time import pandas as pd def scroll_down(driver,num): for i in range(num): driver.execute_script('window.scrollTo(0,document.body.scrollHeight)') time.sleep(1) def save_data(df): data=pd.DataFrame(df,columns=['blog_name','code_time','blog_num', 'view_num','fans_num','likes_num', 'comments_num','collections_num']) data.to_csv('csdn_user.csv',index=False,encoding='gb18030') def crawler_csdn(parts_list): opt = webdriver.ChromeOptions() opt.add_experimental_option('excludeSwitches',['enable-automation']) opt.add_argument('--headless') opt.add_argument('--disable-gpu') opt.add_argument('blink-settings=imagesEnabled=false') driver = webdriver.Chrome(options=opt) df = [] for part in parts_list: count=0 url_des='https://www.csdn.net/nav/'+part driver.get(url_des) scroll_down(driver,30) time.sleep(2) print('開始爬取{}部分'.format(part)) blog_list=[] blog_url = driver.find_elements_by_css_selector('div.title > h2 > a') for url in blog_url: blog_list.append(url.get_attribute('href')) print('共{}個(gè)博主'.format(len(blog_list))) for i in range(len(blog_list)): try: driver.get(blog_list[i]) blog_name = driver.find_element_by_css_selector('div.profile-intro-name-boxTop > a >span.name').text code_time = driver.find_element_by_css_selector('span.personal-home-page.personal-home-years').text blog_num = driver.find_element_by_css_selector( 'div.data-info.d-flex.item-tiling>dl.text-center>a>dt>span.count').text inf_list = driver.find_elements_by_css_selector('div.data-info.d-flex.item-tiling>dl.text-center>dt>span.count') df.append([blog_name, code_time, blog_num, inf_list[0].text, inf_list[2].text, inf_list[3].text, inf_list[4].text, inf_list[5].text]) count += 1 print('第{}個(gè)博主信息爬取完成'.format(count)) except: print('相關(guān)信息不全') print('{}部分爬取完成'.format(part)) return df if __name__ =='__main__': start = time.time() parts_list=['Python','Java','web','arch','db'] df = crawler_csdn(parts_list) save_data(df) end = time.time() spend_time = int((end-start)/60) print('共花費(fèi){}分鐘'.format(spend_time))

爬取結(jié)果如下：

三、Webscraper爬取

之前的博客分享過Webscraper是一種輕量級的爬取軟件。不想看代碼的朋友可以用它來復(fù)現(xiàn)上述爬取過程。（注：以下爬取過程只是針對首頁的某一個(gè)欄目）

最終的爬取線路圖如下

依舊以首頁的Python欄為例：

1、創(chuàng)建下拉對象

這個(gè)container只是一個(gè)ID，它可以取任意名字的。其他的設(shè)置如下圖所示：

Type勾選Element_scroll_down(負(fù)責(zé)下拉頁面)勾選上Multiple后，點(diǎn)擊多個(gè)文章所在模塊后，則會出現(xiàn)紅色選定。此時(shí)點(diǎn)擊Done selecting，完成selector的配置。Delay設(shè)置為2000毫秒（給予頁面反應(yīng)時(shí)間）

此外，需要在selector后面加上:nth-of-type(-n+300)，控制爬取的條數(shù)，否則它會一直下拉頁面！（這里的300則代表需要爬取的總條數(shù)）最終，selector的配置如下：

2、創(chuàng)建文章鏈接對象

保存container的selector后，點(diǎn)擊進(jìn)入下一層，創(chuàng)建如下selector

具體內(nèi)容如下：

Type選擇LinkSelector中不勾選Multiple，h2 a則是文章鏈接定位的位置

Link不方便定位的話，可以先選擇text進(jìn)行定位，然后得到位置后，再復(fù)制到link這即可。

3、創(chuàng)建博主信息對象

同理，保存完inf的selector后，再點(diǎn)擊進(jìn)入下一層，依次創(chuàng)建各類信息的selector，如下所示：

以name為例，其內(nèi)容如下：

type選擇text，相應(yīng)的選擇器內(nèi)容只要鼠標(biāo)點(diǎn)擊博主姓名即可獲得。

這樣，我們就完成了所有的準(zhǔn)備工作，接下來就可爬取啦~所有延遲時(shí)間均設(shè)置為2000ms

最終爬取結(jié)果如下（這里僅作演示，只爬取了七條）：

本次創(chuàng)建的sitemap如下，有興趣的朋友可以自己實(shí)驗(yàn)下，只需要import sitemap即可

{"startUrl":"https://blog.csdn.net/nav/python","selectors":[{"parentSelectors": ["_root"],"type":"SelectorElementScroll","multiple":true,"id":"container","selector":"ul.feedlist_mod li.clearfix:nth-of-type(-n+300)","delay":"2000"},{"parentSelectors": ["container"],"type":"SelectorLink","multiple":false,"id":"inf","selector":"h2 a","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.profile-intro-name-boxTop span.name","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"blog_num","selector":"dl.text-center:nth-of-type(1) a span.count","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"code_time","selector":"span.personal-home-page.personal-home-years","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"views_num","selector":"div.data-info:nth-of-type(2) dl.text-center > dt span.count","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"fans","selector":"dl#fanBox.text-center span.count","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"agreement","selector":"dl.text-center:nth-of-type(3) > dt span.count","regex":"","delay":""},{"parentSelectors": ["inf"],"type":"SelectorText","multiple":false,"id":"comment","selector":"div.data-info:nth-of-type(4) dl.text-center:nth-of-type(4) span.count","regex":"","delay":""},{"parentSelectors":["inf"],"type":"SelectorText","multiple":false,"id":"collection_num","selector":"dl.text-center:nth-of-type(5) span.count","regex":"","delay":""}],"_id":"csdn"}

總結(jié)：Webscraper雖然簡單易操作，速度也和selenium差不多，但每次只能爬一個(gè)網(wǎng)址，需要連續(xù)爬取多個(gè)網(wǎng)址，還是得碼代碼~
以上就是使用python快速爬取CSDN博主信息的詳細(xì)內(nèi)容，更多關(guān)于python爬取CSDN博主信息的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:
Python爬蟲之爬取二手房信息
Python爬取OPGG上英雄聯(lián)盟英雄勝率及選取率信息的操作
基于python制作簡易版學(xué)生信息管理系統(tǒng)
Python如何利用正則表達(dá)式爬取網(wǎng)頁信息及圖片
python爬取企查查企業(yè)信息之selenium自動模擬登錄企查查
使用python實(shí)現(xiàn)學(xué)生信息管理系統(tǒng)
python實(shí)現(xiàn)學(xué)生信息管理系統(tǒng)源碼
python 獲取計(jì)算機(jī)的網(wǎng)卡信息
python批量提取圖片信息并保存的實(shí)現(xiàn)
利用Python實(shí)現(xiàn)學(xué)生信息管理系統(tǒng)的完整實(shí)例
python中的被動信息搜集

標(biāo)簽：長沙山西山西安康海南崇左濟(jì)南喀什
巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《用python爬蟲爬取CSDN博主信息》，本文關(guān)鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。

相關(guān)文章

電銷機(jī)器人到底如何運(yùn)作的？
很多人對電銷機(jī)器人到底如何運(yùn)作存在著巨大的好奇心，那么今天，小編就帶大家看一下機(jī)器人的運(yùn)作流程！電銷...
10-24

電話機(jī)器人的興起對電銷行業(yè)來說是“驚喜”還
隨著互聯(lián)網(wǎng) 大數(shù)據(jù) 的普及，許多電銷行業(yè)如雨后春筍般爭先恐后地冒出來。而今電銷行業(yè)的混亂，讓各位涉足電銷...
10-24

百應(yīng)電話機(jī)器人有哪些功能？百應(yīng)電話機(jī)器人好
百應(yīng) 智能電話機(jī)器人能夠協(xié)助企業(yè)進(jìn)行呼入接待、外呼回訪等服務(wù)場景，能夠經(jīng)過不斷的培訓(xùn)學(xué)習(xí)，逐步完善成專...
10-24

客服外呼系統(tǒng)都有哪些優(yōu)勢？
當(dāng)前呼叫中心電話系統(tǒng)被企業(yè)用于業(yè)務(wù) 電銷以及客戶服務(wù)，然而隨著企業(yè)需求不斷擴(kuò)大，原來傳統(tǒng)的自建呼叫中心...
10-24

電銷機(jī)器人效果怎么樣？智能電話機(jī)器人可行嗎
幾百數(shù)千年后，或許沒人會記得卡斯帕羅夫曾是世界第一的圍棋高手，但人們會記得，他敗給了電腦深藍(lán)。那雖算不...
10-24

百應(yīng)智能外呼系統(tǒng)，貸后管理科技升級
去年底開始，接連出臺政策和法規(guī)加強(qiáng)對消費(fèi) 金融等金融形態(tài)進(jìn)行規(guī)范。強(qiáng) 監(jiān)管下，行業(yè)走向規(guī)范發(fā)展，行業(yè)競...
10-24

百應(yīng)智能外呼系統(tǒng)引領(lǐng)外呼行業(yè)新風(fēng)向
電話銷售：您好，我這邊是XX地產(chǎn)，給您推薦一下精裝酒店式公寓，有興趣了解一下嗎? 客戶：具體位置在哪里啊?...
10-24

小貸企業(yè)為什么需要電銷機(jī)器人？
隨著信貸行業(yè)逐步進(jìn)入我們的生活中，越來越多人選擇借款來處理資金難題。信貸企業(yè)不斷涌現(xiàn)，業(yè)務(wù)開展迅猛，行...
10-24

雷霆電話機(jī)器人是如何轉(zhuǎn)接人工的？
當(dāng)我們在撥通移動、聯(lián)通或電信運(yùn)營商的客服電話時(shí)，總會要先經(jīng)過一些機(jī)械化的選擇，然后成功連接人工坐席反饋...
10-24

米卡迪電話機(jī)器人效果怎么樣？
外呼電話機(jī)器人，之所以能智能的與客戶無憂交流，因?yàn)檫\(yùn)用了下面這么多高技術(shù)。 ASR 語音識別米卡迪電話機(jī)器人...
10-24

靈聲電話機(jī)器人效果怎么樣？好用嗎
外呼電話機(jī)器人，之所以能智能的與客戶無憂交流，因?yàn)檫\(yùn)用了下面這么多高技術(shù)。靈聲電話機(jī)器人效果怎么樣？...
10-24

電銷機(jī)器人要想效果好，話術(shù)定制有多重要
電話機(jī)器人是基于智能語音技術(shù)的智能營銷工具。它會像真人一樣主動撥打客戶的電話，介紹產(chǎn)品并回答客戶的咨詢...
10-24

智能電話機(jī)器人的實(shí)現(xiàn)原理，使用安全嗎？
隨著科學(xué)技術(shù)的進(jìn)步和人工智能的發(fā)展，越來越多的智能產(chǎn)品已經(jīng)進(jìn)入我們的工作和生活。智能手機(jī)、智能電視、智...
10-24

福州哪里有電話機(jī)器人研發(fā)公司？
人工智能再次成為各行各業(yè)關(guān)注的焦點(diǎn)，自從這個(gè)概念首次提出以來，60年已經(jīng)過去了。自從AlphaGo以巨大優(yōu)勢擊敗人...
10-24

電銷機(jī)器人銷售能力怎么樣？
自從電話機(jī)器人一出現(xiàn)，在電銷行業(yè)火爆了起來。面對電話機(jī)器人的各種優(yōu)勢，企業(yè)躍躍欲試，但又害怕效果不理...
10-24

推薦文章

windows下?lián)翊蜷_文件使用的默認(rèn)應(yīng)用程序的方法

centos6搭建gitlab的方法步驟

windows11怎么設(shè)置屏幕休眠時(shí)間? win11設(shè)置屏幕使用時(shí)間的技巧

下一代呼叫中心技術(shù)發(fā)展與優(yōu)勢

將u深度pe系統(tǒng)注冊表進(jìn)行備份的圖文教程

對馳名商標(biāo)的特別保護(hù)

Win8.1設(shè)置任務(wù)欄預(yù)覽窗口大小以方便查看

盤點(diǎn)失敗O2O的十大共同死因

上一篇：tensorflow-gpu2.3版本安裝步驟

下一篇：pandas讀取excel時(shí)獲取讀取進(jìn)度的實(shí)現(xiàn)

一起分享吧

佳木斯湛栽影视文化发展公司

用python爬蟲爬取CSDN博主信息

一、項(xiàng)目介紹