什么是Selenium

Selenium是一個(gè)用于測試網(wǎng)站的自動(dòng)化測試工具，支持各種瀏覽器包括Chrome、Firefox、Safari等主流界面瀏覽器，同時(shí)也支持phantomJS無界面瀏覽器。

1.準(zhǔn)備工作

由于Selenium的環(huán)境配置過程比較繁瑣，我會(huì)盡可能詳細(xì)的對其進(jìn)行講解。

1.1 安裝Selenium

由于Selenium的環(huán)境配置過程比較繁瑣，我會(huì)多花一些篇幅對其進(jìn)行講解?？梢栽赾md命令框輸入以下內(nèi)容安裝Selenium庫。

pip install Selenium

1.2 瀏覽器驅(qū)動(dòng)安裝

Selenium的使用必須有相應(yīng)瀏覽器的webdriver，以Chrome瀏覽器為例，可以在這個(gè)鏈接查看自己的瀏覽器對應(yīng)的Chromedriver的版本。

1.3 環(huán)境變量添加

設(shè)置瀏覽器的地址非常簡單。我們可以手動(dòng)創(chuàng)建一個(gè)存放瀏覽器驅(qū)動(dòng)的目錄， , 將下載的瀏覽器驅(qū)動(dòng)文件丟到該目錄下。然后在我的電腦–>屬性–>系統(tǒng)設(shè)置–>高級–>環(huán)境變量–>系統(tǒng)變量–>Path，將該目錄添加到Path的值中。如果配置變量有問題，可以參照這個(gè)鏈接

注意，如果系統(tǒng)報(bào)錯(cuò)為：

selenium.common.exceptions.SessionNotCreatedException: Message: session not created:This version of ChromeDriver only supports Chrome version***

表示當(dāng)前下載的Chromedriver的版本與自己瀏覽器的版本無法對應(yīng)，可以通過Chrome的幫助查看自己的瀏覽器版本

1.4 小試牛刀

接下來就可以測試我們的selenium是不是可以正常使用了，以一個(gè)簡單的例子開始：驅(qū)動(dòng)瀏覽器打開百度。

from selenium import webdriver

url='https://www.baidu.com/'
browser=webdriver.Chrome()
browser.get(url)

如果到這里都沒有問題的話，就已經(jīng)可以開始進(jìn)行下一步了。

2.相關(guān)步驟

2.1 引入相關(guān)模塊

首先導(dǎo)入本次爬蟲任務(wù)需要的相關(guān)庫：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import time

其中selenium.webdriver.common.by 主要用于搜尋網(wǎng)頁元素的id信息，用于定位按鈕、輸入框之類的元素，WebDriverWait主要是用于等待網(wǎng)頁響應(yīng)完成，因?yàn)榫W(wǎng)頁沒有完全加載，就使用find_elements_by_**等方法，就會(huì)出現(xiàn)找不到對應(yīng)元素的情況。

2.2 獲取信息

movies=browser.find_elements_by_class_name('movie-name-text')
  names=[]
  for item in movies:
    if item.text!='':
      names.append(item.text)

其中find_elements_by_class_name就是通過查找class_name來鎖定影片名稱這個(gè)信息。

審查元素后右鍵即可Copy這個(gè)元素的JS path，selector等信息，可以鎖定這個(gè)元素及其類似的其他元素的信息。以‘霸王別姬'這部影片為例，他的selector就是#content > div > div.article > div.movie-list-panel.pictext > div:nth-child(1) > div > div > div.movie-name > span.movie-name-text > a那么就可以用下面的代碼來鎖定影片名稱。

movies=browser.find_elements_by_class_name('#content > div > div.article > div.movie-list-panel.pictext > div:nth-child(1) > div > div > div.movie-name > span.movie-name-text > a')

2.3 設(shè)置等待時(shí)間

前面已經(jīng)說過，如果頁面還沒有完全加載出，我們就進(jìn)行元素的查找，返回的很可能是空列表，所以我們需要設(shè)置等待時(shí)間。
這里就涉及到顯示等待和隱式等待的區(qū)別。

2.3.1 顯式等待
每隔一段時(shí)間檢測一次當(dāng)前頁面元素是否存在，如果超過設(shè)置時(shí)間檢測不到則拋出異常（TimeoutException）代碼格式：WebDriverWait(driver, timeout, poll_frequency=0.5, ignored_exceptions=None)

2.3.2 隱式等待
隱式等待是通過一定的時(shí)長等待頁面上某個(gè)元素加載完成。如果超出了設(shè)置的時(shí)長元素還沒有被加載，則拋出NoSuchElementException異常。
操作如下：implicitly_wait()
當(dāng)使用了隱式等待執(zhí)行測試的時(shí)候，如果 WebDriver沒有在 DOM中找到元素，將繼續(xù)等待，超出設(shè)定時(shí)間后則拋出找不到元素的異常換句話說，當(dāng)查找元素或元素并沒有立即出現(xiàn)的時(shí)候，隱式等待將等待一段時(shí)間再查找 DOM，默認(rèn)的時(shí)間是0，一旦設(shè)置了隱式等待，則它存在整個(gè) WebDriver 對象實(shí)例的聲明周期中，隱式的等到會(huì)讓一個(gè)正常響應(yīng)的應(yīng)用的測試變慢，它將會(huì)在尋找每個(gè)元素的時(shí)候都進(jìn)行等待，這樣會(huì)增加整個(gè)測試執(zhí)行的時(shí)間。我們這里使用的就是隱式等待。

def get_page():
  browser.implicitly_wait(10)
  for i in range(50):
    time.sleep(0.3)
    browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    print('正在下滑第{}次'.format(i))
    print('-------------')
  #time.sleep(10)
  print("*****請等待幾秒*****")
  time.sleep(10)
  when=wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#content > div > div.article > div.movie-list-panel.pictext > div:nth-child(380) > div > a > img')))

2.3.3 強(qiáng)制等待（補(bǔ)充）
強(qiáng)制等待就是使用python自帶的time模塊，設(shè)置等待時(shí)間，操作如下：time.sleep(time)一般可以用強(qiáng)制等待來限制計(jì)算機(jī)頻繁訪問目標(biāo)鏈接導(dǎo)致驗(yàn)證問題。

2.4 頁面自動(dòng)下滑

頁面下滑過程比較簡單，不多贅述。其實(shí)現(xiàn)過程如下：

browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')#下滑操作

2.5 保存文件

爬取出的數(shù)據(jù)是列表形式，使用pandas的to_csv方法就可以保存到本地了。

rate,miscs,actor_list,ranks,playable_sign,names=get_page()
  datas=pd.DataFrame({'names':names,'rank':ranks,'分類':miscs,'評分':rate})
  try:
    datas.to_csv('機(jī)器學(xué)習(xí)\爬蟲\douban_0327.csv',encoding='utf_8_sig')
    print("保存成功")
    print(datas)

3.完整代碼

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import pandas as pd
import time

url='https://movie.douban.com/typerank?type_name=愛情片type=13interval_id=100:90action='
options=webdriver.ChromeOptions()
options.add_argument('lang=zh_CN.UTF-8')
options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"')
browser=webdriver.Chrome()
browser.get(url)
wait=WebDriverWait(browser,10)
def get_page():
  browser.implicitly_wait(10)
  for i in range(50):
    time.sleep(0.3)
    browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')#下滑操作
    print('正在下滑第{}次'.format(i))
    print('-------------')
  #time.sleep(10)
  print("*****請等待幾秒*****")
  time.sleep(10)
  when=wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#content > div > div.article > div.movie-list-panel.pictext > div:nth-child(380) > div > a > img')))
#-----------------------------------------------------------------
  movies=browser.find_elements_by_class_name('movie-name-text')
  names=[]
  for item in movies:
    if item.text!='':
      names.append(item.text)
  print("爬取成功")
  print(len(names))
#---------------------------------------------------------------
  playables=browser.find_elements_by_class_name('playable-sign')
  playable_sign=[]
  for sign in playables:
    if sign.text!='':
      playable_sign.append(sign.text)
  print('爬取成功')
  print(len(playable_sign))
#------------------------------------------------------------
  rank_names=browser.find_elements_by_class_name('rank-num')
  ranks=[]
  for rank in rank_names:
    if rank.text!='':
      ranks.append(rank.text)
  print('爬取成功')
  print(len(ranks))
#---------------------------------------------------------
  actors=browser.find_elements_by_class_name('movie-crew')
  actor_list=[]
  for actor in actors:
    if actor.text!='':
      actor_list.append(actor.text)
  print('爬取成功')
  print(len(actor_list))
#----------------------------------------------------------
  clasic=browser.find_elements_by_class_name('movie-misc')
  miscs=[]
  for misc in clasic:
    if misc.text!='':
      miscs.append(misc.text)
  print('爬取成功')
  print(len(miscs))
#-----------------------------------------------------------
  rates=browser.find_elements_by_class_name('movie-rating')
  rate=[]
  for score in rates:
    if score.text!='':
      rate.append(score.text)
  print('爬取成功')
  print(len(rate))
#-----------------------------------------------------------
  '''
  links=browser.find_elements_by_class_name('movie-content')
  for link in links:
    link_img=link.get_attribute('data-original')
    print(link_img)
  '''
  return rate,miscs,actor_list,ranks,playable_sign,names

if __name__ == "__main__":
  rate,miscs,actor_list,ranks,playable_sign,names=get_page()
  datas=pd.DataFrame({'names':names,'rank':ranks,'分類':miscs,'評分':rate})
  try:
    datas.to_csv('機(jī)器學(xué)習(xí)\爬蟲\douban_0327.csv',encoding='utf_8_sig')
    print("保存成功")
    print(datas)
  except:
    print('保存失敗')

到此這篇關(guān)于詳解使用Selenium爬取豆瓣電影前100的愛情片相關(guān)信息的文章就介紹到這了,更多相關(guān)Selenium爬取豆瓣電影內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python Selenium爬取內(nèi)容并存儲(chǔ)至MySQL數(shù)據(jù)庫的實(shí)現(xiàn)代碼
Python使用Selenium+BeautifulSoup爬取淘寶搜索頁
Scrapy基于selenium結(jié)合爬取淘寶的實(shí)例講解
python爬蟲系列Selenium定向爬取虎撲籃球圖片詳解
Python使用Selenium爬取淘寶異步加載的數(shù)據(jù)方法
scrapy與selenium結(jié)合爬取數(shù)據(jù)(爬取動(dòng)態(tài)網(wǎng)站)的示例代碼
詳解python selenium 爬取網(wǎng)易云音樂歌單名
Python selenium爬取微信公眾號文章代碼詳解
java+selenium爬取圖片簽名的方法
Python selenium爬取微博數(shù)據(jù)代碼實(shí)例

標(biāo)簽：濟(jì)南喀什長沙崇左海南山西山西安康

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《詳解使用Selenium爬取豆瓣電影前100的愛情片相關(guān)信息》，本文關(guān)鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。