佳木斯湛栽影视文化发展公司

主頁 > 知識庫 > Python爬蟲之自動爬取某車之家各車銷售數(shù)據(jù)

Python爬蟲之自動爬取某車之家各車銷售數(shù)據(jù)

熱門標(biāo)簽:服務(wù)器配置 鐵路電話系統(tǒng) 網(wǎng)站文章發(fā)布 呼叫中心市場需求 智能手機(jī) 美圖手機(jī) 檢查注冊表項(xiàng) 銀行業(yè)務(wù)

一、目標(biāo)網(wǎng)頁分析

目標(biāo)網(wǎng)站是某車之家關(guān)于品牌汽車車型的口碑模塊相關(guān)數(shù)據(jù),比如我們演示的案例奧迪Q5L的口碑頁面如下:

https://k.autohome.com.cn/4851/#pvareaid=3311678

為了演示方式,大家可以直接打開上面這個網(wǎng)址,然后拖到全部口碑位置,找到我們本次采集需要的字段如下圖所示:

采集字段

我們進(jìn)行翻頁發(fā)現(xiàn),瀏覽器網(wǎng)址發(fā)生了變化,大家可以對下如下幾頁的網(wǎng)址找出規(guī)律:

https://k.autohome.com.cn/4851/index_2.html#dataList
https://k.autohome.com.cn/4851/index_3.html#dataList
https://k.autohome.com.cn/4851/index_4.html#dataList

對于上面寫網(wǎng)址,我們發(fā)現(xiàn)可變部分是車型(如4851)以及頁碼(如2,3,4),于是我們可以構(gòu)建url參數(shù)如下:

# typeid是車型,page是頁碼
url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'

二、數(shù)據(jù)請求

通過簡單的測試,發(fā)現(xiàn)似乎不存在反爬,那就簡單了。

我們先引入需要用到的庫:

import requests
import pandas as pd
import html
from lxml import etree
import re

然后創(chuàng)建一個數(shù)據(jù)請求的函數(shù)備用:

# 獲取網(wǎng)頁數(shù)據(jù)(傳遞參數(shù) 車型typeid和頁碼數(shù))
def get_html(typeid,page):
    # 組合出請求地址
    url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
    # 請求數(shù)據(jù)(因?yàn)闆]有反爬,這里沒有設(shè)置請求頭和其他參數(shù))
    r = requests.get(url)
    # 請求的網(wǎng)頁數(shù)據(jù)中有網(wǎng)頁特殊字符,通過以下方法進(jìn)行解析
    r = html.unescape(r.text)
    # 返回網(wǎng)頁數(shù)據(jù)
    return r

請求來的數(shù)據(jù)就是網(wǎng)頁html文本,我們接下來采用re解析出一共多少頁碼,再用xpath進(jìn)行采集字段的解析。

三、數(shù)據(jù)解析

由于需要進(jìn)行翻頁,這里我們可以先通過re正則表達(dá)式獲取總頁碼。通過查看網(wǎng)頁數(shù)據(jù),我們發(fā)現(xiàn)總頁碼可以通過如下方式獲?。?/p>

try:
    pages = int(re.findall(r'共(\d+)頁',r)[0])
# 如果請求不到頁數(shù),則表示該車型下沒有口碑?dāng)?shù)據(jù)
except :
    print(f'{name} 沒有數(shù)據(jù)!')
    continue

總頁碼采集

關(guān)于待采集字段信息,我們發(fā)現(xiàn)都在節(jié)點(diǎn)div[@class="mouthcon-cont-left"]里,可以先定位這個節(jié)點(diǎn)數(shù)據(jù),然后再進(jìn)行逐一解析。

待采集字段信息所在節(jié)點(diǎn)

此外,我們發(fā)現(xiàn)每一頁最多15個車型口碑?dāng)?shù)據(jù),因此我們每頁可以定位15個待采集信息數(shù)據(jù)集,遍歷采集代碼:

divs = r_html.xpath('.//div[@class="mouthcon-cont-left"]')
# 遍歷每個全部的車輛銷售信息
for div in divs:
    # 找到車輛銷售信息所在的地方
    mt = div.xpath('./div[@class="choose-con mt-10"]')[0]
    # 找到所需字段
    infos = mt.xpath('./dl[@class="choose-dl"]')
    # 設(shè)置空的字典,用于存儲單個車輛信息
    item = {}
    # 遍歷車輛信息字段
    for info in infos:
        key = info.xpath('.//dt/text()')[0]
        # 當(dāng)字段為購買車型時,進(jìn)行拆分為車型和配置
        if key == '購買車型':
            item[key] = info.xpath('.//dd/a/text()')[0]
            item['購買配置'] = info.xpath('.//span[@class="font-arial"]/text()')[0]
        # 當(dāng)字段為購車經(jīng)銷商時,需要獲取經(jīng)銷商的id參數(shù),再調(diào)用api獲取其真實(shí)經(jīng)銷商信息(這里有坑)
        elif key == '購車經(jīng)銷商':
            # 經(jīng)銷商id參數(shù)
            經(jīng)銷商id = info.xpath('.//dd/a/@data-val')[0] +','+ info.xpath('.//dd/a/@data-evalid')[0]
            # 組合經(jīng)銷商信息請求地址
            jxs_url = base_jxs_url+經(jīng)銷商id+'|'
            # 請求數(shù)據(jù)(為json格式)
            data = requests.get(jxs_url)
            j = data.json()
            # 獲取經(jīng)銷商名稱
            item[key] = j['result']['List'][0]['CompanySimple']
        else:
            # 其他字段時,替換轉(zhuǎn)義字符和空格等為空
            item[key] = info.xpath('.//dd/text()')[0].replace("\r\n","").replace(' ','').replace('\xa0','')

四、數(shù)據(jù)存儲

由于沒啥反爬,這里直接將采集到的數(shù)據(jù)轉(zhuǎn)化為pandas.DataFrame類型,然后存儲為xlsx文件即可。

df = pd.DataFrame(items)
df = df[['購買車型', '購買配置', '購買地點(diǎn)', '購車經(jīng)銷商', '購買時間', '裸車購買價']]
# 數(shù)據(jù)存儲在本地
df.to_excel(r'車輛銷售信息.xlsx',index=None,sheet_name='data')

五、采集結(jié)果預(yù)覽

整個爬蟲過程比較簡單,采集下來的數(shù)據(jù)也比較規(guī)范,以本文案例奧迪Q5L示例如下:

到此這篇關(guān)于Python爬蟲之自動采集某車之家各車銷售數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python采集汽車銷售數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python腳本實(shí)現(xiàn)自動登錄校園網(wǎng)
  • python自動化運(yùn)維之Telnetlib的具體使用
  • 還在手動蓋樓抽獎?教你用Python實(shí)現(xiàn)自動評論蓋樓抽獎(一)
  • Python 如何實(shí)現(xiàn)文件自動去重
  • python趣味挑戰(zhàn)之爬取天氣與微博熱搜并自動發(fā)給微信好友
  • python 利用PyAutoGUI快速構(gòu)建自動化操作腳本
  • Python實(shí)現(xiàn)智慧校園自動評教全新版

標(biāo)簽:樂山 河南 上海 沈陽 長治 新疆 滄州 紅河

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲之自動爬取某車之家各車銷售數(shù)據(jù)》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    辽阳县| 南木林县| 左云县| 中阳县| 江都市| 金溪县| 宜兰市| 云安县| 龙川县| 肇源县| 乃东县| 高安市| 乌鲁木齐县| 新巴尔虎右旗| 南安市| 衡南县| 莲花县| 靖远县| 富阳市| 定襄县| 得荣县| 武穴市| 外汇| 都昌县| 大丰市| 沾益县| 赞皇县| 马山县| 常德市| 芜湖市| 安仁县| 小金县| 阳春市| 泽普县| 永和县| 武义县| 五大连池市| 镇宁| 老河口市| 平顺县| 广昌县|