佳木斯湛栽影视文化发展公司

主頁 > 知識(shí)庫 > 正則方式的自動(dòng)小偷抓網(wǎng)程序

正則方式的自動(dòng)小偷抓網(wǎng)程序

熱門標(biāo)簽:Linux服務(wù)器 服務(wù)器配置 科大訊飛語音識(shí)別系統(tǒng) 阿里云 團(tuán)購網(wǎng)站 電子圍欄 銀行業(yè)務(wù) Mysql連接數(shù)設(shè)置
有一些瑕疵沒時(shí)間細(xì)化,只是實(shí)現(xiàn)了效果,大家看一看這個(gè)正則該怎么寫好:
URL:http://news.szhome.com/83642.html
內(nèi)容:
復(fù)制代碼 代碼如下:

object>/div>/div>
/div>

div class="share">div class="linkshare" style="right: 0">

這兩個(gè)標(biāo)記之間的代碼。END標(biāo)記的問題解決了,但是郁悶的是START截取的標(biāo)記因?yàn)榈诙€(gè)DIV和第三個(gè)中間有換行,我無語了不知道怎么處理這個(gè)正則。
而且郁悶的是有多處有這種重復(fù)型標(biāo)記,對(duì)正則不太熟悉,我的解決方法如下:

復(fù)制代碼 代碼如下:

MatchCollection mc = Regex.Matches(ghoPage.Trim(), @"(?=div class=['""]txtmsg['""]>)[\s\S]*?(?=div class=['""]share['""]>div class=)", RegexOptions.CultureInvariant | RegexOptions.IgnoreCase);
foreach (Match mm in mc)
{
sb.Append(mc[0].Value.Substring(1933, mc[0].Value.Length - 1933));
}

我算出截取出來多處兩個(gè)FLASH廣告DIV的長度是1933,然后處理字符串截取后得到我想要的文本,這樣做的劣勢(shì)就是萬一該站改變了兩個(gè)FLASH廣告DIV的長度我獲取的數(shù)據(jù)就不是完整的呢,有興趣的研究下,看看換行的DIV正則問題怎么處理。
里面用到了自己寫的一個(gè)BUTTON控件,可以在點(diǎn)擊后禁止重復(fù)點(diǎn)擊,然后就是一些判斷,在思路上蠻不錯(cuò),可以做到一直抓取,因?yàn)椴唤?jīng)常用就沒做成WINDOWS服務(wù)類型,這樣的程序可以做成WINDOWS服務(wù),把規(guī)則寫在INI文件中,抓錄的規(guī)則和正則也放在配置文件中,這樣就能實(shí)現(xiàn)自動(dòng)抓錄。

很短的代碼,對(duì)這種抓錄有興趣的朋友可以嘗試下。下載

標(biāo)簽:衡水 江蘇 廣元 衢州 萍鄉(xiāng) 大理 棗莊 蚌埠

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《正則方式的自動(dòng)小偷抓網(wǎng)程序》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    内江市| 乃东县| 蓬莱市| 无棣县| 杂多县| 永城市| 新干县| 天气| 清河县| 平利县| 宁陵县| 盐池县| 金华市| 大悟县| 毕节市| 冀州市| 信丰县| 安多县| 麦盖提县| 金秀| 屯留县| 建湖县| 珠海市| 鸡东县| 舒兰市| 临汾市| 民丰县| 南投市| 安福县| 望奎县| 宝鸡市| 招远市| 舟曲县| 南华县| 津市市| 华容县| 台中县| 聂荣县| 陇南市| 七台河市| 蓬溪县|