佳木斯湛栽影视文化发展公司

主頁 > 知識庫 > batchcollect pagecollect來自官方杰奇jieqi定時采集配置方法參數(shù)詳解第1/2頁

batchcollect pagecollect來自官方杰奇jieqi定時采集配置方法參數(shù)詳解第1/2頁

熱門標(biāo)簽:百度競價點擊價格的計算公式 智能手機 美圖手機 使用U盤裝系統(tǒng) 阿里云 檢查注冊表項 硅谷的囚徒呼叫中心 網(wǎng)站建設(shè)
前言

要實現(xiàn)采集,默認(rèn)方式是根據(jù)配置好的采集規(guī)則,在瀏覽器提交相應(yīng)的參數(shù)即可完成后面的采集入庫全部動作。
而實現(xiàn)定時采集,與人工在瀏覽器提交有些區(qū)別,主要分兩大步驟:
一、編寫采集的url和相關(guān)參數(shù),訪問這個url即可實現(xiàn)想要的采集模式。(這個url直接在瀏覽器提交同樣可以實現(xiàn)采集)
二、把定時訪問這個url的功能加到系統(tǒng)的定時任務(wù)里面,實現(xiàn)無人值守的定時采集。

具體實現(xiàn)方法請參考下面內(nèi)容:

1、對采集配置文件的解釋

任何一個采集都會用到兩個采集配置文件(跟后臺采集規(guī)則配置對應(yīng)),都可以用文本編輯器打開查看。
其中 /configs/article/collectsite.php 是對總的采集站點配置,記錄了一共允許采集哪幾個站點。
里面包含類似這樣的內(nèi)容:

$jieqiCollectsite['1']['name'] = '采集站點一'; 
$jieqiCollectsite['1']['config'] = 'abc_com'; 
$jieqiCollectsite['1']['url'] = 'http://www.abc.com'; 
$jieqiCollectsite['1']['subarticleid'] = 'floor($articleid/1000)';
$jieqiCollectsite['1']['enable'] = '1';

$jieqiCollectsite['2']['name'] = '采集站點二';
$jieqiCollectsite['2']['config'] = 'def_net';
$jieqiCollectsite['2']['url'] = 'http://www.def.net';
$jieqiCollectsite['2']['subarticleid'] = '';
$jieqiCollectsite['2']['enable'] = '1';

參數(shù)含義解釋如下:
['1'] - 這里的 1 表示采集網(wǎng)站的數(shù)字序號,不同的采集站序號不能重復(fù)。
['name'] - 采集網(wǎng)站名稱。
['config'] - 網(wǎng)站英文標(biāo)識,這個網(wǎng)站采集規(guī)則配置文件有關(guān),比如這個值是 abc_com ,那么采集規(guī)則配置文件就是 /configs/article/site_abc_com.php。
['url'] - 采集網(wǎng)站網(wǎng)址。
['subarticleid'] - 采集網(wǎng)站,文章子序號運算方式,本項目主要為了兼容以前程序,新版本里面文章子序號可以通過采集獲得。
['enable'] - 是否允許采集,1 表示允許,0 表示禁止,默認(rèn)為 1。

如前面所說,每個采集網(wǎng)站有個專門的采集規(guī)則配置文件,/configs/article/ 目錄下以 site_ 開頭的php文件,如 /configs/article/site_abc_com.php。

里面內(nèi)容都與后臺采集規(guī)則設(shè)置相對應(yīng),具體細(xì)節(jié)不一一解釋。需要了解的是本文件里面內(nèi)容分兩大部分,前面內(nèi)容都是對網(wǎng)站內(nèi)容采集規(guī)則的配置,而最后面 $jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1'] 這樣的設(shè)置是對網(wǎng)站"批量采集規(guī)則"的配置,比如按最近更新采集、按排行榜采集,可以設(shè)置多個。['0'] 這里的數(shù)字 0 表示批量采集類別的數(shù)字序號,同一個網(wǎng)站也不能重復(fù)。

2、編寫采集內(nèi)容的url及參數(shù)

這里的采集是針對多篇文章批量采集,分兩種模式:
一、按頁面批量采集,比如采集最新更新列表或者排行榜列表,每個鏈接采集一頁。
鏈接格式如下:

https://www.jb51.net/modules/article/admin/pagecollect.php?action=collect&siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234

參數(shù)含義解釋如下:
www.jb51.net - 是指您的網(wǎng)址。
action - 字符串,程序執(zhí)行的動作命令,固定值為 collect。
siteid - 數(shù)字類型,要采集的網(wǎng)站序號,具體哪個網(wǎng)站對應(yīng)什么序號見配置文件collectsite.php。
collectname - 數(shù)字類型,按頁面批量采集的類別序號,見配置文件site_xxxx.php里面下面的。$jieqiCollect['listcollect']['0'] 這樣配置的數(shù)字。
startpageid -- 頁碼標(biāo)志,表示從列表的第幾頁開始采集。一般是數(shù)字類型,有些網(wǎng)站也可能是字符串。
maxpagenum -- 數(shù)字類型,表示表示一共采集幾頁。(默認(rèn)為 1 ,如果要采集多頁,是需要瀏覽器跳轉(zhuǎn)的,只有在windows環(huán)境下調(diào)用瀏覽器時候有效,linux下調(diào)用wget時候最多只能采集一頁,需要采集多頁可設(shè)置多個采集命令。)
notaddnew -- 數(shù)字類型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username - 字符串,用戶名(這個用戶必須是本站有權(quán)限采集的用戶)。
jieqi_userpassword - 字符串,用戶密碼。


二、按照文章序號批量采集
鏈接格式如下:
https://www.jb51.net/modules/article/admin/batchcollect.php?action=bcollect&siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234

參數(shù)含義解釋如下:
www.jb51.net - 是指您的網(wǎng)址。
action - 字符串,程序執(zhí)行的動作命令,固定值為 bcollect。
siteid - 數(shù)字類型,要采集的網(wǎng)站序號,具體哪個網(wǎng)站對應(yīng)什么序號見配置文件collectsite.php。
batchids - 要采集的對方網(wǎng)站文章序號(不是本地的文章序號),采集多個文章,序號用英文逗號分開,如 123,234,345。
jieqi_username - 字符串,用戶名(這個用戶必須是本站有權(quán)限采集的用戶)。
jieqi_userpassword - 字符串,用戶密碼。

注:一個url需要放到IE瀏覽器里面提交的時候,整個url最大長度度不要超過2083字節(jié),所以一般建議這里的url不要設(shè)置成太長,文章多的可以拆分成多個url。


3、利用系統(tǒng)任務(wù)實現(xiàn)定時采集

一、windows環(huán)境下做法

windows里面可以用系統(tǒng)的任務(wù)計劃來實現(xiàn)定時執(zhí)行程序,不過首先需要制作一個批處理文件,在這個文件里面用命令來調(diào)用瀏覽器來執(zhí)行采集url。需要注意的是命令只能打開瀏覽器而不會采集好之后自動關(guān)閉,要實現(xiàn)采集完自動關(guān)閉可以通過javascript實現(xiàn)。自動關(guān)閉本窗口的js代碼為:

<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>

這里的參數(shù) 3000 是指延遲關(guān)閉時間,單位是毫秒,3000表示延遲3秒關(guān)閉。
這段代碼可以在兩個地方加入:

一個是加入到提示信息模板 /themes/風(fēng)格名稱/msgwin.html 里面,<body>和</body>之間加入上面那段js。這樣的效果是整個系統(tǒng)任何提示信息頁面都會在3秒鐘后自動關(guān)閉。

如果您希望僅僅自動關(guān)閉采集成功后的提示頁面,可以在采集提示信息的語言包里面加入以上javascript,這個配置文件是 /modules/article/lang/lang_collect.php, 里面 $jieqiLang['article']['batch_collect_success'] 是采集成功的提示信息,這個值原來是:

'恭喜您,全部文章采集完成!';

改成下面這樣即可自動關(guān)閉

'恭喜您,全部文章采集完成!<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>';
12下一頁閱讀全文

標(biāo)簽:湖北 懷化 湘潭 煙臺 賀州 山南 通遼 黃山

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《batchcollect pagecollect來自官方杰奇jieqi定時采集配置方法參數(shù)詳解第1/2頁》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    鄂托克前旗| 福泉市| 桂阳县| 正蓝旗| 三河市| 巴林左旗| 安西县| 陕西省| 佛山市| 方正县| 洛隆县| 阜宁县| 新龙县| 东港市| 嘉义市| 固阳县| 婺源县| 日土县| 云龙县| 阿克| 泽州县| 沛县| 蕉岭县| 富源县| 合川市| 天长市| 永兴县| 金华市| 镇宁| 白玉县| 蕲春县| 四平市| 琼结县| 南阳市| 呼伦贝尔市| 财经| 洛阳市| 宜兰县| 葫芦岛市| 固始县| 邵阳市|