佳木斯湛栽影视文化发展公司

主頁(yè) > 知識(shí)庫(kù) > Java用正則表達(dá)式如何讀取網(wǎng)頁(yè)內(nèi)容

Java用正則表達(dá)式如何讀取網(wǎng)頁(yè)內(nèi)容

熱門標(biāo)簽:團(tuán)購(gòu)網(wǎng)站 銀行業(yè)務(wù) Linux服務(wù)器 電子圍欄 科大訊飛語(yǔ)音識(shí)別系統(tǒng) Mysql連接數(shù)設(shè)置 阿里云 服務(wù)器配置

學(xué)習(xí)java的正則表達(dá)式,抓取網(wǎng)頁(yè)并解析HTML部分內(nèi)容  

package com.xiaofeng.picup;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/** *//**
*
* @抓取頁(yè)面文章標(biāo)題及內(nèi)容(測(cè)試) 手動(dòng)輸入網(wǎng)址抓取,可進(jìn)一步自動(dòng)抓取整個(gè)頁(yè)面的全部?jī)?nèi)容
*
*/
public class WebContent ...{
  /** *//**
   * 讀取一個(gè)網(wǎng)頁(yè)全部?jī)?nèi)容
   */
  public String getOneHtml(String htmlurl) throws IOException...{
    URL url;
    String temp;
    StringBuffer sb = new StringBuffer();
    try ...{
      url = new URL(htmlurl);
      BufferedReader in = new BufferedReader(new InputStreamReader(url
          .openStream(), "utf-8"));// 讀取網(wǎng)頁(yè)全部?jī)?nèi)容
      while ((temp = in.readLine()) != null) ...{
        sb.append(temp);
      }
      in.close();
    }catch(MalformedURLException me)...{
      System.out.println("你輸入的URL格式有問題!請(qǐng)仔細(xì)輸入");
      me.getMessage();
      throw me;
    }catch (IOException e) ...{
      e.printStackTrace();
      throw e;
    }
    return sb.toString();
  }
  /** *//**
   *
   * @param s
   * @return 獲得網(wǎng)頁(yè)標(biāo)題
   */
  public String getTitle(String s) ...{
    String regex;
    String title = "";
    ListString> list = new ArrayListString>();
    regex = "title>.*?/title>";
    Pattern pa = Pattern.compile(regex, Pattern.CANON_EQ);
    Matcher ma = pa.matcher(s);
    while (ma.find()) ...{
      list.add(ma.group());
    }
    for (int i = 0; i  list.size(); i++) ...{
      title = title + list.get(i);
    }
    return outTag(title);
  }
  /** *//**
   *
   * @param s
   * @return 獲得鏈接
   */
  public ListString> getLink(String s) ...{
    String regex;
    ListString> list = new ArrayListString>();
    regex = "a[^>]*href=("([^"]*)"|'([^']*)'|([^s>]*))[^>]*>(.*?)/a>";
    Pattern pa = Pattern.compile(regex, Pattern.DOTALL);
    Matcher ma = pa.matcher(s);
    while (ma.find()) ...{
      list.add(ma.group());
    }
    return list;
  }
  /** *//**
   *
   * @param s
   * @return 獲得腳本代碼
   */
  public ListString> getScript(String s) ...{
    String regex;
    ListString> list = new ArrayListString>();
    regex = "script.*?/script>";
    Pattern pa = Pattern.compile(regex, Pattern.DOTALL);
    Matcher ma = pa.matcher(s);
    while (ma.find()) ...{
      list.add(ma.group());
    }
    return list;
  }
  /** *//**
   *
   * @param s
   * @return 獲得CSS
   */
  public ListString> getCSS(String s) ...{
    String regex;
    ListString> list = new ArrayListString>();
    regex = "style.*?/style>";
    Pattern pa = Pattern.compile(regex, Pattern.DOTALL);
    Matcher ma = pa.matcher(s);
    while (ma.find()) ...{
      list.add(ma.group());
    }
    return list;
  }
  /** *//**
   *
   * @param s
   * @return 去掉標(biāo)記
   */
  public String outTag(String s) ...{
    return s.replaceAll(".*?>", "");
  }

您可能感興趣的文章:
  • JAVA使用爬蟲抓取網(wǎng)站網(wǎng)頁(yè)內(nèi)容的方法
  • java抓取網(wǎng)頁(yè)數(shù)據(jù)獲取網(wǎng)頁(yè)中所有的鏈接實(shí)例分享
  • java正則表達(dá)式匹配網(wǎng)頁(yè)所有網(wǎng)址和鏈接文字的示例
  • java簡(jiǎn)單網(wǎng)頁(yè)抓取的實(shí)現(xiàn)方法
  • Java中使用正則表達(dá)式獲取網(wǎng)頁(yè)中所有圖片的路徑
  • java 抓取網(wǎng)頁(yè)內(nèi)容實(shí)現(xiàn)代碼
  • java抓取網(wǎng)頁(yè)數(shù)據(jù)示例
  • java實(shí)現(xiàn)網(wǎng)頁(yè)解析示例
  • 用javascrpt將指定網(wǎng)頁(yè)保存為Excel的代碼
  • Java獲取任意http網(wǎng)頁(yè)源代碼的方法

標(biāo)簽:江蘇 廣元 衡水 棗莊 蚌埠 大理 衢州 萍鄉(xiāng)

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Java用正則表達(dá)式如何讀取網(wǎng)頁(yè)內(nèi)容》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    麦盖提县| 琼中| 康马县| 中阳县| 高雄县| 泰来县| 云浮市| 五河县| 民县| 久治县| 苏尼特左旗| 金华市| 茶陵县| 玉屏| 襄汾县| 长泰县| 玉林市| 富蕴县| 翁牛特旗| 永定县| 烟台市| 珠海市| 颍上县| 卢龙县| 改则县| 忻城县| 乳山市| 梅河口市| 嫩江县| 民勤县| 广东省| 廊坊市| 银川市| 成武县| 麻阳| 娄烦县| 剑阁县| 昆明市| 嘉义县| 安西县| 景泰县|