佳木斯湛栽影视文化发展公司

主頁 > 知識(shí)庫(kù) > 正則表達(dá)式簡(jiǎn)介及在C++11中的簡(jiǎn)單使用教程

正則表達(dá)式簡(jiǎn)介及在C++11中的簡(jiǎn)單使用教程

熱門標(biāo)簽:服務(wù)器配置 Mysql連接數(shù)設(shè)置 團(tuán)購(gòu)網(wǎng)站 電子圍欄 科大訊飛語音識(shí)別系統(tǒng) Linux服務(wù)器 阿里云 銀行業(yè)務(wù)

正則表達(dá)式Regex(regular expression)是一種強(qiáng)大的描述字符序列的工具。在許多語言中都存在著正則表達(dá)式,C++11中也將正則表達(dá)式納入了新標(biāo)準(zhǔn)的一部分,不僅如此,它還支持了6種不同的正則表達(dá)式的語法,分別是:ECMASCRIPT、basic、extended、awk、grep和egrep。其中ECMASCRIPT是默認(rèn)的語法,具體使用哪種語法我們可以在構(gòu)造正則表達(dá)式的時(shí)候指定。

         正則表達(dá)式是一種文本模式。正則表達(dá)式是強(qiáng)大、便捷、高效的文本處理工具。正則表達(dá)式本身,加上如同一門袖珍編程語言的通用模式表示法(general pattern notation),賦予使用者描述和分析文本的能力。配合上特定工具提供的額外支持,正則表達(dá)式能夠添加、刪除、分離、疊加、插入和修整各種類型的文本和數(shù)據(jù)。

         完整的正則表達(dá)式由兩種字符構(gòu)成:特殊字符(special characters)稱為”元字符”(meta characters),其它為”文字”(literal),或者是普通文本字符(normal text characters,如字母、數(shù)字、漢字、下劃線)。正則表達(dá)式的元字符提供了更強(qiáng)大的描述能力。

         和文本編輯器一樣,絕大多數(shù)高級(jí)編程語言均支持正則表達(dá)式,如Perl、Java、Python、C/C++,這些語言都有各自的正則表達(dá)式包。

         一個(gè)正則表達(dá)式僅僅為一個(gè)字符串,它沒有長(zhǎng)度限制?!白颖磉_(dá)式”指的是整個(gè)正則表達(dá)式中的一部分,通常是括號(hào)內(nèi)的表達(dá)式,或者是由”|”分割的多選分支。

 默認(rèn)情況下,表達(dá)式中的字母是要區(qū)分大小寫的。

         常用的元字符:

 1.      “.”: 匹配除"\n"之外的任何單個(gè)字符,若要匹配包括"\n"在內(nèi)的任意字符,需使用諸如"[\s\S]"之類的模式;

 2.       “^”:匹配輸入字符串的開始位置,不匹配任何字符,要匹配”^”字符本身,需使用”\^”;

 3.      “$”:匹配輸入字符串結(jié)尾的位置,不匹配任何字符,要匹配”$”字符本身,需使用”\$”;

 4.      “*”: 零次或多次匹配前面的字符或子表達(dá)式,”*”等效于”{0,}”,如”\^*b”可以匹配”b”、”^b”、”^^b”、…;

 5.      “+”: 一次或多次匹配前面的字符或子表達(dá)式,等效于”{1,}”,如”a+b”可以匹配”ab”、”aab”、”aaab”、…;

 6.      “?”: 零次或一次匹配前面的字符或子表達(dá)式,等效于”{0,1}”,如”a[cd]?”可以匹配”a”、”ac”、”ad”; 當(dāng)此字符緊隨任何其他限定符”*”、”+”、”?”、”{n}”、”{n,}”、”{n,m}”之后時(shí),匹配模式是"非貪心的"。"非貪心的"模式匹配搜索到的、盡可能短的字符串,而默認(rèn)的"貪心的"模式匹配搜索到的、盡可能長(zhǎng)的字符串。如,在字符串"oooo"中,"o+?"只匹配單個(gè)"o",而"o+"匹配所有"o";

 7.      “|”:將兩個(gè)匹配條件進(jìn)行邏輯"或"(Or)運(yùn)算,如正則表達(dá)式”(him|her)”匹配"itbelongs to him"和"it belongs to her",但是不能匹配"itbelongs to them.";

 8.      “\”: 將下一字符標(biāo)記為特殊字符、文本、反向引用或八進(jìn)制轉(zhuǎn)義符,如,”n”匹配字符”n”,”\n”匹配換行符,序列”\\”匹配”\”,”\(“匹配”(“;

 9.      “\w”:匹配字母或數(shù)字或下劃線,任意一個(gè)字母或數(shù)字或下劃線,即A~Z,a~z,0~9,_中任意一個(gè);

 10.  “\W”:匹配任意不是字母、數(shù)字、下劃線的字符;

 11.  “\s”:匹配任意的空白符,包括空格、制表符、換頁符等空白字符的其中任意一個(gè),與”[ \f\n\r\t\v]”等效;

 12.  “\S”:匹配任意不是空白符的字符,與”[^\f\n\r\t\v]”等效;

 13.  “\d”:匹配數(shù)字,任意一個(gè)數(shù)字,0~9中的任意一個(gè),等效于”[0-9]”;

 14.  “\D”:匹配任意非數(shù)字的字符,等效于”[^0-9]”;

 15.  “\b”: 匹配一個(gè)字邊界,即字與空格間的位置,也就是單詞和空格之間的位置,不匹配任何字符,如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er";

 16.  “\B”: 非字邊界匹配,"er\B"匹配"verb"中的"er",但不匹配"never"中的"er";

 17.  “\f”:匹配一個(gè)換頁符,等價(jià)于”\x0c”和”\cL”;

 18.  “\n”:匹配一個(gè)換行符,等價(jià)于”\x0a”和”\cJ”;

 19.  “\r”:匹配一個(gè)回車符,等價(jià)于”\x0d”和”\cM”;

 20.  “\t”:匹配一個(gè)制表符,等價(jià)于”\x09”和”\cI”;

 21.  “\v”:匹配一個(gè)垂直制表符,等價(jià)于”\x0b”和”\cK”;

 22.  “\cx”:匹配”x”指示的控制字符,如,\cM匹配Control-M或回車符,”x”的值必須在”A-Z”或”a-z”之間,如果不是這樣,則假定c就是"c"字符本身;

 23.  “{n}”:”n”是非負(fù)整數(shù),正好匹配n次,如,"o{2}"與"Bob"中的"o"不匹配,但與"food"中的兩個(gè)"o"匹配;

 24.  “{n,}”:”n”是非負(fù)整數(shù),至少匹配n次,如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有”o”,"o{1,}"等效于"o+","o{0,}"等效于"o*";

 25.  “{n,m}”:”n”和”m”是非負(fù)整數(shù),其中n=m,匹配至少n次,至多m次,如,"o{1,3}"匹配"fooooood"中的頭三個(gè)o,'o{0,1}'等效于'o?',注意,不能將空格插入逗號(hào)和數(shù)字之間;如”ba{1,3}”可以匹配”ba”或”baa”或”baaa”;

 26.  “x|y”:匹配”x”或”y”,如,”z|food”匹配"z"或"food";”(z|f)ood”匹配"zood"或"food";

 27.  “[xyz]”:字符集,匹配包含的任一字符,如,"[abc]"匹配"plain"中的"a";

 28.  “[^xyz]”:反向字符集,匹配未包含的任何字符,匹配除了”xyz”以外的任意字符,如,"[^abc]"匹配"plain"中的"p";

 29.  “[a-z]”:字符范圍,匹配指定范圍內(nèi)的任何字符,如,"[a-z]"匹配"a"到"z"范圍內(nèi)的任何小寫字母;

 30.  “[^a-z]”:反向范圍字符,匹配不在指定的范圍內(nèi)的任何字符,如,"[^a-z]"匹配任何不在"a"到"z"范圍內(nèi)的任何字符;

 31.  “( )”:將”(“和”)”之間的表達(dá)式定義為”組”group,并且將匹配這個(gè)表達(dá)式的字符保存到一個(gè)臨時(shí)區(qū)域,一個(gè)正則表達(dá)式中最多可以保存9個(gè),它們可以用”\1”到”\9”的符號(hào)來引用;

 32.  “(pattern)”:匹配pattern并捕獲該匹配的子表達(dá)式,可以使用$0…$9屬性從結(jié)果”匹配”集合中檢索捕獲的匹配;

 33.  “(?:pattern)”:匹配pattern但不捕獲該匹配的子表達(dá)式,即它是一個(gè)非捕獲匹配,不存儲(chǔ)供以后使用的匹配,這對(duì)于用”or”字符” (|)”組合模式部件的情況很有用, 如,”industr(?:y|ies)”是比”industry|industries”更簡(jiǎn)略的表達(dá)式;

 34.  “(?=pattern)”: 非獲取匹配,正向肯定預(yù)查,在任何匹配pattern的字符串開始處匹配查找字符串,該匹配不需要獲取供以后使用。如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。預(yù)查不消耗字符,也就是說,在一個(gè)匹配發(fā)生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預(yù)查的字符之后開始;

 35.  “(?!pattern)”: 非獲取匹配,正向否定預(yù)查,在任何不匹配pattern的字符串開始處匹配查找字符串,該匹配不需要獲取供以后使用。如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows";

 要匹配某些特殊字符,需在此特殊字符前面加上”\”,如要匹配字符”^”、”$”、”()”、”[]”、”{}”、”.”、”?”、”+”、”*”、”|”,需使用” \^”、” \$”、” \ (“、”\)”、” \ [“、”\]”、” \{“、”\}”、” \.”、” \&;”、” \+”、” \*”、” \|”。

 在C++/C++11中,GCC版本是4.9.0及以上,VS版本為VS2013及以上時(shí),會(huì)有regex頭文件,此頭文件中會(huì)有regex_match、regex_search、regex_replace等函數(shù)可供調(diào)用,以下是測(cè)試代碼:

#include "regex.hpp" 
#include regex> 
#include string> 
#include vector> 
#include iostream> 
int test_regex_match() 
{ 
 std::string pattern{ "\\d{3}-\\d{8}|\\d{4}-\\d{7}" }; // fixed telephone 
 std::regex re(pattern); 
 std::vectorstd::string> str{ "010-12345678", "0319-9876543", "021-123456789"}; 
 /* std::regex_match: 
  判斷一個(gè)正則表達(dá)式(參數(shù)re)是否匹配整個(gè)字符序列str,它主要用于驗(yàn)證文本 
  注意,這個(gè)正則表達(dá)式必須匹配被分析串的全部,否則返回false;如果整個(gè)序列被成功匹配,返回true 
 */ 
 for (auto tmp : str) { 
  bool ret = std::regex_match(tmp, re); 
  if (ret) fprintf(stderr, "%s, can match\n", tmp.c_str()); 
  else fprintf(stderr, "%s, can not match\n", tmp.c_str()); 
 } 
 return 0; 
} 
int test_regex_search() 
{ 
 std::string pattern{ "http|hppts://\\w*$" }; // url 
 std::regex re(pattern); 
 std::vectorstd::string> str{ "http://blog.csdn.net/fengbingchun", "https://github.com/fengbingchun", 
  "abcd://124.456", "abcd https://github.com/fengbingchun 123" }; 
 /* std::regex_search: 
  類似于regex_match,但它不要求整個(gè)字符序列完全匹配 
  可以用regex_search來查找輸入中的一個(gè)子序列,該子序列匹配正則表達(dá)式re 
 */ 
 for (auto tmp : str) { 
  bool ret = std::regex_search(tmp, re); 
  if (ret) fprintf(stderr, "%s, can search\n", tmp.c_str()); 
  else fprintf(stderr, "%s, can not search\n", tmp.c_str()); 
 } 
 return 0; 
} 
int test_regex_search2() 
{ 
 std::string pattern{ "[a-zA-z]+://[^\\s]*" }; // url 
 std::regex re(pattern); 
 std::string str{ "my csdn blog addr is: http://blog.csdn.net/fengbingchun , my github addr is: https://github.com/fengbingchun " }; 
 std::smatch results; 
 while (std::regex_search(str, results, re)) { 
  for (auto x : results) 
   std::cout  x  " "; 
  std::cout  std::endl; 
  str = results.suffix().str(); 
 } 
 return 0; 
} 
int test_regex_replace() 
{ 
 std::string pattern{ "\\d{18}|\\d{17}X" }; // id card 
 std::regex re(pattern); 
 std::vectorstd::string> str{ "123456789012345678", "abcd123456789012345678efgh", 
  "abcdefbg", "12345678901234567X" }; 
 std::string fmt{ "********" }; 
 /* std::regex_replace: 
  在整個(gè)字符序列中查找正則表達(dá)式re的所有匹配 
  這個(gè)算法每次成功匹配后,就根據(jù)參數(shù)fmt對(duì)匹配字符串進(jìn)行替換 
 */ 
 for (auto tmp : str) { 
  std::string ret = std::regex_replace(tmp, re, fmt); 
  fprintf(stderr, "src: %s, dst: %s\n", tmp.c_str(), ret.c_str()); 
 } 
 return 0; 
} 
int test_regex_replace2() 
{ 
 // reference: http://www.cplusplus.com/reference/regex/regex_replace/ 
 std::string s("there is a subsequence in the string\n"); 
 std::regex e("\\b(sub)([^ ]*)"); // matches words beginning by "sub" 
 // using string/c-string (3) version: 
 std::cout  std::regex_replace(s, e, "sub-$2"); 
 // using range/c-string (6) version: 
 std::string result; 
 std::regex_replace(std::back_inserter(result), s.begin(), s.end(), e, "$2"); 
 std::cout  result; 
 // with flags: 
 std::cout  std::regex_replace(s, e, "$1 and $2", std::regex_constants::format_no_copy); 
 std::cout  std::endl; 
 return 0; 
} 

 GitHub:https://github.com/fengbingchun/Messy_Test

以上所述是小編給大家介紹的正則表達(dá)式簡(jiǎn)介及在C++11中的簡(jiǎn)單使用教程,希望對(duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!

您可能感興趣的文章:
  • c++使用正則表達(dá)式提取關(guān)鍵字的方法
  • c++11中regex正則表達(dá)式示例簡(jiǎn)述

標(biāo)簽:大理 衢州 江蘇 衡水 廣元 蚌埠 萍鄉(xiāng) 棗莊

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《正則表達(dá)式簡(jiǎn)介及在C++11中的簡(jiǎn)單使用教程》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    诸城市| 弋阳县| 平定县| 鸡西市| 辽源市| 鄂伦春自治旗| 宁波市| 体育| 荥阳市| 南靖县| 吉安市| 临海市| 娱乐| 玉溪市| 尼勒克县| 樟树市| 河源市| 通许县| 鄢陵县| 榆林市| 抚顺市| 桓台县| 阜宁县| 盘锦市| 徐水县| 瑞丽市| 金沙县| 昌邑市| 库伦旗| 贺州市| 胶州市| 疏勒县| 余干县| 西和县| 吴江市| 古蔺县| 古田县| 都江堰市| 海门市| 朝阳区| 塘沽区|