阿里大佬整理的常用正則表達式大全

、校驗數字的表達式

1. 數字：^[0-9]*$

2. n位的數字：^\d{n}$

3. 至少n位的數字：^\d{n,}$

4. m-n位的數字：^\d{m,n}$

5. 零和非零開頭的數字：^(0|[1-9][0-9]*)$

6. 非零開頭的最多帶兩位小數的數字：^([1-9][0-9]*)+(.[0-9]{1,2})?$

7. 帶1-2位小數的正數或負數：^(\-)?\d+(\.\d{1,2})?$

8. 正數、負數、和小數：^(\-|\+)?\d+(\.\d+)?$

9. 有兩位小數的正實數：^[0-9]+(.[0-9]{2})?$

10. 有1~3位小數的正實數：^[0-9]+(.[0-9]{1,3})?$

11. 非零的正整數：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

12. 非零的負整數：^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

13. 非負整數：^\d+$ 或 ^[1-9]\d*|0$

14. 非正整數：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

15. 非負浮點數：^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

16. 非正浮點數：^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

17. 正浮點數：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

18. 負浮點數：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

19. 浮點數：^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

二、校驗字符的表達式

1. 漢字：^[\u4e00-\u9fa5]{0,}$

2. 英文和數字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

3. 長度為3-20的所有字符：^.{3,20}$

4. 由26個英文字母組成的字符串：^[A-Za-z]+$

5. 由26個大寫英文字母組成的字符串：^[A-Z]+$

6. 由26個小寫英文字母組成的字符串：^[a-z]+$

7. 由數字和26個英文字母組成的字符串：^[A-Za-z0-9]+$

8. 由數字、26個英文字母或者下劃線組成的字符串：^\w+$ 或 ^\w{3,20}$

9. 中文、英文、數字包括下劃線：^[\u4E00-\u9FA5A-Za-z0-9_]+$

10. 中文、英文、數字但不包括下劃線等符號：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11. 可以輸入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+ 12 禁止輸入含有~的字符：[^~\x22]+

其它：

.*匹配除 \n 以外的任何字符。

/[\u4E00-\u9FA5]/ 漢字

/[\uFF00-\uFFFF]/ 全角符號

/[\u0000-\u00FF]/ 半角符號

三、特殊需求表達式

1. Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

2. 域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

3. InternetURL：[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

4. 手機號碼：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

5. 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX)：^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$

6. 國內電話號碼(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7}

7. 身份證號(15位、18位數字)：^\d{15}|\d{18}$

8. 短身份證號碼(數字、字母x結尾)：^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

9. 帳號是否合法(字母開頭，允許5-16字節，允許字母數字下劃線)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10. 密碼(以字母開頭，長度在6~18之間，只能包含字母、數字和下劃線)：^[a-zA-Z]\w{5,17}$

11. 強密碼(必須包含大小寫字母和數字的組合，不能使用特殊字符，長度在8-10之間)：^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

12. 日期格式：^\d{4}-\d{1,2}-\d{1,2}

13. 一年的12個月(01～09和1～12)：^(0?[1-9]|1[0-2])$

14. 一個月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

15. 錢的輸入格式：

16. 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000"：^[1-9][0-9]*$

17. 2.這表示任意一個不以0開頭的數字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式：^(0|[1-9][0-9]*)$

18. 3.一個0或者一個不以0開頭的數字.我們還可以允許開頭有一個負號：^(0|-?[1-9][0-9]*)$

19. 4.這表示一個0或者一個可能為負的開頭不為0的數字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數部分：^[0-9]+(.[0-9]+)?$

20. 5.必須說明的是,小數點后面至少應該有1位數,所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的：^[0-9]+(.[0-9]{2})?$

21. 6.這樣我們規定小數點后面必須有兩位,如果你認為太苛刻了,可以這樣：^[0-9]+(.[0-9]{1,2})?$

22. 7.這樣就允許用戶只寫一位小數.下面我們該考慮數字中的逗號了,我們可以這樣：^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

23 8.1到3個數字,后面跟著任意個逗號+3個數字,逗號成為可選,而不是必須：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

24. 備注：這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數時去掉去掉那個反斜杠,一般的錯誤都在這里

25. xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$

26. 中文字符的正則表達式：[\u4e00-\u9fa5]

27. 雙字節字符：[^\x00-\xff] (包括漢字在內，可以用來計算字符串的長度(一個雙字節字符長度計2，ASCII字符計1))

28. 空白行的正則表達式：\n\s*\r (可以用來刪除空白行)

29. HTML標記的正則表達式：<(\S*?)[^>]*>.*?</>|<.*? /> (網上流傳的版本太糟糕，上面這個也僅僅能部分，對于復雜的嵌套標記依舊無能為力)

30. 首尾空白字符的正則表達式：^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等)，非常有用的表達式)

31. 騰訊QQ號：[1-9][0-9]{4,} (騰訊QQ號從10000開始)

32. 中國郵政編碼：[1-9]\d{5}(?!\d) (中國郵政編碼為6位數字)

33. IP地址：\d+\.\d+\.\d+\.\d+ (提取IP地址時有用)

34. IP地址：((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

35. IP-v4地址：\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b (提取IP地址時有用)
36. 校驗IP-v6地址:(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
37. 子網掩碼：((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
38. 校驗日期:^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$(“yyyy-mm-dd“ 格式的日期校驗，已考慮平閏年。)
39. 抽取注釋：
40. 查找CSS屬性:^\s*[a-zA-Z\-]+\s*[:]{1}\s[a-zA-Z0-9\s.#]+[;]{1}
41. 提取頁面超鏈接:(<a\s*(?!.*\brel=)[^>]*)(href="https?:\/\/)((?!(?:(?:www\.)?'.implode('|(?:www\.)?', $follow_list).'))[^" rel="external nofollow" ]+)"((?!.*\brel=)[^>]*)(?:[^>]*)>
42. 提取網頁圖片:\< *[img][^\\>]*[src] *= *[\"\']{0,1}([^\"\'\ >]*)
43. 提取網頁顏色代碼:^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$
44. 文件擴展名效驗:^([a-zA-Z]\:|\\)\$[^\\]+\$*[^\/:*?"<>|]+\.txt(l)?$
45. 判斷IE版本：^.*MSIE [5-8](?:\.[0-9]+)?(?!.*Trident\/[5-9]\.0).*$

元字符	描述
\	將下一個字符標記符、或一個向后引用、或一個八進制轉義符。例如，“\n”匹配\n。“\n”匹配換行符。序列“\”匹配“\”而“\(”則匹配“(”。即相當于多種編程語言中都有的“轉義字符”的概念。
^	匹配輸入字行首。如果設置了RegExp對象的Multiline屬性，^也匹配“\n”或“\r”之后的位置。
$	匹配輸入行尾。如果設置了RegExp對象的Multiline屬性，$也匹配“\n”或“\r”之前的位置。
*	匹配前面的子表達式任意次。例如，zo能匹配“z”，也能匹配“zo”以及“zoo”。等價于{0,}。
+	匹配前面的子表達式一次或多次(大于等于1次）。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等價于{1,}。
?	匹配前面的子表達式零次或一次。例如，“do(es)?”可以匹配“do”或“does”。?等價于{0,1}。
{n}	n是一個非負整數。匹配確定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的兩個o。
{n,}	n是一個非負整數。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等價于“o+”。“o{0,}”則等價于“o*”。
{n,m}	m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”將匹配“fooooood”中的前三個o為一組，后三個o為一組。“o{0,1}”等價于“o?”。請注意在逗號和兩個數之間不能有空格。
?	當該字符緊跟在任何一個其他限制符（*,+,?，{n}，{n,}，{n,m}）后面時，匹配模式是非貪婪的。非貪婪模式盡可能少地匹配所搜索的字符串，而默認的貪婪模式則盡可能多地匹配所搜索的字符串。例如，對于字符串“oooo”，“o+”將盡可能多地匹配“o”，得到結果[“oooo”]，而“o+?”將盡可能少地匹配“o”，得到結果 ['o', 'o', 'o', 'o']
.點	匹配除“\n”和"\r"之外的任何單個字符。要匹配包括“\n”和"\r"在內的任何字符，請使用像“[\s\S]”的模式。
(pattern)	匹配pattern并獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用>匹配pattern并獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字符，請使用“”或“”或“”。<…屬性。要匹配圓括號字符，請使用“”或“”或“”。
(?:pattern)	非獲取匹配，匹配pattern但不獲取匹配結果，不進行存儲供以后使用。這在使用或字符“(\|)”來組合一個模式的各個部分時很有用。例如“industr(?:y\|ies)”就是一個比“industry\|industries”更簡略的表達式。
(?=pattern)	非獲取匹配，正向肯定預查，在任何匹配pattern的字符串開始處匹配查找字符串，該匹配不需要獲取供以后使用。例如，“Windows(?=95\|98\|NT\|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。預查不消耗字符，也就是說，在一個匹配發生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始。
(?!pattern)	非獲取匹配，正向否定預查，在任何不匹配pattern的字符串開始處匹配查找字符串，該匹配不需要獲取供以后使用。例如“Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。
(?<=pattern)	非獲取匹配，反向肯定預查，與正向肯定預查類似，只是方向相反。例如，“(?<=95\|98\|NT\|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。 *python的正則表達式沒有完全按照正則表達式規范實現，所以一些高級特性建議使用其他語言如java、scala等
(?<!patte_n)	非獲取匹配，反向否定預查，與正向否定預查類似，只是方向相反。例如“(?<!95\|98\|NT\|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。 *python的正則表達式沒有完全按照正則表達式規范實現，所以一些高級特性建議使用其他語言如java、scala等
x\|y	匹配x或y。例如，“z\|food”能匹配“z”或“food”(此處請謹慎)。“[z\|f]ood”則匹配“zood”或“food”。
[xyz]	字符集合。匹配所包含的任意一個字符。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]	負值字符集合。匹配未包含的任意字符。例如，“[^abc]”可以匹配“plain”中的“plin”任一字符。
[a-z]	字符范圍。匹配指定范圍內的任意字符。例如，“[a-z]”可以匹配“a”到“z”范圍內的任意小寫字母字符。注意:只有連字符在字符組內部時,并且出現在兩個字符之間時,才能表示字符的范圍; 如果出字符組的開頭,則只能表示連字符本身.
[^a-z]	負值字符范圍。匹配任何不在指定范圍內的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范圍內的任意字符。
\b	匹配一個單詞的邊界，也就是指單詞和空格間的位置（即正則表達式的“匹配”有兩種概念，一種是匹配字符，一種是匹配位置，這里的\b就是匹配位置的）。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”；“\b1_”可以匹配“1_23”中的“1_”，但不能匹配“21_3”中的“1_”。
\B	匹配非單詞邊界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
\cx	匹配由x指明的控制字符。例如，\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的“c”字符。
\d	匹配一個數字字符。等價于[0-9]。grep 要加上-P，perl正則支持
\D	匹配一個非數字字符。等價于[^0-9]。grep要加上-P，perl正則支持
\f	匹配一個換頁符。等價于\x0c和\cL。
\n	匹配一個換行符。等價于\x0a和\cJ。
\r	匹配一個回車符。等價于\x0d和\cM。
\s	匹配任何不可見字符，包括空格、制表符、換頁符等等。等價于[ \f\n\r\t\v]。
\S	匹配任何可見字符。等價于[^ \f\n\r\t\v]。
\t	匹配一個制表符。等價于\x09和\cI。
\v	匹配一個垂直制表符。等價于\x0b和\cK。
\w	匹配包括下劃線的任何單詞字符。類似但不等價于“[A-Za-z0-9_]”，這里的"單詞"字符使用Unicode字符集。
\W	匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。
\xn	匹配n，其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如，“\x41”匹配“A”。“\x041”則等價于“\x04&1”。正則表達式中可以使用ASCII編碼。
\num	匹配num，其中num是一個正整數。對所獲取的匹配的引用。例如，“(.)”匹配兩個連續的相同字符。
\n	標識一個八進制轉義值或一個向后引用。如果\n之前至少n個獲取的子表達式，則n為向后引用。否則，如果n為八進制數字（0-7），則n為一個八進制轉義值。
\nm	標識一個八進制轉義值或一個向后引用。如果\nm之前至少有nm個獲得子表達式，則nm為向后引用。如果\nm之前至少有n個獲取，則n為一個后跟文字m的向后引用。如果前面的條件都不滿足，若n和m均為八進制數字（0-7），則\nm將匹配八進制轉義值nm。
\nml	如果n為八進制數字（0-7），且m和l均為八進制數字（0-7），則匹配八進制轉義值nml。
\un	匹配n，其中n是一個用四個十六進制數字表示的Unicode字符。例如，\u00A9匹配版權符號（©）。
\p{P}	小寫 p 是 property 的意思，表示 Unicode 屬性，用于 Unicode 正表達式的前綴。中括號內的“P”表示Unicode 字符集七個字符屬性之一：標點字符。其他六個屬性： L：字母； M：標記符號（一般不會單獨出現）； Z：分隔符（比如空格、換行等）； S：符號（比如數學符號、貨幣符號等）； N：數字（比如阿拉伯數字、羅馬數字等）； C：其他字符。 *注：此語法部分語言不支持，例：javascript。
\< \>	匹配詞（word）的開始（\<）和結束（\>）。例如正則表達式\<the\>能夠匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：這個元字符不是所有的軟件都支持的。
( )	將( 和 ) 之間的表達式定義為“組”（group），并且將匹配這個表達式的字符保存到一個臨時區域（一個正則表達式中最多可以保存9個），它們可以用到的符號來引用。
\|	將兩個匹配條件進行邏輯“或”（or）運算。例如正則表達式(him\|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：這個元字符不是所有的軟件都支持的。

作者 | ZhaoYingChao88

來源 | runoob.com/regexp/regexp-tutorial.html

則表達式30分鐘入門教程

一些要說的話：

如果你沒有正則表達式的基礎，請跟著教程“一步步來”。請不要大概地掃兩眼就說看不懂——以這種態度我寫成什么樣你也看不懂。當我告訴你這是“30分鐘入門教程”時，請不要試圖在30秒內入門。
事實是，我身邊有個才接觸電腦，對操作都不是很熟練的人通過自己學習這篇教程，最后都能在文章采集系統中使用正則表達式完成任務。而且，他寫的表達式中，還使用了“零寬斷言”等“高級”技術。
所以，如果你能具體地說明你的問題，我很愿意幫助你。但是如果你概括地說看不懂，那不是我的問題。
歡迎轉載，但請聲明作者以及來源。

正則表達式30分鐘入門教程

版本：v2.31 (2009-4-11) 作者：deerchao 轉載請注明來源

跳過目錄

本文目標
如何使用本教程
正則表達式到底是什么東西？
入門
測試正則表達式
元字符
字符轉義
重復
字符類
分枝條件
反義
分組
后向引用
零寬斷言
負向零寬斷言
注釋
貪婪與懶惰
處理選項
平衡組/遞歸匹配
還有些什么東西沒提到
聯系作者
網上的資源及本文參考文獻
更新紀錄

本文目標

30分鐘內讓你明白正則表達式是什么，并對它有一些基本的了解，讓你可以在自己的程序或網頁里使用它。

如何使用本教程

最重要的是——請給我30分鐘，如果你沒有使用正則表達式的經驗，請不要試圖在30秒內入門——除非你是超人 :)

別被下面那些復雜的表達式嚇倒，只要跟著我一步一步來，你會發現正則表達式其實并沒有你想像中的那么困難。當然，如果你看完了這篇教程之后，發現自己明白了很多，卻又幾乎什么都記不得，那也是很正常的——我認為，沒接觸過正則表達式的人在看完這篇教程后，能把提到過的語法記住80%以上的可能性為零。這里只是讓你明白基本的原理，以后你還需要多練習，多使用，才能熟練掌握正則表達式。

除了作為入門教程之外，本文還試圖成為可以在日常工作中使用的正則表達式語法參考手冊。就作者本人的經歷來說，這個目標還是完成得不錯的——你看，我自己也沒能把所有的東西記下來，不是嗎？

清除格式 文本格式約定：專業術語 元字符/語法格式正則表達式正則表達式中的一部分(用于分析) 對其進行匹配的源字符串 對正則表達式或其中一部分的說明

隱藏邊注 本文右邊有一些注釋，主要是用來提供一些相關信息，或者給沒有程序員背景的讀者解釋一些基本概念，通常可以忽略。

正則表達式到底是什么東西？

字符是計算機軟件處理文字時最基本的單位，可能是字母，數字，標點符號，空格，換行符，漢字等等。字符串是0個或更多個字符的序列。文本也就是文字，字符串。說某個字符串匹配某個正則表達式，通常是指這個字符串里有一部分（或幾部分分別）能滿足表達式給出的條件。

在編寫處理字符串的程序或網頁時，經常會有查找符合某些復雜規則的字符串的需要。正則表達式就是用于描述這些規則的工具。換句話說，正則表達式就是記錄文本規則的代碼。

很可能你使用過Windows/Dos下用于文件查找的通配符(wildcard)，也就是*和?。如果你想查找某個目錄下的所有的Word文檔的話，你會搜索*.doc。在這里，*會被解釋成任意的字符串。和通配符類似，正則表達式也是用來進行文本匹配的工具，只不過比起通配符，它能更精確地描述你的需求——當然，代價就是更復雜——比如你可以編寫一個正則表達式，用來查找所有以0開頭，后面跟著2-3個數字，然后是一個連字號“-”，最后是7或8位數字的字符串(像010-12345678或0376-7654321)。

入門

學習正則表達式的最好方法是從例子開始，理解例子之后再自己對例子進行修改，實驗。下面給出了不少簡單的例子，并對它們作了詳細的說明。

假設你在一篇英文小說里查找hi，你可以使用正則表達式hi。

這幾乎是最簡單的正則表達式了，它可以精確匹配這樣的字符串：由兩個字符組成，前一個字符是h,后一個是i。通常，處理正則表達式的工具會提供一個忽略大小寫的選項，如果選中了這個選項，它可以匹配hi,HI,Hi,hI這四種情況中的任意一種。

不幸的是，很多單詞里包含hi這兩個連續的字符，比如him,history,high等等。用hi來查找的話，這里邊的hi也會被找出來。如果要精確地查找hi這個單詞的話，我們應該使用\bhi\b。

\b是正則表達式規定的一個特殊代碼（好吧，某些人叫它元字符，metacharacter），代表著單詞的開頭或結尾，也就是單詞的分界處。雖然通常英文的單詞是由空格，標點符號或者換行來分隔的，但是\b并不匹配這些單詞分隔字符中的任何一個，它只匹配一個位置。

如果需要更精確的說法，\b匹配這樣的位置：它的前一個字符和后一個字符不全是(一個是,一個不是或不存在)\w。

假如你要找的是hi后面不遠處跟著一個Lucy，你應該用\bhi\b.*\bLucy\b。

這里，.是另一個元字符，匹配除了換行符以外的任意字符。*同樣是元字符，不過它代表的不是字符，也不是位置，而是數量——它指定*前邊的內容可以連續重復使用任意次以使整個表達式得到匹配。因此，.*連在一起就意味著任意數量的不包含換行的字符。現在\bhi\b.*\bLucy\b的意思就很明顯了：先是一個單詞hi,然后是任意個任意字符(但不能是換行)，最后是Lucy這個單詞。

換行符就是'\n',ASCII編碼為10(十六進制0x0A)的字符。

如果同時使用其它元字符，我們就能構造出功能更強大的正則表達式。比如下面這個例子：

0\d\d-\d\d\d\d\d\d\d\d匹配這樣的字符串：以0開頭，然后是兩個數字，然后是一個連字號“-”，最后是8個數字(也就是中國的電話號碼。當然，這個例子只能匹配區號為3位的情形)。

這里的\d是個新的元字符，匹配一位數字(0，或1，或2，或……)。-不是元字符，只匹配它本身——連字符(或者減號，或者中橫線，或者隨你怎么稱呼它)。

為了避免那么多煩人的重復，我們也可以這樣寫這個表達式：0\d{2}-\d{8}。這里\d后面的{2}({8})的意思是前面\d必須連續重復匹配2次(8次)。

測試正則表達式

其它可用的測試工具:

RegexBuddy
Javascript正則表達式在線測試工具

如果你不覺得正則表達式很難讀寫的話，要么你是一個天才，要么，你不是地球人。正則表達式的語法很令人頭疼，即使對經常使用它的人來說也是如此。由于難于讀寫，容易出錯，所以找一種工具對正則表達式進行測試是很有必要的。

不同的環境下正則表達式的一些細節是不相同的，本教程介紹的是微軟 .Net Framework 4.0 下正則表達式的行為，所以，我向你推薦我編寫的.Net下的工具 正則表達式測試器。請參考該頁面的說明來安裝和運行該軟件。

下面是Regex Tester運行時的截圖：

元字符

現在你已經知道幾個很有用的元字符了，如\b,.,*，還有\d.正則表達式里還有更多的元字符，比如\s匹配任意的空白符，包括空格，制表符(Tab)，換行符，中文全角空格等。\w匹配字母或數字或下劃線或漢字等。

對中文/漢字的特殊處理是由.Net提供的正則表達式引擎支持的，其它環境下的具體情況請查看相關文檔。

下面來看看更多的例子：

\ba\w*\b匹配以字母a開頭的單詞——先是某個單詞開始處(\b)，然后是字母a,然后是任意數量的字母或數字(\w*)，最后是單詞結束處(\b)。

好吧，現在我們說說正則表達式里的單詞是什么意思吧：就是不少于一個的連續的\w。不錯，這與學習英文時要背的成千上萬個同名的東西的確關系不大 :)

\d+匹配1個或更多連續的數字。這里的+是和*類似的元字符，不同的是*匹配重復任意次(可能是0次)，而+則匹配重復1次或更多次。

\b\w{6}\b 匹配剛好6個字符的單詞。

表1.常用的元字符代碼說明.匹配除換行符以外的任意字符\w匹配字母或數字或下劃線或漢字\s匹配任意的空白符\d匹配數字\b匹配單詞的開始或結束^匹配字符串的開始$匹配字符串的結束

正則表達式引擎通常會提供一個“測試指定的字符串是否匹配一個正則表達式”的方法，如JavaScript里的RegExp.test()方法或.NET里的Regex.IsMatch()方法。這里的匹配是指是字符串里有沒有符合表達式規則的部分。如果不使用^和$的話，對于\d{5,12}而言，使用這樣的方法就只能保證字符串里包含5到12連續位數字，而不是整個字符串就是5到12位數字。

元字符^（和數字6在同一個鍵位上的符號）和$都匹配一個位置，這和\b有點類似。^匹配你要用來查找的字符串的開頭，$匹配結尾。這兩個代碼在驗證輸入的內容時非常有用，比如一個網站如果要求你填寫的QQ號必須為5位到12位數字時，可以使用：^\d{5,12}$。

這里的{5,12}和前面介紹過的{2}是類似的，只不過{2}匹配只能不多不少重復2次，{5,12}則是重復的次數不能少于5次，不能多于12次，否則都不匹配。

因為使用了^和$，所以輸入的整個字符串都要用來和\d{5,12}來匹配，也就是說整個輸入必須是5到12個數字，因此如果輸入的QQ號能匹配這個正則表達式的話，那就符合要求了。

和忽略大小寫的選項類似，有些正則表達式處理工具還有一個處理多行的選項。如果選中了這個選項，^和$的意義就變成了匹配行的開始處和結束處。

字符轉義

如果你想查找元字符本身的話，比如你查找.,或者*,就出現了問題：你沒辦法指定它們，因為它們會被解釋成別的意思。這時你就得使用\來取消這些字符的特殊意義。因此，你應該使用\.和\*。當然，要查找\本身，你也得用\.

例如：unibetter\.com匹配unibetter.com，C:\Windows匹配C:\Windows。

重復

你已經看過了前面的*,+,{2},{5,12}這幾個匹配重復的方式了。下面是正則表達式中所有的限定符(指定數量的代碼，例如*,{5,12}等)：

表2.常用的限定符代碼/語法說明*重復零次或更多次+重復一次或更多次?重復零次或一次{n}重復n次{n,}重復n次或更多次{n,m}重復n到m次

下面是一些使用重復的例子：

Windows\d+匹配Windows后面跟1個或更多數字

^\w+匹配一行的第一個單詞(或整個字符串的第一個單詞，具體匹配哪個意思得看選項設置)

字符類

要想查找數字，字母或數字，空白是很簡單的，因為已經有了對應這些字符集合的元字符，但是如果你想匹配沒有預定義元字符的字符集合(比如元音字母a,e,i,o,u),應該怎么辦？

很簡單，你只需要在方括號里列出它們就行了，像[aeiou]就匹配任何一個英文元音字母，[.?!]匹配標點符號(.或?或!)。

我們也可以輕松地指定一個字符范圍，像[0-9]代表的含意與\d就是完全一致的：一位數字；同理[a-z0-9A-Z_]也完全等同于\w（如果只考慮英文的話）。

下面是一個更復雜的表達式：\(?0\d{2}[) -]?\d{8}。

“(”和“)”也是元字符，后面的分組節里會提到，所以在這里需要使用轉義。

這個表達式可以匹配幾種格式的電話號碼，像(010)88886666，或022-22334455，或02912345678等。我們對它進行一些分析吧：首先是一個轉義字符\(,它能出現0次或1次(?),然后是一個0，后面跟著2個數字(\d{2})，然后是)或-或空格中的一個，它出現1次或不出現(?)，最后是8個數字(\d{8})。

分枝條件

不幸的是，剛才那個表達式也能匹配010)12345678或(022-87654321這樣的“不正確”的格式。要解決這個問題，我們需要用到分枝條件。正則表達式里的分枝條件指的是有幾種規則，如果滿足其中任意一種規則都應該當成匹配，具體方法是用|把不同的規則分隔開。聽不明白？沒關系，看例子：

0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字號分隔的電話號碼：一種是三位區號，8位本地號(如010-12345678)，一種是4位區號，7位本地號(0376-2233445)。

$0\d{2}$[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達式匹配3位區號的電話號碼，其中區號可以用小括號括起來，也可以不用，區號與本地號間可以用連字號或空格間隔，也可以沒有間隔。你可以試試用分枝條件把這個表達式擴展成也支持4位區號的。

\d{5}-\d{4}|\d{5}這個表達式用于匹配美國的郵政編碼。美國郵編的規則是5位數字，或者用連字號間隔的9位數字。之所以要給出這個例子是因為它能說明一個問題：使用分枝條件時，要注意各個條件的順序。如果你把它改成\d{5}|\d{5}-\d{4}的話，那么就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配分枝條件時，將會從左到右地測試每個條件，如果滿足了某個分枝的話，就不會去再管其它的條件了。

分組

我們已經提到了怎么重復單個字符（直接在字符后面加上限定符就行了）；但如果想要重復多個字符又該怎么辦？你可以用小括號來指定子表達式(也叫做分組)，然后你就可以指定這個子表達式的重復次數了，你也可以對子表達式進行其它一些操作(后面會有介紹)。

(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式，請按下列順序分析它：\d{1,3}匹配1到3位的數字，(\d{1,3}\.){3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重復3次，最后再加上一個一到三位的數字(\d{1,3})。

IP地址中每個數字都不能大于255，大家千萬不要被《24》第三季的編劇給忽悠了……

不幸的是，它也將匹配256.300.888.999這種不可能存在的IP地址。如果能使用算術比較的話，或許能簡單地解決這個問題，但是正則表達式中并不提供關于數學的任何功能，所以只能使用冗長的分組，選擇，字符類來描述一個正確的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?，這里我就不細說了，你自己應該能分析得出來它的意義。

反義

有時需要查找不屬于某個能簡單定義的字符類的字符。比如想查找除了數字以外，其它任意字符都行的情況，這時需要用到反義：

表3.常用的反義代碼代碼/語法說明\W匹配任意不是字母，數字，下劃線，漢字的字符\S匹配任意不是空白符的字符\D匹配任意非數字的字符\B匹配不是單詞開頭或結束的位置[^x]匹配除了x以外的任意字符[^aeiou]匹配除了aeiou這幾個字母以外的任意字符

例子：\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括號括起來的以a開頭的字符串。

后向引用

使用小括號指定一個子表達式后，匹配這個子表達式的文本(也就是此分組捕獲的內容)可以在表達式或其它程序中作進一步的處理。默認情況下，每個分組會自動擁有一個組號，規則是：從左向右，以分組的左括號為標志，第一個出現的分組的組號為1，第二個為2，以此類推。

呃……其實,組號分配還不像我剛說得那么簡單：

分組0對應整個正則表達式
實際上組號分配過程是要從左向右掃描兩遍的：第一遍只給未命名組分配，第二遍只給命名組分配－－因此所有命名組的組號都大于未命名的組號
你可以使用(?:exp)這樣的語法來剝奪一個分組對組號分配的參與權．

后向引用用于重復搜索前面某個分組匹配的文本。例如，代表分組1匹配的文本。難以理解？請看示例：

\b(\w+)\b\s+\b可以用來匹配重復的單詞，像go go, 或者kitty kitty。這個表達式首先是一個單詞，也就是單詞開始處和結束處之間的多于一個的字母或數字(\b(\w+)\b)，這個單詞會被捕獲到編號為1的分組中，然后是1個或幾個空白符(\s+)，最后是分組1中捕獲的內容（也就是前面匹配的那個單詞）()。

你也可以自己指定子表達式的組名。要指定一個子表達式的組名，請使用這樣的語法：(?<Word>\w+)(或者把尖括號換成'也行：(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容，你可以使用\k<Word>,所以上一個例子也可以寫成這樣：\b(?<Word>\w+)\b\s+\k<Word>\b。

使用小括號的時候，還有很多特定用途的語法。下面列出了最常用的一些：

表4.常用分組語法分類代碼/語法說明捕獲(exp)匹配exp,并捕獲文本到自動命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里，也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本，也不給此分組分配組號零寬斷言(?=exp)匹配exp前面的位置(?<=exp)匹配exp后面的位置(?!exp)匹配后面跟的不是exp的位置(?<!exp)匹配前面不是exp的位置注釋(?#comment)這種類型的分組不對正則表達式的處理產生任何影響，用于提供注釋讓人閱讀

我們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式，只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組里面，也不會擁有組號。“我為什么會想要這樣做？”——好問題，你覺得為什么呢？

零寬斷言

地球人，是不是覺得這些術語名稱太復雜，太難記了？我也有同感。知道有這么一種東西就行了，它叫什么，隨它去吧！人若無名，便可專心練劍；物若無名，便可隨意取舍……

接下來的四個用于查找在某些內容(但并不包括這些內容)之前或之后的東西，也就是說它們像\b,^,$那樣用于指定一個位置，這個位置應該滿足一定的條件(即斷言)，因此它們也被稱為零寬斷言。最好還是拿例子來說明吧：

斷言用來聲明一個應該為真的事實。正則表達式中只有當斷言為真時才會繼續進行匹配。

(?=exp)也叫零寬度正預測先行斷言，它斷言自身出現的位置的后面能匹配表達式exp。比如\b\w+(?=ing\b)，匹配以ing結尾的單詞的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.時，它會匹配sing和danc。

(?<=exp)也叫零寬度正回顧后發斷言，它斷言自身出現的位置的前面能匹配表達式exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的后半部分(除了re以外的部分)，例如在查找reading a book時，它匹配ading。

假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了)，你可以這樣查找需要在前面和里面添加逗號的部分：((?<=\d)\d{3})+\b，用它對1234567890進行查找時結果是234567890。

下面這個例子同時使用了這兩種斷言：(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調，不包括這些空白符)。

負向零寬斷言

前面我們提到過怎么查找不是某個字符或不在某個字符類里的字符的方法(反義)。但是如果我們只是想要確保某個字符沒有出現，但并不想去匹配它時怎么辦？例如，如果我們想查找這樣的單詞--它里面出現了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣：

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳，直接就觀察出來了)，你會發現，如果q出現在單詞的結尾的話，像Iraq,Benq，這個表達式就會出錯。這是因為[^u]總要匹配一個字符，所以如果q是單詞的最后一個字符的話，后面的[^u]將會匹配q后面的單詞分隔符(可能是空格，或者是句號或其它的什么)，后面的\w*\b將會匹配下一個單詞，于是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向零寬斷言能解決這樣的問題，因為它只匹配一個位置，并不消費任何字符。現在，我們可以這樣來解決這個問題：\b\w*q(?!u)\w*\b。

零寬度負預測先行斷言(?!exp)，斷言此位置的后面不能匹配表達式exp。例如：\d{3}(?!\d)匹配三位數字，而且這三位數字的后面不能是數字；\b((?!abc)\w)+\b匹配不包含連續字符串abc的單詞。

同理，我們可以用(?<!exp),零寬度負回顧后發斷言來斷言此位置的前面不能匹配表達式exp：(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字。

請詳細分析表達式(?<=<(\w+)>).*(?=<\/>)，這個表達式最能表現零寬斷言的真正用途。

一個更復雜的例子：(?<=<(\w+)>).*(?=<\/>)匹配不包含屬性的簡單HTML標簽內里的內容。(?<=<(\w+)>)指定了這樣的前綴：被尖括號括起來的單詞(比如可能是<b>)，然后是.*(任意的字符串),最后是一個后綴(?=<\/>)。注意后綴里的\/，它用到了前面提過的字符轉義；則是一個反向引用，引用的正是捕獲的第一組，前面的(\w+)匹配的內容，這樣如果前綴實際上是<b>的話，后綴就是</b>了。整個表達式匹配的是<b>和</b>之間的內容(再次提醒，不包括前綴和后綴本身)。

注釋

小括號的另一種用途是通過語法(?#comment)來包含注釋。例如：2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。

要包含注釋的話，最好是啟用“忽略模式里的空白符”選項，這樣在編寫表達式時能任意的添加空格，Tab，換行，而實際使用時這些都將被忽略。啟用這個選項后，在#后面到這一行結束的所有文本都將被當成注釋忽略掉。例如，我們可以前面的一個表達式寫成這樣：

 (?<= # 斷言要匹配的文本的前綴
 <(\w+)> # 查找尖括號括起來的字母或數字(即HTML/XML標簽)
 ) # 前綴結束
 .* # 匹配任意文本
 (?= # 斷言要匹配的文本的后綴
 <\/\1> # 查找尖括號括起來的內容：前面是一個"/"，后面是先前捕獲的標簽
 ) # 后綴結束

貪婪與懶惰

當正則表達式中包含能接受重復的限定符時，通常的行為是（在使整個表達式能得到匹配的前提下）匹配盡可能多的字符。以這個表達式為例：a.*b，它將會匹配最長的以a開始，以b結束的字符串。如果用它來搜索aabab的話，它會匹配整個字符串aabab。這被稱為貪婪匹配。

有時，我們更需要懶惰匹配，也就是匹配盡可能少的字符。前面給出的限定符都可以被轉化為懶惰匹配模式，只要在它后面加上一個問號?。這樣.*?就意味著匹配任意數量的重復，但是在能使整個匹配成功的前提下使用最少的重復。現在看看懶惰版的例子吧：

a.*?b匹配最短的，以a開始，以b結束的字符串。如果把它應用于aabab的話，它會匹配aab（第一到第三個字符）和ab（第四到第五個字符）。

為什么第一個匹配是aab（第一到第三個字符）而不是ab（第二到第三個字符）？簡單地說，因為正則表達式有另一條規則，比懶惰／貪婪規則的優先級更高：最先開始的匹配擁有最高的優先權——The match that begins earliest wins。

表5.懶惰限定符代碼/語法說明*?重復任意次，但盡可能少重復+?重復1次或更多次，但盡可能少重復??重復0次或1次，但盡可能少重復{n,m}?重復n到m次，但盡可能少重復{n,}?重復n次以上，但盡可能少重復

處理選項

在C#中，你可以使用Regex(String, RegexOptions)構造函數來設置正則表達式的處理選項。如：Regex regex = new Regex(@"\ba\w{6}\b", RegexOptions.IgnoreCase);

上面介紹了幾個選項如忽略大小寫，處理多行等，這些選項能用來改變處理正則表達式的方式。下面是.Net中常用的正則表達式選項：

表6.常用的處理選項名稱說明IgnoreCase(忽略大小寫)匹配時不區分大小寫。Multiline(多行模式)更改^和$的含義，使它們分別在任意一行的行首和行尾匹配，而不僅僅在整個字符串的開頭和結尾匹配。(在此模式下,$的精確含意是:匹配\n之前的位置以及字符串結束前的位置.)Singleline(單行模式)更改.的含義，使它與每一個字符匹配（包括換行符\n）。IgnorePatternWhitespace(忽略空白)忽略表達式中的非轉義空白并啟用由#標記的注釋。ExplicitCapture(顯式捕獲)僅捕獲已被顯式命名的組。

一個經常被問到的問題是：是不是只能同時使用多行模式和單行模式中的一種？答案是：不是。這兩個選項之間沒有任何關系，除了它們的名字比較相似（以至于讓人感到疑惑）以外。

平衡組/遞歸匹配

這里介紹的平衡組語法是由.Net Framework支持的；其它語言／庫不一定支持這種功能，或者支持此功能但需要使用不同的語法。

有時我們需要匹配像( 100 * ( 50 + 15 ) )這樣的可嵌套的層次性結構，這時簡單地使用$.+$則只會匹配到最左邊的左括號和最右邊的右括號之間的內容(這里我們討論的是貪婪模式，懶惰模式也有下面的問題)。假如原來的字符串里的左括號和右括號出現的次數不相等，比如( 5 / ( 3 + 2 ) ) )，那我們的匹配結果里兩者的個數也不會相等。有沒有辦法在這樣的字符串里匹配到最長的，配對的括號之間的內容呢？

為了避免(和\(把你的大腦徹底搞糊涂，我們還是用尖括號代替圓括號吧。現在我們的問題變成了如何把xx <aa <bbb> <bbb> aa> yy這樣的字符串里，最長的配對的尖括號內的內容捕獲出來？

這里需要用到以下的語法構造：

(?'group') 把捕獲的內容命名為group,并壓入堆棧(Stack)
(?'-group') 從堆棧上彈出最后壓入堆棧的名為group的捕獲內容，如果堆棧本來為空，則本分組的匹配失敗
(?(group)yes|no) 如果堆棧上存在以名為group的捕獲內容的話，繼續匹配yes部分的表達式，否則繼續匹配no部分
(?!) 零寬負向先行斷言，由于沒有后綴表達式，試圖匹配總是失敗

如果你不是一個程序員（或者你自稱程序員但是不知道堆棧是什么東西），你就這樣理解上面的三種語法吧：第一個就是在黑板上寫一個"group"，第二個就是從黑板上擦掉一個"group"，第三個就是看黑板上寫的還有沒有"group"，如果有就繼續匹配yes部分，否則就匹配no部分。

我們需要做的是每碰到了左括號，就在壓入一個"Open",每碰到一個右括號，就彈出一個，到了最后就看看堆棧是否為空－－如果不為空那就證明左括號比右括號多，那匹配就應該失敗。正則表達式引擎會進行回溯(放棄最前面或最后面的一些字符)，盡量使整個表達式得到匹配。

< #最外層的左括號
 [^<>]* #最外層的左括號后面的不是括號的內容
 (
 (
 (?'Open'<) #碰到了左括號，在黑板上寫一個"Open"
 [^<>]* #匹配左括號后面的不是括號的內容
 )+
 (
 (?'-Open'>) #碰到了右括號，擦掉一個"Open"
 [^<>]* #匹配右括號后面不是括號的內容
 )+
 )*
 (?(Open)(?!)) #在遇到最外層的右括號前面，判斷黑板上還有沒有沒擦掉的"Open"；如果還有，則匹配失敗
> #最外層的右括號

平衡組的一個最常見的應用就是匹配HTML,下面這個例子可以匹配嵌套的<div>標簽：<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>.

還有些什么東西沒提到

上邊已經描述了構造正則表達式的大量元素，但是還有很多沒有提到的東西。下面是一些未提到的元素的列表，包含語法和簡單的說明。你可以在網上找到更詳細的參考資料來學習它們--當你需要用到它們的時候。如果你安裝了MSDN Library,你也可以在里面找到.net下正則表達式詳細的文檔。

這里的介紹很簡略，如果你需要更詳細的信息，而又沒有在電腦上安裝MSDN Library,可以查看關于正則表達式語言元素的MSDN在線文檔。

表7.尚未詳細討論的語法代碼/語法說明\a報警字符(打印它的效果是電腦嘀一聲)\b通常是單詞分界位置，但如果在字符類里使用代表退格\t制表符，Tab\r回車\v豎向制表符\f換頁符\n換行符\eEscape>代碼/語法說明\a報警字符(打印它的效果是電腦嘀一聲)\b通常是單詞分界位置，但如果在字符類里使用代表退格\t制表符，Tab\r回車\v豎向制表符\f換頁符\n換行符\eEscape\0nnASCII代碼中八進制代碼為nn的字符\xnnASCII代碼中十六進制代碼為nn的字符\unnnnUnicode代碼中十六進制代碼為nnnn的字符\cNASCII控制字符。比如\cC代表Ctrl+C\A字符串開頭(類似^，但不受處理多行選項的影響)\Z字符串結尾或行尾(不受處理多行選項的影響)\z字符串結尾(類似$，但不受處理多行選項的影響)\G當前搜索的開頭\p{name}Unicode中命名為name的字符類，例如\p{IsGreek}(?>exp)貪婪子表達式(?<x>-<y>exp)平衡組(?im-nsx:exp)在子表達式exp中改變處理選項(?im-nsx)為表達式后面的部分改變處理選項(?(exp)yes|no)把exp當作零寬正向先行斷言，如果在這個位置能匹配，使用yes作為此組的表達式；否則使用no(?(exp)yes)同上，只是使用空表達式作為no(?(name)yes|no)如果命名為name的組捕獲到了內容，使用yes作為表達式；否則使用no(?(name)yes)同上，只是使用空表達式作為no<>

網上的資源及本文參考文獻

微軟的正則表達式教程
System.Text.RegularExpressions.Regex類(MSDN)
專業的正則表達式教學網站(英文)
關于.Net下的平衡組的詳細討論（英文）
Mastering Regular Expressions (Second Edition)

在

你已經會使用 python 模擬瀏覽器

進行一些 Http 的請求了

那么請求完之后

服務器返回給我們一堆源代碼

我們可不是啥都要的啊

我們是有原則的

我們想要的東西

怎么能一股腦的啥都往自己兜里塞呢？

使不得

所以

在服務器返回給我們的源碼之中

我們要過濾

拿到我們想要的就好

其它就丟一旁

那么

我們就需要學會怎么使用

正則表達式

通過它

我們才能過濾出我們想要的內容

...

接下來就是

學習 python 的正確姿勢

真香警告

這篇文章不適合急性子的人看，要不然會把手機砸了的！但是，如果你能看完，那么正則表達式對你來說，算個 p 的難度啊？

其實

正則表達式不僅僅適用于 python

很多編程語言

很多地方都會使用到正則

試想一下

如何從下面這段字符串中快速檢索所有的數字出來呢？

zui12shu234ai45der6en7sh88ixia7898os0huaib

簡單來說

正則表達式就是定義一些特殊的符號

來匹配不同的字符

比如

就可以代表

一個數字，等價于 0-9 的任意一個

那么你肯定想知道

其它的特殊符號表示的啥意思吧？

恩

就不告訴你

本篇完

再見

這是各種符號的解釋

字符描述\將下一個字符標記為一個特殊字符（File Format Escape，清單見本表）、或一個原義字符（Identity Escape，有^$()*+?.[\{|共計12個)、或一個向后引用（backreferences）、或一個八進制轉義符。例如，“n”匹配字符“n”。“\n”匹配一個換行符。序列“\”匹配“\”而“\(”則匹配“(”。^匹配輸入字符串的開始位置。如果設置了RegExp對象的Multiline屬性，^也匹配“\n”或“\r”之后的位置。$匹配輸入字符串的結束位置。如果設置了RegExp對象的Multiline屬性，$也匹配“\n”或“\r”之前的位置。*匹配前面的子表達式零次或多次。例如，zo*能匹配“z”、“zo”以及“zoo”。*等價于{0,}。+匹配前面的子表達式一次或多次。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等價于{1,}。?匹配前面的子表達式零次或一次。例如，“do(es)?”可以匹配“do”或“does”中的“do”。?等價于{0,1}。{n}n是一個非負整數。匹配確定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的兩個o。{n,}n是一個非負整數。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等價于“o+”。“o{0,}”則等價于“o*”。{n,m}m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價于“o?”。請注意在逗號和兩個數之間不能有空格。?非貪心量化（Non-greedy quantifiers）：當該字符緊跟在任何一個其他重復修飾符（*,+,?，{n}，{n,}，{n,m}）后面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串，而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如，對于字符串“oooo”，“o+?”將匹配單個“o”，而“o+”將匹配所有“o”。.匹配除“\r”“\n”之外的任何單個字符。要匹配包括“\r”“\n”在內的任何字符，請使用像“(.|\r|\n)”的模式。(pattern)匹配pattern并獲取這一匹配的子字符串。該子字符串用于向后引用。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用>貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串，而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如，對于字符串“oooo”，“o+?”將匹配單個“o”，而“o+”將匹配所有“o”。.匹配除“\r”“\n”之外的任何單個字符。要匹配包括“\r”“\n”在內的任何字符，請使用像“(.|\r|\n)”的模式。(pattern)匹配pattern并獲取這一匹配的子字符串。該子字符串用于向后引用。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字符，請使用“$”或“$”。可帶數量后綴。(?:pattern)匹配pattern但不獲取匹配的子字符串（shy groups），也就是說這是一個非獲取匹配，不存儲匹配的子字符串用于向后引用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達式。(?=pattern)正向肯定預查（look ahead positive assert），在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如，“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。預查不消耗字符，也就是說，在一個匹配發生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始。(?!pattern)正向否定預查（negative assert），在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。預查不消耗字符，也就是說，在一個匹配發生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始(?<=pattern)反向（look behind）肯定預查，與正向肯定預查類似，只是方向相反。例如，“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。(?<!pattern)反向否定預查，與正向否定預查類似，只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。x|y沒有包圍在()里，其范圍是整個正則表達式。例如，“z|food”能匹配“z”或“food”。“(?:z|f)ood”則匹配“zood”或“food”。[xyz]字符集合（character class）。匹配所包含的任意一個字符。例如，“[abc]”可以匹配“plain”中的“a”。特殊字符僅有反斜線\保持特殊含義，用于轉義字符。其它特殊字符如星號、加號、各種括號等均作為普通字符。脫字符^如果出現在首位則表示負值字符集合；如果出現在字符串中間就僅作為普通字符。連字符 - 如果出現在字符串中間表示字符范圍描述；如果如果出現在首位（或末尾）則僅作為普通字符。右方括號應轉義出現，也可以作為首位字符出現。[^xyz]排除型字符集合（negated character classes）。匹配未列出的任意字符。例如，“[^abc]”可以匹配“plain”中的“plain”。[a-z]字符范圍。匹配指定范圍內的任意字符。例如，“[a-z]”可以匹配“a”到“z”范圍內的任意小寫字母字符。[^a-z]排除型的字符范圍。匹配任何不在指定范圍內的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范圍內的任意字符。[:name:]增加命名字符類（named character class）[注 1]中的字符到表達式。只能用于<…屬性。要匹配圓括號字符，請使用“$”或“$”。可帶數量后綴。(?:pattern)匹配pattern但不獲取匹配的子字符串（shy groups），也就是說這是一個非獲取匹配，不存儲匹配的子字符串用于向后引用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達式。(?=pattern)正向肯定預查（look ahead positive assert），在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如，“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。預查不消耗字符，也就是說，在一個匹配發生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始。(?!pattern)正向否定預查（negative assert），在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。預查不消耗字符，也就是說，在一個匹配發生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始(?<=pattern)反向（look behind）肯定預查，與正向肯定預查類似，只是方向相反。例如，“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。(?<!pattern)反向否定預查，與正向否定預查類似，只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。x|y沒有包圍在()里，其范圍是整個正則表達式。例如，“z|food”能匹配“z”或“food”。“(?:z|f)ood”則匹配“zood”或“food”。[xyz]字符集合（character class）。匹配所包含的任意一個字符。例如，“[abc]”可以匹配“plain”中的“a”。特殊字符僅有反斜線\保持特殊含義，用于轉義字符。其它特殊字符如星號、加號、各種括號等均作為普通字符。脫字符^如果出現在首位則表示負值字符集合；如果出現在字符串中間就僅作為普通字符。連字符 - 如果出現在字符串中間表示字符范圍描述；如果如果出現在首位（或末尾）則僅作為普通字符。右方括號應轉義出現，也可以作為首位字符出現。[^xyz]排除型字符集合（negated character classes）。匹配未列出的任意字符。例如，“[^abc]”可以匹配“plain”中的“plain”。[a-z]字符范圍。匹配指定范圍內的任意字符。例如，“[a-z]”可以匹配“a”到“z”范圍內的任意小寫字母字符。[^a-z]排除型的字符范圍。匹配任何不在指定范圍內的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范圍內的任意字符。[:name:]增加命名字符類（named character class）[注 1]中的字符到表達式。只能用于方括號表達式。[=elt=]增加當前locale下排序（collate）等價于字符“elt”的元素。例如，[=a=]可能會增加?、á、à、?、?、?、?、?、a、?、?、?、?、ǎ、?、?、?、?、?、?、?、?、ā、?、?、?、?、?、?、?、?、?、?、ɑ 。只能用于方括號表達式。[.elt.]增加排序元素（collation element）elt到表達式中。這是因為某些排序元素由多個字符組成。例如，29個字母表的西班牙語， "CH"作為單個字母排在字母C之后，因此會產生如此排序“cinco, credo, chispa”。只能用于方括號表達式。\b匹配一個單詞邊界，也就是指單詞和空格間的位置。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。\B匹配非單詞邊界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。\cx匹配由x指明的控制字符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的“c”字符。控制字符的值等于x的值最低5比特（即對3210進制的余數）。例如，\cM匹配一個Control-M或回車符。\ca等效于\u0001, \cb等效于\u0002, 等等...\d匹配一個數字字符。等價于[0-9]。注意Unicode正則表達式會匹配全角數字字符。\D匹配一個非數字字符。等價于[^0-9]。\f匹配一個換頁符。等價于\x0c和\cL。\n匹配一個換行符。等價于\x0a和\cJ。\r匹配一個回車符。等價于\x0d和\cM。\s匹配任何空白字符，包括空格、制表符、換頁符等等。等價于[ \f\n\r\t\v]。注意Unicode正則表達式會匹配全角空格符。\S匹配任何非空白字符。等價于[^ \f\n\r\t\v]。\t匹配一個制表符。等價于\x09和\cI。\v匹配一個垂直制表符。等價于\x0b和\cK。\w匹配包括下劃線的任何單詞字符。等價于“[A-Za-z0-9_]”。注意Unicode正則表達式會匹配中文字符。\W匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。\xnn十六進制轉義字符序列。匹配兩個十六進制數字nn表示的字符。例如，“\x41”匹配“A”。“\x041”則等價于“\x04&1”。正則表達式中可以使用ASCII編碼。.\num向后引用（back-reference）一個子字符串（substring），該子字符串與正則表達式的第num個用括號圍起來的捕捉群（capture group）子表達式（subexpression）匹配。其中num是從1開始的十進制正整數，其上限可能是9[注 2]、31[注 3]、99甚至無限[注 4]。例如：“(.)”匹配兩個連續的相同字符。\n標識一個八進制轉義值或一個向后引用。如果\n之前至少n個獲取的子表達式，則n為向后引用。否則，如果n為八進制數字（0-7），則n為一個八進制轉義值。\nm3位八進制數字，標識一個八進制轉義值或一個向后引用。如果\nm之前至少有nm個獲得子表達式，則nm為向后引用。如果\nm之前至少有n個獲取，則n為一個后跟文字m的向后引用。如果前面的條件都不滿足，若n和m均為八進制數字（0-7），則\nm將匹配八進制轉義值nm。\nml如果n為八進制數字（0-3），且m和l均為八進制數字（0-7），則匹配八進制轉義值nml。\unUnicode轉義字符序列。其中n是一個用四個十六進制數字表示的Unicode字符。例如，\u00A9匹配版權符號（?）。

（來自維基百科）

你能看到這里

也是

不知道你看懵逼了沒？

反正我是不想看了

接下來

才是干貨

小帥b就給你精簡一下

通俗的把最常用的匹配告訴你

字符描述\d代表任意數字，就是阿拉伯數字 0-9 這些玩意。\D大寫的就是和小寫的唱反調，\d 你代表的是任意數字是吧？那么我 \D 就代表不是數字的。\w代表字母，數字，下劃線。也就是 a-z、A-Z、0-9、_。\W跟 \w 唱反調，代表不是字母，不是數字，不是下劃線的。\n代表一個換行。\r代表一個回車。
\f代表換頁。\t代表一個 Tab 。
\s代表所有的空白字符，也就是上面這個：\n、\r、\t、\f。\S

跟 \s 唱反調，代表所有不是空白的字符。

\A代表字符串的開始。\Z代表字符串的結束。^匹配字符串開始的位置。$匹配字符創結束的位置。.代表所有的單個字符，除了 \n \r[...]代表在 [] 范圍內的字符，比如 [a-z] 就代表 a到z的字母[^...]跟 [...] 唱反調，代表不在 [] 范圍內的字符{n}
匹配在 {n} 前面的東西，比如: o{2} 不能匹配 Bob 中的 o ，但是能匹配 food 中的兩個o。{n,m}匹配在 {n,m} 前面的東西，比如：o{1,3} 將匹配“fooooood”中的前三個o。{n，}匹配在 {n,} 前面的東西，比如：o{2,} 不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。*和 {0,} 一個樣，匹配 * 前面的 0 次或多次。比如 zo* 能匹配“z”、“zo”以及“zoo”。+和{1，} 一個樣，匹配 + 前面 1 次或多次。比如 zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。？和{0,1} 一個樣，匹配？前面 0 次或 1 次。
a|b匹配 a 或者 b。（）匹配括號里面的內容。

知道了這些之后

我們怎么用 python 來進行判斷呢？

那就要使用到 python 的庫了

它就是

接下來我們就來使用 re 模塊

對其常用的方法

來使用正則表達式

re.match

使用這個方法

主要傳入兩個參數

第一個就是我們的匹配規則

第二個就是需要被過濾的內容

例如

我們想要從這

Xiaoshuaib has 100 bananas

拿到一個數字

那么我們就可以這樣

import re
content = 'Xiaoshuaib has 100 bananas'
res = re.match('^Xi.*(\d+)\s.*s$',content)
print(res.group(1))

通過我們剛剛說的匹配符號

可以定義出相應的匹配規則

在這里我們將我們需要的目標內容用 () 括起來

此刻我們獲得結果是

那么如果我們想要 100 這個數字呢？

可以這樣

import re
content = 'Xiaoshuaib has 100 bananas'
res = re.match('^Xi.*?(\d+)\s.*s$',content)
print(res.group(1))

看出區別了么

第二段代碼我們多了一個？符號

在這里呢

涉及到兩個概念

一個是

貪婪匹配

另一個是

非貪婪匹配

所謂貪婪匹配

就是我們的第一段代碼

一個數一個數都要去匹配

而非貪婪呢

我們是直接把 100 給匹配出來了

剛剛我們用到的

.*？

是我們在匹配過程中最常使用到的

表示的就是匹配任意字符

但是

.*？的 . 代表所有的單個字符，除了 \n \r

如果我們的字符串有換行了

怎么辦呢？

比如這樣

content = """Xiaoshuaib has 100 
bananas"""

那么我們就需要用到 re 的匹配模式了

說來也簡單

直接用 re.S 就可以了

import re
content = """Xiaoshuaib has 100 
bananas"""
res = re.match('^Xi.*?(\d+)\s.*s$',content,re.S)
print(res.group(1))

可能有些朋友會覺得

匹配一個東西還要寫開頭結尾

有點麻煩

那么就可以使用 re 的另一個方法了

re.search

它會直接去掃描字符串

然后把匹配成功的第一個結果的返回給你

import re
content = """Xiaoshuaib has 100 
bananas"""
res = re.search('Xi.*?(\d+)\s.*s',content,re.S)
print(res.group(1))

這樣子也是可以獲取 100 的

但是如果我們的內容是這樣的

content = """Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;"""

想要獲取所有的 100 呢？

這時候就要用到 re 的另一個方法了

re.findall

通過它我們就能輕松的獲取所有匹配的內容了

import re
content = """Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;"""
res = re.findall('Xi.*?(\d+)\s.*?s;',content,re.S)
print(res)

這里的結果是

['100', '100', '100', '100']

又有朋友覺得

如果我們想直接替換匹配的內容呢

就比如剛剛的字符串

可不可以把 100 直接替換成 250 呢？

那就要用到 re 的另一個方法了

re.sub

可以這樣

import re
content = """Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;"""
content = re.sub('\d+','250',content)
print(content)

那么結果就變成了

Xiaoshuaib has 250 bananas;

250 個香蕉

吃....得完么？？

再來說說 re 的另一個常用到的方法吧

re.compile

這個主要就是把我們的匹配符封裝一下

import re
content = "Xiaoshuaib has 100 bananas"
pattern = re.compile('Xi.*?(\d+)\s.*s',re.S)
res = re.match(pattern,content)
print(res.group(1))

其實和我們之前寫的一樣的

res = re.match('^Xi.*?(\d+)\s.*s$',content,re.S)

只不過 compile 一下

便于以后復用

好了

關于 re 模塊和正則表達式就介紹完啦

知道了怎么請求數據

也知道了將返回的數據如何正則過濾

那么

爬蟲對我們來說還難么？

這次本篇真的完啦

再見

記得來關注我喲！！

在線咨詢

上一篇：Chrome/Safari都輸了：新Edge瀏覽器率先實現100%支持HTML5
下一篇：前端開發CSS學習的3種方法，如何快速的入門CSS？

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。