使用python的正則表達式的匹配規則P來匹配HTML標簽及內容

意事項：P為大寫

代碼如下所示：

import re #必須導入內置的正則表達式re模塊
str='<html><p1><b>zhangsan</b></p1></html>' #設置字符串為html3個標簽以及標簽內部內容，并賦值給str
pattern1=re.compile(r'<(?P<name1>\w+)><(?P<name2>\w+)><(?P<name3>\w+)>(.+)</(?P=name3)></(?P=name2)></(?P=name1)>')
#上面這行是設置html3個標簽以及標簽內部內容的正則表達式匹配規則
result1=re.match(pattern1,str) #代表從頭開始在字符串str中按照匹配規則pattern1進行匹配，并將匹配結果賦值給result1
print("result1:",result1) #打印匹配的結果result1的值
print("result1.span():",result1.span()) #打印匹配的結果result1所在的起始位置和結束位置
print("result1.group():",result1.group()) #按照分組原則打印匹配的結果result1的分組值

代碼運行結果如下：

result1: <re.Match object; span=(0, 37), match='<html><p1><b>zhangsan</b></p1></html>'>

result1.span(): (0, 37)

result1.group(): <html><p1><b>zhangsan</b></p1></html>

圖片示例如下：

著互聯網的迅猛發展，信息的獲取變得越來越重要。在這個信息爆炸的時代，如何高效地采集文章列表成為了許多人關注的焦點。在這里，我們為您提供了最全面的采集文章列表正則代碼，助您事半功倍。

一、匹配標題

在采集文章列表中，首先需要匹配標題。以下是一個簡單而有效的正則表達式示例：

<title>(.*?)<\/title>

這個正則表達式可以匹配HTML頁面中的標題標簽，并提取出其中的內容。

二、提取鏈接

采集文章列表還需要提取鏈接。以下是一個常用的正則表達式示例：

(.*?)<\/a>

這個正則表達式可以匹配HTML頁面中的鏈接標簽，并提取出其中的鏈接地址和鏈接文本。

三、過濾無效鏈接

在采集文章列表時，經常會遇到一些無效鏈接，我們需要對其進行過濾。以下是一個簡單而實用的正則表達式示例：

^(https?|ftp)://[^\s/$.?#].[^\s]*$

這個正則表達式可以過濾掉不符合URL規則的鏈接。

四、提取日期

采集文章列表中，經常需要提取發布日期。以下是一個常用的正則表達式示例：

\d{4}-\d{2}-\d{2}

這個正則表達式可以匹配日期格式為YYYY-MM-DD的字符串。

五、提取作者

有時候，我們還需要提取文章列表中的作者信息。以下是一個簡單的正則表達式示例：

<span class="author">(.*?)<\/span>

這個正則表達式可以匹配HTML頁面中的作者標簽，并提取出其中的內容。

六、分頁處理

在采集文章列表時，通常會遇到分頁的情況。以下是一個常用的正則表達式示例：

下一頁<\/a>

這個正則表達式可以匹配HTML頁面中下一頁鏈接標簽，并提取出其中的鏈接地址。

七、異常處理

在采集文章列表過程中，可能會遇到一些異常情況，比如網頁無法訪問或者超時等。對于這些情況，我們可以使用異常處理機制進行處理，保證采集任務的穩定進行。

八、其他注意事項

在采集文章列表時，還需要注意一些細節問題。比如設置合適的請求頭、處理編碼問題、合理設置請求間隔等等。

通過以上8點內容，我們詳細介紹了如何使用正則表達式采集文章列表。這些正則代碼將極大地提高您的工作效率，助您事半功倍。無論您是研究人員、程序員還是數據分析師，掌握這些技巧都會對您的工作產生積極的幫助。

在這個信息時代，采集文章列表成為了許多人必備的技能。相信通過我們提供的最全面的采集文章列表正則代碼，您一定能夠更加高效地獲取所需信息。讓我們一起迎接信息時代的挑戰吧！

試一個正則，差不多能匹配所有的url。

測試url的數組

$url_arr=array(
"https://www.a12.com/url/Url-4-PU-UK-ug-AC/123.html",
"https://www.a12.com/url/url-4-pu-uk-ug-ac/123.html",
"http://www.a12.com",
"https://pan.baidu.com/s/1e11w",
"pan.baidu.com/s/1E11W",
"pan.baidu.com/s/1e11w",
'ftp://166.111.161.47',
'ftp.math.cuhk.edu.hk',
'www.baidu',
);

正則

$reg='/^((https?|ftp|news):\/\/)?([a-z]([a-z0-9\-]*[\.。])+([a-z]{2}|aero|arpa|biz|com|coop|edu|';
$reg.='gov|info|int|jobs|mil|museum|name|nato|net|org|pro|travel)|(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}';
$reg.='([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]))(\/[a-z0-9_\-\.~]+)*(\/([a-z0-9_\-\.]*)(\?[a-z0-9+_\-\.%=&]*)?)?(#[a-z][a-z0-9_]*)?$/';

便利匹配

$str='';

foreach ($url_arr as $k => $v) {

$str .= preg_match($reg,$v);

}

var_dump($str);

結果

在線咨詢

上一篇：HTML5中Nav元素的正確打開方式
下一篇：超詳細MP4格式分析

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

使用python的正則表達式的匹配規則P來匹配HTML標簽及內容

測試url的數組

正則

便利匹配

結果

您的項目需求