整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          使用python的正則表達式的匹配規則P來匹配HTML標簽及內容

          意事項:P為大寫

          代碼如下所示:

          import re #必須導入內置的正則表達式re模塊
          str='<html><p1><b>zhangsan</b></p1></html>' #設置字符串為html3個標簽以及標簽內部內容,并賦值給str
          pattern1=re.compile(r'<(?P<name1>\w+)><(?P<name2>\w+)><(?P<name3>\w+)>(.+)</(?P=name3)></(?P=name2)></(?P=name1)>')
          #上面這行是設置html3個標簽以及標簽內部內容的正則表達式匹配規則
          result1=re.match(pattern1,str) #代表從頭開始在字符串str中按照匹配規則pattern1進行匹配,并將匹配結果賦值給result1
          print("result1:",result1) #打印匹配的結果result1的值
          print("result1.span():",result1.span()) #打印匹配的結果result1所在的起始位置和結束位置
          print("result1.group():",result1.group()) #按照分組原則打印匹配的結果result1的分組值
          

          代碼運行結果如下:

          result1: <re.Match object; span=(0, 37), match='<html><p1><b>zhangsan</b></p1></html>'>

          result1.span(): (0, 37)

          result1.group(): <html><p1><b>zhangsan</b></p1></html>

          圖片示例如下:

          著互聯網的迅猛發展,信息的獲取變得越來越重要。在這個信息爆炸的時代,如何高效地采集文章列表成為了許多人關注的焦點。在這里,我們為您提供了最全面的采集文章列表正則代碼,助您事半功倍。

          一、匹配標題

          在采集文章列表中,首先需要匹配標題。以下是一個簡單而有效的正則表達式示例:

          <title>(.*?)<\/title>
          

          這個正則表達式可以匹配HTML頁面中的標題標簽,并提取出其中的內容。

          二、提取鏈接

          采集文章列表還需要提取鏈接。以下是一個常用的正則表達式示例:

          (.*?)<\/a>
          

          這個正則表達式可以匹配HTML頁面中的鏈接標簽,并提取出其中的鏈接地址和鏈接文本。

          三、過濾無效鏈接

          在采集文章列表時,經常會遇到一些無效鏈接,我們需要對其進行過濾。以下是一個簡單而實用的正則表達式示例:

          ^(https?|ftp)://[^\s/$.?#].[^\s]*$
          

          這個正則表達式可以過濾掉不符合URL規則的鏈接。

          四、提取日期

          采集文章列表中,經常需要提取發布日期。以下是一個常用的正則表達式示例:

          \d{4}-\d{2}-\d{2}
          

          這個正則表達式可以匹配日期格式為YYYY-MM-DD的字符串。

          五、提取作者

          有時候,我們還需要提取文章列表中的作者信息。以下是一個簡單的正則表達式示例:

          <span class="author">(.*?)<\/span>
          

          這個正則表達式可以匹配HTML頁面中的作者標簽,并提取出其中的內容。

          六、分頁處理

          在采集文章列表時,通常會遇到分頁的情況。以下是一個常用的正則表達式示例:

          下一頁<\/a>
          

          這個正則表達式可以匹配HTML頁面中下一頁鏈接標簽,并提取出其中的鏈接地址。

          七、異常處理

          在采集文章列表過程中,可能會遇到一些異常情況,比如網頁無法訪問或者超時等。對于這些情況,我們可以使用異常處理機制進行處理,保證采集任務的穩定進行。

          八、其他注意事項

          在采集文章列表時,還需要注意一些細節問題。比如設置合適的請求頭、處理編碼問題、合理設置請求間隔等等。

          通過以上8點內容,我們詳細介紹了如何使用正則表達式采集文章列表。這些正則代碼將極大地提高您的工作效率,助您事半功倍。無論您是研究人員、程序員還是數據分析師,掌握這些技巧都會對您的工作產生積極的幫助。

          在這個信息時代,采集文章列表成為了許多人必備的技能。相信通過我們提供的最全面的采集文章列表正則代碼,您一定能夠更加高效地獲取所需信息。讓我們一起迎接信息時代的挑戰吧!

          試一個正則,差不多能匹配所有的url。

          測試url的數組

          $url_arr=array(

          "https://www.a12.com/url/Url-4-PU-UK-ug-AC/123.html",

          "https://www.a12.com/url/url-4-pu-uk-ug-ac/123.html",

          "http://www.a12.com",

          "https://pan.baidu.com/s/1e11w",

          "pan.baidu.com/s/1E11W",

          "pan.baidu.com/s/1e11w",

          'ftp://166.111.161.47',

          'ftp.math.cuhk.edu.hk',

          'www.baidu',

          );

          正則

          $reg='/^((https?|ftp|news):\/\/)?([a-z]([a-z0-9\-]*[\.。])+([a-z]{2}|aero|arpa|biz|com|coop|edu|';

          $reg.='gov|info|int|jobs|mil|museum|name|nato|net|org|pro|travel)|(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}';

          $reg.='([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]))(\/[a-z0-9_\-\.~]+)*(\/([a-z0-9_\-\.]*)(\?[a-z0-9+_\-\.%=&]*)?)?(#[a-z][a-z0-9_]*)?$/';

          便利匹配

          $str='';

          foreach ($url_arr as $k => $v) {

          $str .= preg_match($reg,$v);

          }

          var_dump($str);

          結果


          主站蜘蛛池模板: 国产高清一区二区三区四区| 国产人妖视频一区二区破除| 中文乱码字幕高清一区二区| 国产精品成人一区无码| 色视频综合无码一区二区三区| 久久精品国产免费一区| 日本一区二区高清不卡| 国产在线一区二区三区| 无码人妻一区二区三区免费视频| 精品午夜福利无人区乱码一区| 日韩人妻无码一区二区三区| 深夜福利一区二区| 日韩久久精品一区二区三区| 亚洲熟女综合色一区二区三区 | 亚洲一区无码中文字幕乱码| 三上悠亚精品一区二区久久| 精品少妇一区二区三区在线| 日本一区二区高清不卡| 一区二区三区91| 四虎永久在线精品免费一区二区 | 精品一区二区三区水蜜桃| 国模无码一区二区三区| 日本精品无码一区二区三区久久久| 日韩一区二区久久久久久| 国产人妖视频一区二区| 亚洲夜夜欢A∨一区二区三区| 相泽亚洲一区中文字幕| 综合人妻久久一区二区精品| 国偷自产Av一区二区三区吞精 | 精品国产亚洲第一区二区三区| 亚洲色一区二区三区四区| 久久精品国内一区二区三区| 成人精品一区二区三区电影| 国产一区二区三区电影| 亚洲性日韩精品一区二区三区 | 国产精品一区二区久久精品涩爱| 老熟女五十路乱子交尾中出一区 | 果冻传媒一区二区天美传媒| 亚洲乱码日产一区三区| 亚洲无圣光一区二区| 成人免费一区二区无码视频 |