整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          php去除HTML標簽實例_php實例_腳本之家

          hp修改html標簽中的內容php與html如何配合使用php改變htmlphp過濾htmlphp輸出html標簽

          PHP刪除HTMl標簽的三種解決方法_流年-CSDN博客_php去除htm...

          2017年9月19日 在PHP中可以使用strip_tags函數去除HTML標簽,看下面示例: 復制代碼代碼如下: <?php $str = ‘www<p>dreamdu</p>.com'; echo(htmlspecialchars($str).”<br>”);...

          CSDN技術社區

          百度快照

          php去除HTML標簽實例_php實例_腳本之家

          2013年11月6日 在php中要去除字符串中的HTML標簽方法有很多種,最常用的就是使用strip_tags函數一并去了,只保留字符了,還在就是有選擇性的去除了這里要用正則表達式了,下面寫二...

          HP默認的函數有移除指定html標簽,名稱為strip_tags,在某些場合非常有用。

          strip_tags

          (PHP 3 >= 3.0.8, PHP 4, PHP 5)

          strip_tags — Strip HTML and PHP tags from a string

          string strip_tags ( string str [, string allowable_tags] )

          弊端 :

          這個函數只能保留想要的html標簽,就是參數string allowable_tags。

          這個函數的參數allowable_tags的其他的用法。

          strip_tags($source, ”); 去掉所以的html標簽。

          strip_tags($source, ‘<div><img><em>’); 保留字符串中的div、img、em標簽。

          如果想去掉的html的指定標簽。那么這個函數就不能滿足需求了。于是乎我用到了這個函數。

          /**

          * Removes specific tags.

          */

          function strip_only_tags($str, $tags, $stripContent = FALSE) {

          $content = '';

          if (!is_array($tags)) {

          $tags = (strpos($str, '>') !== false ? explode('>', str_replace('<', '', $tags)) : array($tags));

          if (end($tags) == '') {

          array_pop($tags);

          }

          }

          foreach($tags as $tag) {

          if ($stripContent) {

          $content = '(.+<!--'.$tag.'(-->|\s[^>]*>)|)';

          }

          $str = preg_replace('#<!--?'.$tag.'(-->|\s[^>]*>)'.$content.'#is', '', $str);

          }

          return $str;

          }

          參數說明

          $str — 是指需要過濾的一段字符串,比如div、p、em、img等html標簽。

          $tags — 是指想要移除指定的html標簽,比如a、img、p等。

          $stripContent = FALSE — 移除標簽內的內容,比如將整個鏈接刪除等,默認為False,即不刪除標簽內的內容。

          使用說明

          $target = strip_only_tags($source, array(‘a’,'em’,'b’));

          移除$source字符串內的a、em、b標簽。

          $source='<div><a href="http://www.tsingyaun.cn" target="_blank"><img src="http://www.tsingyuan.cn/logo.png" border="0" alt="Welcome to linzl." />This a example from<em>lixiphp</em></a><strong>!</strong></div>

          ';

          $target = strip_only_tags($source, array('a','em'));

          //target results

          //<div><img src="http://blog.lixiphp.com/logo.png" border="0" alt="Welcome to lixiphp." />This a example from<strong>!</strong></div>

          :left;"

          我平時的工作中,偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽,只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時使用到的集中解析的方法。

          使用正則表達式

          通過爬蟲爬到的HTML內容,從程序角度來講,就是一個字符串。我們可以對其按照純文本處理的方式來處理。

          我們在做文本處理的時候,第一個想到的就是正則表達式。從一個字符串中刪除HTML,對于正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。

          我們常用的的正則就是 <[^>]> 或者 <.*?>

          我們在使用正則的時候,需要注意的是正則默認是貪婪匹配。也就是說,正則表達式<.*> 能夠匹配到更多的HTML內容,而不是單個標簽。

          現在,讓我們測試一下它是否能從HTML源中刪除標簽。

          正則測試刪除標簽1

          在我們測試刪除HTML標簽之前,首先讓我們創建一個HTML例子,例如example1.html

          <!DOCTYPE html>
          <html>
          <head>
              <title>這是標題</title>
          </head>
          <body>
              <p>
                  如果應用程序X沒有啟動,可能的原因是<br/>
                  1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
                  2. 磁盤空間不足<br/>
                  3. 內存不足
              </p>
          </body>
          </html>
          
          

          現在,讓我們寫一個測試,用String.replaceAll()來刪除HTML標簽。

          String html = ... // load example1.html
          String result = html.replaceAll("<[^>]`>", "");
          System.out.println(result);
          

          如果我們運行這個測試方法,我們會看到結果。

              這是標題
          
          
          
                  如果應用程序X沒有啟動,可能的原因是
                  1.Maven沒有安裝
                  2.磁盤空間不足
                  3.沒有足夠的內存
          

          輸出結果保留了剝離后的HTML的空白處。我們在處理提取的文本時,可以很容易地刪除或跳過這些空行或空白處。

          正則測試刪除標簽2

          我們剛才已經看到了,通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題,我們不能預測最終的結果會是怎么樣的。

          例如,一個HTML文檔可能有<script><style>標簽,而我們可能不希望在結果中出現它們的內容。

          此外,<script><style>、甚至是<body>標簽中的文本可能包含 <>字符。如果是這種情況,我們的正則方法可能會出錯。

          現在,讓我們看看另一個例子,比如example2.html

          <!DOCTYPE HTML>
          <html>
          <head>
              <title>這是標題</title>
          </head>
          <script>
              // some js function
          </script>
          <body>
              <p>
                  如果應用程序X沒有啟動,可能的原因是<br/>
                  1. <a
                      id="link"
                      href="http://maven.apache.org/">
                      Maven
                      </a> 沒有安裝<br/>
                  2. 磁盤空間不足 (<1G) <br/>
                  3. 內存不足(<64MB)<br/>
              </p>
          </body>
          </html>
          

          現在我們有一個<script>標簽和 <字符在<body>標簽內。

          如果我們對example2.html使用同樣的方法,我們會得到如下內容。

             這是標題
              // some js function
                  如果應用程序X沒有啟動,可能的原因是
                  1. 
                      Maven
                       沒有安裝
                  2. 磁盤空間不足 (
                  3. 內存不足(
          

          顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。

          使用Jsoup

          Jsoup 是一個流行的HTML解析庫,如果想要從一個HTML文檔中提取文本,我們可以簡單地調用Jsoup.parse(htmlString).text()

          在項目中使用的時候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。

          <dependency>
              <groupId>org.jsoup</groupId>
              <artifactId>jsoup</artifactId>
              <version>1.14.3</version>
          </dependency>
          

          我們用 example2.html來測試一下。

          String html = ... // load example2.html
          System.out.println(Jsoup.parse(html).text());
          

          如果我們讓這個方法運行,它就會打印出來。

          這是標題 如果應用程序X沒有啟動,可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁盤空間 3.沒有足夠的(<64MB)內存
          

          從輸出結果可知,Jsoup已經成功地從HTML文檔中提取了文本。另外,<script>元素中的文本已經被忽略了。

          此外,默認情況下,Jsoup會刪除所有的文本格式和空白處,比如換行符。

          使用HTMLCleaner

          HTMLCleaner 也是一個HTML解析庫。

          首先,我們需要在pom.xml中添加HTMLCleaner 依賴。

          <dependency>
              <groupId>net.sourceforge.htmlcleaner</groupId>
              <artifactId>htmlcleaner</artifactId>
              <version>2.25</version>
          </dependency>
          

          我們可以設置[各種參數](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html時跳過<script>元素。

          String html = ... // load example2.html
          CleanerProperties props = new CleanerProperties();
          props.setPruneTags("script");
          String result = new HtmlCleaner(props).clean(html).getText().toString();
          System.out.println(result);
          

          運行一下,HTMLCleaner將產生這樣的輸出。

          這是標題
          
          
          
                  如果應用程序X沒有啟動,可能的原因是:
                  1.Maven沒有安裝
                  2.沒有足夠的(<1G)磁盤空間
                  3.內存不足(<64MB)
          

          我們可以看到,<script>元素中的內容被忽略了, <br/>標簽轉換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內容。

          總結

          在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。


          主站蜘蛛池模板: 亚洲欧美日韩一区二区三区| 精品无码av一区二区三区| 亚洲一区二区三区香蕉| www亚洲精品少妇裸乳一区二区 | 91一区二区三区四区五区| 狠狠综合久久AV一区二区三区| 久久精品国产免费一区| 无码人妻精品一区二区三区东京热 | 无码aⅴ精品一区二区三区| 色一情一乱一伦一区二区三区| 文中字幕一区二区三区视频播放| 一本一道波多野结衣AV一区| 精品一区二区三区在线观看| 精品人妻少妇一区二区三区不卡| 亚洲一区日韩高清中文字幕亚洲| 中文字幕乱码亚洲精品一区| 久久精品亚洲一区二区| 无码一区二区三区免费| 天美传媒一区二区三区| 亚洲高清日韩精品第一区| 一区二区三区无码高清视频| 中文字幕亚洲综合精品一区| www.亚洲一区| 午夜福利无码一区二区| 亚洲一区二区三区偷拍女厕| 国产一区二区三区视频在线观看 | 国产一区二区在线观看视频| 无码精品视频一区二区三区| 制服美女视频一区| 亚洲欧美日韩中文字幕一区二区三区| 国产91一区二区在线播放不卡| 亚洲熟女综合一区二区三区| 久久青草精品一区二区三区| 国产一区中文字幕| 日本一区二区三区不卡在线视频 | 中文字幕日韩一区二区三区不卡| 一区二区三区无码高清视频| 日本免费精品一区二区三区| 免费日本一区二区| 中文字幕精品无码一区二区三区 | 色综合视频一区二区三区44|