整合營(yíng)銷(xiāo)服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢(xún)熱線:

          終于搞懂如何用Java去除HTML標(biāo)簽了

          我平時(shí)的工作中,偶爾會(huì)用 Java 做一些解析HTML的工作。有的時(shí)候我需要?jiǎng)h除所有的HTML標(biāo)簽,只保留純文字內(nèi)容。這個(gè)問(wèn)題在做過(guò)一些爬蟲(chóng)工作的朋友來(lái)說(shuō)很簡(jiǎn)單。下面來(lái)說(shuō)說(shuō),我們平時(shí)使用到的集中解析的方法。

          使用正則表達(dá)式

          通過(guò)爬蟲(chóng)爬到的HTML內(nèi)容,從程序角度來(lái)講,就是一個(gè)字符串。我們可以對(duì)其按照純文本處理的方式來(lái)處理。

          我們?cè)谧鑫谋咎幚淼臅r(shí)候,第一個(gè)想到的就是正則表達(dá)式。從一個(gè)字符串中刪除HTML,對(duì)于正則來(lái)說(shuō),還是比較簡(jiǎn)單的。畢竟還是有固定的格式,比如“<...>”。

          我們常用的的正則就是 <[^>]> 或者 <.*?>

          我們?cè)谑褂谜齽t的時(shí)候,需要注意的是正則默認(rèn)是貪婪匹配。也就是說(shuō),正則表達(dá)式<.*> 能夠匹配到更多的HTML內(nèi)容,而不是單個(gè)標(biāo)簽。

          現(xiàn)在,讓我們測(cè)試一下它是否能從HTML源中刪除標(biāo)簽。

          正則測(cè)試刪除標(biāo)簽1

          在我們測(cè)試刪除HTML標(biāo)簽之前,首先讓我們創(chuàng)建一個(gè)HTML例子,例如example1.html

          <!DOCTYPE html>
          <html>
          <head>
              <title>這是標(biāo)題</title>
          </head>
          <body>
              <p>
                  如果應(yīng)用程序X沒(méi)有啟動(dòng),可能的原因是<br/>
                  1. <a href="https://maven.apache.org">Maven</a>沒(méi)有安裝<br/>
                  2. 磁盤(pán)空間不足<br/>
                  3. 內(nèi)存不足
              </p>
          </body>
          </html>
          
          

          現(xiàn)在,讓我們寫(xiě)一個(gè)測(cè)試,用String.replaceAll()來(lái)刪除HTML標(biāo)簽。

          String html = ... // load example1.html
          String result = html.replaceAll("<[^>]`>", "");
          System.out.println(result);
          

          如果我們運(yùn)行這個(gè)測(cè)試方法,我們會(huì)看到結(jié)果。

              這是標(biāo)題
          
          
          
                  如果應(yīng)用程序X沒(méi)有啟動(dòng),可能的原因是
                  1.Maven沒(méi)有安裝
                  2.磁盤(pán)空間不足
                  3.沒(méi)有足夠的內(nèi)存
          

          輸出結(jié)果保留了剝離后的HTML的空白處。我們?cè)谔幚硖崛〉奈谋緯r(shí),可以很容易地刪除或跳過(guò)這些空行或空白處。

          正則測(cè)試刪除標(biāo)簽2

          我們剛才已經(jīng)看到了,通過(guò)使用Regex來(lái)刪除HTML標(biāo)簽是非常簡(jiǎn)單。但是粗暴的使用這種方法會(huì)有很多問(wèn)題,我們不能預(yù)測(cè)最終的結(jié)果會(huì)是怎么樣的。

          例如,一個(gè)HTML文檔可能有<script><style>標(biāo)簽,而我們可能不希望在結(jié)果中出現(xiàn)它們的內(nèi)容。

          此外,<script><style>、甚至是<body>標(biāo)簽中的文本可能包含 <>字符。如果是這種情況,我們的正則方法可能會(huì)出錯(cuò)。

          現(xiàn)在,讓我們看看另一個(gè)例子,比如example2.html

          <!DOCTYPE HTML>
          <html>
          <head>
              <title>這是標(biāo)題</title>
          </head>
          <script>
              // some js function
          </script>
          <body>
              <p>
                  如果應(yīng)用程序X沒(méi)有啟動(dòng),可能的原因是<br/>
                  1. <a
                      id="link"
                      href="http://maven.apache.org/">
                      Maven
                      </a> 沒(méi)有安裝<br/>
                  2. 磁盤(pán)空間不足 (<1G) <br/>
                  3. 內(nèi)存不足(<64MB)<br/>
              </p>
          </body>
          </html>
          

          現(xiàn)在我們有一個(gè)<script>標(biāo)簽和 <字符在<body>標(biāo)簽內(nèi)。

          如果我們對(duì)example2.html使用同樣的方法,我們會(huì)得到如下內(nèi)容。

             這是標(biāo)題
              // some js function
                  如果應(yīng)用程序X沒(méi)有啟動(dòng),可能的原因是
                  1. 
                      Maven
                       沒(méi)有安裝
                  2. 磁盤(pán)空間不足 (
                  3. 內(nèi)存不足(
          

          顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時(shí)候并不是萬(wàn)能的。我們可以使用一些 HTML 解析器來(lái)做這些比較復(fù)雜的場(chǎng)景。

          使用Jsoup

          Jsoup 是一個(gè)流行的HTML解析庫(kù),如果想要從一個(gè)HTML文檔中提取文本,我們可以簡(jiǎn)單地調(diào)用Jsoup.parse(htmlString).text()

          在項(xiàng)目中使用的時(shí)候,我們首先需要添加 jsoup 的依賴(lài)庫(kù),我們這里就通過(guò)maven的方式引入。

          <dependency>
              <groupId>org.jsoup</groupId>
              <artifactId>jsoup</artifactId>
              <version>1.14.3</version>
          </dependency>
          

          我們用 example2.html來(lái)測(cè)試一下。

          String html = ... // load example2.html
          System.out.println(Jsoup.parse(html).text());
          

          如果我們讓這個(gè)方法運(yùn)行,它就會(huì)打印出來(lái)。

          這是標(biāo)題 如果應(yīng)用程序X沒(méi)有啟動(dòng),可能的原因是 1.Maven沒(méi)有安裝 2.沒(méi)有足夠的(<1G)磁盤(pán)空間 3.沒(méi)有足夠的(<64MB)內(nèi)存
          

          從輸出結(jié)果可知,Jsoup已經(jīng)成功地從HTML文檔中提取了文本。另外,<script>元素中的文本已經(jīng)被忽略了。

          此外,默認(rèn)情況下,Jsoup會(huì)刪除所有的文本格式和空白處,比如換行符。

          使用HTMLCleaner

          HTMLCleaner 也是一個(gè)HTML解析庫(kù)。

          首先,我們需要在pom.xml中添加HTMLCleaner 依賴(lài)。

          <dependency>
              <groupId>net.sourceforge.htmlcleaner</groupId>
              <artifactId>htmlcleaner</artifactId>
              <version>2.25</version>
          </dependency>
          

          我們可以設(shè)置[各種參數(shù)](http://htmlcleaner.sourceforge.net/parameters.php)來(lái)控制HTMLCleaner的解析行為。我們?cè)谶@里使用HTMLCleaner在解析example2.html時(shí)跳過(guò)<script>元素。

          String html = ... // load example2.html
          CleanerProperties props = new CleanerProperties();
          props.setPruneTags("script");
          String result = new HtmlCleaner(props).clean(html).getText().toString();
          System.out.println(result);
          

          運(yùn)行一下,HTMLCleaner將產(chǎn)生這樣的輸出。

          這是標(biāo)題
          
          
          
                  如果應(yīng)用程序X沒(méi)有啟動(dòng),可能的原因是:
                  1.Maven沒(méi)有安裝
                  2.沒(méi)有足夠的(<1G)磁盤(pán)空間
                  3.內(nèi)存不足(<64MB)
          

          我們可以看到,<script>元素中的內(nèi)容被忽略了, <br/>標(biāo)簽轉(zhuǎn)換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內(nèi)容。

          總結(jié)

          在這篇文章中,我們學(xué)習(xí)了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過(guò)程中并不是萬(wàn)能的。

          了讓初學(xué)者更容易理解,本文寫(xiě)的比較詳細(xì),所以如果你已是技術(shù)大拿,請(qǐng)直接繞過(guò),以免浪費(fèi)你的寶貴時(shí)間,謝謝。

          相信現(xiàn)在很多網(wǎng)站都有文章功能,有文章就基本上少不了要有個(gè)列表頁(yè),網(wǎng)頁(yè)設(shè)計(jì)師們對(duì)文章列表頁(yè)的設(shè)計(jì)也是五花八門(mén),各有各的創(chuàng)意,那我們就拿ThinkPHP旗下的極思維平臺(tái)的列表頁(yè)來(lái)說(shuō),極思維的目前的列表頁(yè)是這樣的:

          大家可以看到,它的布局是塊形式展現(xiàn),每篇文章都是固定的布局,圖片,標(biāo)題,簡(jiǎn)介,如果說(shuō)每篇文章在發(fā)布的時(shí)候都要單獨(dú)的寫(xiě)個(gè)簡(jiǎn)介,單獨(dú)上傳個(gè)封面圖,對(duì)編輯者來(lái)說(shuō)就有些麻煩了,那我們就可以通過(guò)程序讓它自動(dòng)去抓取封面和簡(jiǎn)介,自動(dòng)抓取縮略圖我在之前的文章有講過(guò),大家可以去找下我之前的《ThinkPHP之自動(dòng)獲取文章內(nèi)容中的第一張圖片做為縮略圖》這篇文章,今天我們主要講如何自動(dòng)抓取文章的部分內(nèi)容作為文章的簡(jiǎn)介。

          我們先來(lái)分析一下功能的實(shí)現(xiàn)原理,所謂簡(jiǎn)介,就是簡(jiǎn)單的說(shuō)明一下這篇文章的主要內(nèi)容,不涉及到排版,所以我們只需要純文字,那么問(wèn)題來(lái)了,之前我們?cè)谧ト】s略圖的文章中我們也有說(shuō)到,文章內(nèi)容是由編輯器進(jìn)行排版的,既然有排版樣式,就必定要有HTML樣式,只要保留文字就得把所有的HTML標(biāo)簽都去掉,那怎么去掉呢?

          不用急,PHP有個(gè)專(zhuān)門(mén)去掉HTML的函數(shù),這個(gè)函數(shù)就是 strip_tags ,我們先來(lái)看一下這個(gè)函數(shù)是什么樣的:

          在以上代碼中可以看到,內(nèi)容中有個(gè) <b> 標(biāo)簽,<b> 標(biāo)簽的作用就是字體加粗,我們運(yùn)行一下實(shí)例看下:

          可以很明顯的看到使用了 strip_tags 函數(shù)和沒(méi)使用 strip_tags 函數(shù)的區(qū)別,那是不是直接在ThinkPHP中用這個(gè)函數(shù)就夠了呢,寫(xiě)過(guò)文章的人都知道,文章會(huì)涉及到換行、空格等格式,strip_tags 函數(shù)只能去掉HTML標(biāo)簽,并不能去掉換行、空格等格式,那么怎么樣才能去掉換行和空格呢,別擔(dān)心,強(qiáng)大的PHP也有函數(shù)來(lái)處理這些東西的,PHP中有個(gè)正則替換函數(shù)叫做 ereg_replace ,這個(gè)函數(shù)可以把指定的字符換成我們想要的字符,那么我們的邏輯代碼就可以這樣寫(xiě):

          從上面的邏輯代碼中,我們可以看到替換換行符中處理了三次替換,這是為什么呢,因?yàn)楝F(xiàn)在服務(wù)器系統(tǒng)有很多種,最常用的就有windows、linux兩種系統(tǒng),這兩種系統(tǒng)的換行符是不同的,所以為了兼容不同的服務(wù)器,我們就多替換幾次,其中 \r\n 是替換 linux 和 unix 系統(tǒng)的換行符,\n 是替換 windows 系統(tǒng)的換行符,\r 是替換蘋(píng)果系統(tǒng)的換行符的。

          處理好了HTML之后,接下來(lái)我們就要截取內(nèi)容了,因?yàn)槲恼伦謹(jǐn)?shù)有多有少,既然是簡(jiǎn)介,那我們肯定就只要截取一小段文字了,比如只要50個(gè)字或者100個(gè)字這樣,因?yàn)榫幊袒径际怯糜⑽木帉?xiě)的,對(duì)中文的識(shí)別較差,所以在編程計(jì)算長(zhǎng)度時(shí),一個(gè)中文漢字是算兩個(gè)字符的,所以如果我們要截取50個(gè)中文的話,截取長(zhǎng)度就是乘以二,那就是100了,其實(shí)這都不算什么問(wèn)題,但是在實(shí)際過(guò)程中,按這樣的方式去截取的話,遇到文章包含中英文的時(shí)候就可能會(huì)出現(xiàn)亂碼的情況,為了避免出現(xiàn)亂碼,我們可以用一個(gè)非PHP核心函數(shù) mb_strlen 來(lái)解決,為什么說(shuō) mb_strlen 是非PHP核心函數(shù)呢,因?yàn)樵谑褂?mb_strlen 函數(shù)前需要確保在 php.ini 中有加載 php_mbstring.dll,要不然就會(huì)出現(xiàn) 未定義函數(shù) 的問(wèn)題,那我們就來(lái)把上面的代碼改進(jìn)一下,加上截取字?jǐn)?shù)的功能,得到代碼如下:

          然后,我們以ThinkPHP3.2為例,把上面的自定義函數(shù)方法添加到ThinkPHP框架中核心公共函數(shù)目錄(Common)里的 functions.php 文件的最后面即可。

          調(diào)用方法為:{$vo.content|cutstr_html=###,100}

          上面調(diào)用方法中的 ### 是表示文章內(nèi)容,100為要截取的字?jǐn)?shù)長(zhǎng)度。

          謝謝你的閱讀,如果你有更好的方法或在應(yīng)用過(guò)程中遇到問(wèn)題可以在評(píng)論區(qū)提問(wèn)或者直接私信我,我會(huì)定期回復(fù),碼農(nóng)劉小橋與你一起學(xué)習(xí),共同進(jìn)步。

          HP默認(rèn)的函數(shù)有移除指定html標(biāo)簽,名稱(chēng)為strip_tags,在某些場(chǎng)合非常有用。

          strip_tags

          (PHP 3 >= 3.0.8, PHP 4, PHP 5)

          strip_tags — Strip HTML and PHP tags from a string

          string strip_tags ( string str [, string allowable_tags] )

          弊端 :

          這個(gè)函數(shù)只能保留想要的html標(biāo)簽,就是參數(shù)string allowable_tags。

          這個(gè)函數(shù)的參數(shù)allowable_tags的其他的用法。

          strip_tags($source, ”); 去掉所以的html標(biāo)簽。

          strip_tags($source, ‘<div><img><em>’); 保留字符串中的div、img、em標(biāo)簽。

          如果想去掉的html的指定標(biāo)簽。那么這個(gè)函數(shù)就不能滿(mǎn)足需求了。于是乎我用到了這個(gè)函數(shù)。

          /**

          * Removes specific tags.

          */

          function strip_only_tags($str, $tags, $stripContent = FALSE) {

          $content = '';

          if (!is_array($tags)) {

          $tags = (strpos($str, '>') !== false ? explode('>', str_replace('<', '', $tags)) : array($tags));

          if (end($tags) == '') {

          array_pop($tags);

          }

          }

          foreach($tags as $tag) {

          if ($stripContent) {

          $content = '(.+<!--'.$tag.'(-->|\s[^>]*>)|)';

          }

          $str = preg_replace('#<!--?'.$tag.'(-->|\s[^>]*>)'.$content.'#is', '', $str);

          }

          return $str;

          }

          參數(shù)說(shuō)明

          $str — 是指需要過(guò)濾的一段字符串,比如div、p、em、img等html標(biāo)簽。

          $tags — 是指想要移除指定的html標(biāo)簽,比如a、img、p等。

          $stripContent = FALSE — 移除標(biāo)簽內(nèi)的內(nèi)容,比如將整個(gè)鏈接刪除等,默認(rèn)為False,即不刪除標(biāo)簽內(nèi)的內(nèi)容。

          使用說(shuō)明

          $target = strip_only_tags($source, array(‘a(chǎn)’,'em’,'b’));

          移除$source字符串內(nèi)的a、em、b標(biāo)簽。

          $source='<div><a href="http://www.tsingyaun.cn" target="_blank"><img src="http://www.tsingyuan.cn/logo.png" border="0" alt="Welcome to linzl." />This a example from<em>lixiphp</em></a><strong>!</strong></div>

          ';

          $target = strip_only_tags($source, array('a','em'));

          //target results

          //<div><img src="http://blog.lixiphp.com/logo.png" border="0" alt="Welcome to lixiphp." />This a example from<strong>!</strong></div>

          :left;"


          主站蜘蛛池模板: 人妻无码一区二区三区| 国产成人午夜精品一区二区三区| 日韩精品无码一区二区三区不卡| 亚洲精品无码一区二区| 亚洲色精品vr一区二区三区| 日韩精品一区二区三区不卡 | 福利一区二区在线| 国产伦精品一区二区三区精品| 在线视频一区二区三区四区| 色欲AV蜜臀一区二区三区 | 国产午夜精品片一区二区三区| 精品乱子伦一区二区三区高清免费播放| 97精品国产一区二区三区| 久久久精品人妻一区二区三区| 亚洲国产成人精品久久久国产成人一区二区三区综 | 清纯唯美经典一区二区| 日本一区二区三区在线视频观看免费| 91在线一区二区三区| 亚洲AV日韩AV天堂一区二区三区| 中文字幕一区日韩在线视频 | 无码人妻AⅤ一区二区三区| 国产一区视频在线免费观看| 国产精品久久无码一区二区三区网 | 无码少妇一区二区性色AV| 99精品高清视频一区二区| 久久亚洲中文字幕精品一区| 日本一区二区三区中文字幕| 精品一区中文字幕| 天海翼一区二区三区高清视频| 亚洲国产一区在线观看| 精品成人乱色一区二区| 伊人色综合一区二区三区影院视频| 久久国产视频一区| 亚洲国产成人久久一区二区三区| 亚洲午夜精品一区二区麻豆| 日本一区二区三区在线看| 国产一区二区三区电影| 无码毛片一区二区三区视频免费播放 | 麻豆一区二区在我观看| 亚洲AV无码一区二区三区人| 中文字幕在线视频一区|