終于搞懂如何用Java去除HTML標簽了

我平時的工作中，偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽，只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說，我們平時使用到的集中解析的方法。

使用正則表達式

通過爬蟲爬到的HTML內容，從程序角度來講，就是一個字符串。我們可以對其按照純文本處理的方式來處理。

我們在做文本處理的時候，第一個想到的就是正則表達式。從一個字符串中刪除HTML，對于正則來說，還是比較簡單的。畢竟還是有固定的格式，比如“<...>”。

我們常用的的正則就是 <[^>]> 或者 <.*?> 。

我們在使用正則的時候，需要注意的是正則默認是貪婪匹配。也就是說，正則表達式<.*> 能夠匹配到更多的HTML內容，而不是單個標簽。

現在，讓我們測試一下它是否能從HTML源中刪除標簽。

正則測試刪除標簽1

在我們測試刪除HTML標簽之前，首先讓我們創建一個HTML例子，例如example1.html。

<!DOCTYPE html>
<html>
<head>
    <title>這是標題</title>
</head>
<body>
    <p>
        如果應用程序X沒有啟動，可能的原因是<br/>
        1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
        2. 磁盤空間不足<br/>
        3. 內存不足
    </p>
</body>
</html>

現在，讓我們寫一個測試，用String.replaceAll()來刪除HTML標簽。

String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);

如果我們運行這個測試方法，我們會看到結果。

    這是標題



        如果應用程序X沒有啟動，可能的原因是
        1.Maven沒有安裝
        2.磁盤空間不足
        3.沒有足夠的內存

輸出結果保留了剝離后的HTML的空白處。我們在處理提取的文本時，可以很容易地刪除或跳過這些空行或空白處。

正則測試刪除標簽2

我們剛才已經看到了，通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題，我們不能預測最終的結果會是怎么樣的。

例如，一個HTML文檔可能有<script>或<style>標簽，而我們可能不希望在結果中出現它們的內容。

此外，<script>、<style>、甚至是<body>標簽中的文本可能包含 <或 >字符。如果是這種情況，我們的正則方法可能會出錯。

現在，讓我們看看另一個例子，比如example2.html。

<!DOCTYPE HTML>
<html>
<head>
    <title>這是標題</title>
</head>
<script>
    // some js function
</script>
<body>
    <p>
        如果應用程序X沒有啟動，可能的原因是<br/>
        1. <a
            id="link"
            href="http://maven.apache.org/">
            Maven
            </a> 沒有安裝<br/>
        2. 磁盤空間不足 (<1G) <br/>
        3. 內存不足(<64MB)<br/>
    </p>
</body>
</html>

現在我們有一個<script>標簽和 <字符在<body>標簽內。

如果我們對example2.html使用同樣的方法，我們會得到如下內容。

   這是標題
    // some js function
        如果應用程序X沒有啟動，可能的原因是
        1. 
            Maven
             沒有安裝
        2. 磁盤空間不足 (
        3. 內存不足(

顯然，由于"<"字符的存在，我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。

使用Jsoup

Jsoup 是一個流行的HTML解析庫，如果想要從一個HTML文檔中提取文本，我們可以簡單地調用Jsoup.parse(htmlString).text()。

在項目中使用的時候，我們首先需要添加 jsoup 的依賴庫，我們這里就通過maven的方式引入。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

我們用 example2.html來測試一下。

String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());

如果我們讓這個方法運行，它就會打印出來。

這是標題 如果應用程序X沒有啟動，可能的原因是 1.Maven沒有安裝 2.沒有足夠的（<1G）磁盤空間 3.沒有足夠的（<64MB）內存

從輸出結果可知，Jsoup已經成功地從HTML文檔中提取了文本。另外，<script>元素中的文本已經被忽略了。

此外，默認情況下，Jsoup會刪除所有的文本格式和空白處，比如換行符。

使用HTMLCleaner

HTMLCleaner 也是一個HTML解析庫。

首先，我們需要在pom.xml中添加HTMLCleaner 依賴。

<dependency>
    <groupId>net.sourceforge.htmlcleaner</groupId>
    <artifactId>htmlcleaner</artifactId>
    <version>2.25</version>
</dependency>

我們可以設置[各種參數]（http://htmlcleaner.sourceforge.net/parameters.php）來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html時跳過<script>元素。

String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);

運行一下，HTMLCleaner將產生這樣的輸出。

這是標題



        如果應用程序X沒有啟動，可能的原因是：
        1.Maven沒有安裝
        2.沒有足夠的（<1G）磁盤空間
        3.內存不足（<64MB）

我們可以看到，<script>元素中的內容被忽略了， <br/>標簽轉換為提取的文本中的換行符。另外， HTMLCleaner 保留了HTML的空白內容。

總結

在這篇文章中，我們學習了幾種去除HTML的方法，我們需要注意的是，正則在文本處理的過程中并不是萬能的。

斷

判斷語句：

if 語句的語法：if (condition) statement1 else statement2

如果條件計算結果為 true，則執行 statement1；如果條件計算結果為 false，則執行 statement2。

注意事項

選擇

switch 語句的語法：

語法格式

每個情況（case）都是表示“如果 expression 等于 value，就執行 statement”。

關鍵字 break 會使代碼跳出 switch 語句。如果沒有關鍵字 break，代碼執行就會繼續進入下一個 case。

關鍵字 default 說明了表達式的結果不等于任何一種情況時的操作（事實上，它相對于 else 從句）。

ECMAScript 和 Java 中的 switch 語句

ECMAScript 和 Java 中的 switch 語句有兩點不同。在 ECMAScript 中，switch 語句可以用于字符串，而且能用不是常量的值說明情況：

1、基本數據類型都可以傳遞給switch case語句。

2、case語句可以是表達式

循環

while 語句

while 語句是先測試循環。這意味著退出條件是在執行循環內部的代碼之前計算的。因此，循環主體可能根本不被執行。

它的語法如下：

while

do-while 語句

do-while 語句是后測試循環，即退出條件在執行循環內部的代碼之后計算。這意味著在計算表達式之前，至少會執行循環主體一次。

它的語法如下：

dowhile

for 語句

for 語句是前測試循環，而且在進入循環之前，能夠初始化變量，并定義循環后要執行的代碼。

它的語法如下：

for

這段代碼定義了初始值為 0 的變量 i。只有當條件表達式（i < iCount）的值為 true 時，才進入 for 循環，這樣循環主體可能不被執行。如果執行了循環主體，那么將執行循環后表達式，并迭代變量 i。

for循環中不會有局部變量，都是全局的變量。

for in語句

for 語句是嚴格的迭代語句，用于枚舉對象的屬性或者遍歷一個數組的元素。

它的語法如下：

for in

for-in語句的作用：

1. 可以用于遍歷數組的元素。注意：使用for-in語句遍歷數組元素的時候遍歷出來是數組的下標。

2. 可以用于遍歷對象的所有屬性數據。注意：使用for-in語句遍歷對象的屬性的時候，遍歷出來的是對象的屬性名。

With語句

wth語句的作用：有了 With 語句，在存取對象屬性和方法時就不用重復指定參考對象。

格式：

with(obj){

操作obj的屬性語句;

}

循環語句的練習

需求1：顯示"*"為正方形，5行5列。

for(var i = 0 ; i<5; i++){ // 控制行數

for(var j = 0 ; j<5 ; j++){ //控制列數

document.write("* ");

}

//換行

document.write("<br/>")

}

document.write("<hr/>")

需求2：輸出一個直角三角形:

for(var i = 0 ; i<5; i++){

for(var j =0 ; j<=i ; j++){

document.write("* ");

}

document.write("<br/>");

}

document.write("<hr/>")

需求3：打印九九乘法表

for(var i = 1 ; i<= 9 ; i++){

for(var j = 1 ; j<=i ; j++){

document.write(i+"*"+j+"="+(i*j)+"  ");

}

document.write("<br/>");

}

PS：java與javascript中有許多類似的地方，就當加固復習，具體的區別將會在后面統一整理

初學css的新手朋友經常會遇到一個問題，當文字和圖片出現在同一行或者同一個div里面的時候，在瀏覽器中運行出來的顯示效果往往是在不同的行，那么我們怎么才能在css中控制他們在同一行顯示呢，其實方法有3種：1、通過添加css的“vertical-align:middle;”；2、如果圖片是背景圖片，可以在css中設置背景圖片，然后設置文字的padding屬性；3、把文字和圖片分別放入不同的div中。上面三種方法都可以讓圖片和文字在同一行顯示，下面我們用實例來應用一下。

1、在css中給div添加上“vertical-align:middle”屬性

我們用“注冊、登陸、找回密碼”這個在實際運用中經常遇到的情況還做實例，把“注冊”和“登陸”做成圖片，“找回密碼”設置成文字其html代碼如下：

使用css的“vertical-align:middle”屬性讓圖片和文字在同一行對齊是一種非常常用的方法，希望大家可以掌握。

2、把圖片設置為背景圖片

如果我們的圖片本身是一個背景圖片的話，可以在css中使用“background”來設置該圖片，然后設置文字的padding屬性就可以使他們在同一行顯示了，html代碼如下：

我們在css中設置了背景圖片，然后又設置了文字的padding-left屬性，這樣，圖片和文字就在同一行顯示了，運行結果就不切圖了，你可以自己試一下。

3、下面說下最后一種方法，分別把圖片和文字放入不同的div中，然后用“margin”屬性進行定位，就可以使他們顯示在同一行了，html代碼如下：

代碼如下:

css代碼如下：

代碼如下:

在瀏覽器中運行以后，你會發現，這個方法也可以讓圖片和文字在同一行顯示，但是看起來好像麻煩了一點，所以個人還是比較推薦第一種方法的。

學習Java的同學注意了！！！
學習過程中遇到什么問題或者想獲取學習資源的話，歡迎加入Java學習交流，裙號碼：253772578【長按復制】我們一起學Java！

在線咨詢

上一篇：報告顯示37%網站存在JavaScript庫漏洞
下一篇：前端基礎入門（HTML）

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

終于搞懂如何用Java去除HTML標簽了

使用正則表達式

正則測試刪除標簽1

正則測試刪除標簽2

使用Jsoup

使用HTMLCleaner

總結

斷

選擇

循環

for in語句

With語句

循環語句的練習

您的項目需求