整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          終于搞懂如何用Java去除HTML標簽了

          我平時的工作中,偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽,只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時使用到的集中解析的方法。

          使用正則表達式

          通過爬蟲爬到的HTML內容,從程序角度來講,就是一個字符串。我們可以對其按照純文本處理的方式來處理。

          我們在做文本處理的時候,第一個想到的就是正則表達式。從一個字符串中刪除HTML,對于正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。

          我們常用的的正則就是 <[^>]> 或者 <.*?>

          我們在使用正則的時候,需要注意的是正則默認是貪婪匹配。也就是說,正則表達式<.*> 能夠匹配到更多的HTML內容,而不是單個標簽。

          現在,讓我們測試一下它是否能從HTML源中刪除標簽。

          正則測試刪除標簽1

          在我們測試刪除HTML標簽之前,首先讓我們創建一個HTML例子,例如example1.html

          <!DOCTYPE html>
          <html>
          <head>
              <title>這是標題</title>
          </head>
          <body>
              <p>
                  如果應用程序X沒有啟動,可能的原因是<br/>
                  1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
                  2. 磁盤空間不足<br/>
                  3. 內存不足
              </p>
          </body>
          </html>
          
          

          現在,讓我們寫一個測試,用String.replaceAll()來刪除HTML標簽。

          String html = ... // load example1.html
          String result = html.replaceAll("<[^>]`>", "");
          System.out.println(result);
          

          如果我們運行這個測試方法,我們會看到結果。

              這是標題
          
          
          
                  如果應用程序X沒有啟動,可能的原因是
                  1.Maven沒有安裝
                  2.磁盤空間不足
                  3.沒有足夠的內存
          

          輸出結果保留了剝離后的HTML的空白處。我們在處理提取的文本時,可以很容易地刪除或跳過這些空行或空白處。

          正則測試刪除標簽2

          我們剛才已經看到了,通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題,我們不能預測最終的結果會是怎么樣的。

          例如,一個HTML文檔可能有<script><style>標簽,而我們可能不希望在結果中出現它們的內容。

          此外,<script><style>、甚至是<body>標簽中的文本可能包含 <>字符。如果是這種情況,我們的正則方法可能會出錯。

          現在,讓我們看看另一個例子,比如example2.html

          <!DOCTYPE HTML>
          <html>
          <head>
              <title>這是標題</title>
          </head>
          <script>
              // some js function
          </script>
          <body>
              <p>
                  如果應用程序X沒有啟動,可能的原因是<br/>
                  1. <a
                      id="link"
                      href="http://maven.apache.org/">
                      Maven
                      </a> 沒有安裝<br/>
                  2. 磁盤空間不足 (<1G) <br/>
                  3. 內存不足(<64MB)<br/>
              </p>
          </body>
          </html>
          

          現在我們有一個<script>標簽和 <字符在<body>標簽內。

          如果我們對example2.html使用同樣的方法,我們會得到如下內容。

             這是標題
              // some js function
                  如果應用程序X沒有啟動,可能的原因是
                  1. 
                      Maven
                       沒有安裝
                  2. 磁盤空間不足 (
                  3. 內存不足(
          

          顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。

          使用Jsoup

          Jsoup 是一個流行的HTML解析庫,如果想要從一個HTML文檔中提取文本,我們可以簡單地調用Jsoup.parse(htmlString).text()

          在項目中使用的時候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。

          <dependency>
              <groupId>org.jsoup</groupId>
              <artifactId>jsoup</artifactId>
              <version>1.14.3</version>
          </dependency>
          

          我們用 example2.html來測試一下。

          String html = ... // load example2.html
          System.out.println(Jsoup.parse(html).text());
          

          如果我們讓這個方法運行,它就會打印出來。

          這是標題 如果應用程序X沒有啟動,可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁盤空間 3.沒有足夠的(<64MB)內存
          

          從輸出結果可知,Jsoup已經成功地從HTML文檔中提取了文本。另外,<script>元素中的文本已經被忽略了。

          此外,默認情況下,Jsoup會刪除所有的文本格式和空白處,比如換行符。

          使用HTMLCleaner

          HTMLCleaner 也是一個HTML解析庫。

          首先,我們需要在pom.xml中添加HTMLCleaner 依賴。

          <dependency>
              <groupId>net.sourceforge.htmlcleaner</groupId>
              <artifactId>htmlcleaner</artifactId>
              <version>2.25</version>
          </dependency>
          

          我們可以設置[各種參數](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html時跳過<script>元素。

          String html = ... // load example2.html
          CleanerProperties props = new CleanerProperties();
          props.setPruneTags("script");
          String result = new HtmlCleaner(props).clean(html).getText().toString();
          System.out.println(result);
          

          運行一下,HTMLCleaner將產生這樣的輸出。

          這是標題
          
          
          
                  如果應用程序X沒有啟動,可能的原因是:
                  1.Maven沒有安裝
                  2.沒有足夠的(<1G)磁盤空間
                  3.內存不足(<64MB)
          

          我們可以看到,<script>元素中的內容被忽略了, <br/>標簽轉換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內容。

          總結

          在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。

          過上一章的內容,現在網頁文件中,我們還須要去除的就是html代碼了。

          下面我們要研究一下html代碼的主要特點,不管什么樣的HTML代碼,他們均被左右尖括號所包圍,就像這個樣子<代碼>,因此,我們就有了去除的方法,把括號中的內容和聯通括號一起去除掉,就可以了。

          下面開始,根據我們的想法,可以寫出,下面這樣的主程序

          看上圖,再上一張定義的函數,我們把它移動到了通用函數庫中

          第21行,這是我們新增的代碼,執行完這個代碼,就去除掉了HTML標記,剩下的就應該是純文字內容了。在這里,我們定義了一個函數,名字叫做去除html代碼

          下面我們研究一下,這個函數的內容,如下圖

          因為使用了正則表達式,因此,在程序運行前,必須導入模塊re

          第3行,導入我們所需要的re模塊,我們想用到正則表達式

          第5行,定義函數

          第6行,用右尖括號分格隔成列表

          第8行,對列表元素進行遍歷

          第9行,使用正則挑出有效的內容,其實就是去除以前孤立的右尖括號的內容。

          第10行,對有效的內容進行左尖括號分隔

          第11行,左尖括號前面的內容就是有效的文字內容

          完整的程序如下

          下面我們對程序進行下測試,在上一章中,程序運行后得到如下的內容(內容太長,只截取一小部分)

          本次程序改造后,運行得到下面的內容


          從上面兩個圖片可以看出,我們確實把文字內容提取出來了。

          端網頁的開發中總是不可避免會使用到超鏈接,但是使用超鏈接時下面都會有一條下劃線,這在網頁中有時會顯得很突兀,不合適也不美觀,所以我們就需要將超鏈接下的這條下劃線給去掉.接下來給大家介紹Html下超鏈接去掉下劃線的方

          您可以使用CSS的text-decoration屬性來去掉超鏈接下劃線。只需將其設置為none即可,示例代碼如下:

          a{

          text-decoration: none;

          }

          這會將頁面中所有超錐接下劃線都去,如果您只想去掉某些超鏈接的下劃線,可以為這些鏈接添加一個特定的class,并針對該CIass設置上述CSS屬性。

          例子:

          <!DOCTYPE html>

          <html>

          <head>

          <meta charset="utf-8">

          <title>css超鏈接去掉下劃線示例</title>

          <style>

          a{

          text-decoration: none;

          }

          </style>

          </head>

          <body>

          <a href="">大家再看我還有沒有下劃線了!</a>

          </body>

          </html>

          可以發現,此時文本超鏈接下劃線是不是已經去掉了?這個效果實現是不是非常簡單呢?大家主要掌握一個樣式屬性就是text-decoration: none;這個屬性。給對應的a標簽文本添加這個屬性就可以去除文本超鏈接下劃線了


          擴展資料:

          HTML 超鏈接(鏈接)的屬性:

          超鏈接可以是一個字,一個詞,或者一組詞,也可以是一幅圖像,您可以點擊這些內容來跳轉到新的文檔或者當前文檔中的某個部分。

          當您把鼠標指針移動到網頁中的某個鏈接上時,箭頭會變為一只小手。

          我們通過使用 標簽在 HTML 中創建鏈接。

          有兩種使用 標簽的方式:

          1、通過使用 href 屬性 - 創建指向另一個文檔的鏈接;

          2、通過使用 name 屬性 - 創建文檔內的書簽。


          主站蜘蛛池模板: 日韩精品一区二区三区色欲AV | 日韩伦理一区二区| 无码一区二区三区免费视频| 一区二区三区杨幂在线观看| 亚洲国产精品一区二区久久| 无码人妻AⅤ一区二区三区水密桃| 精品一区二区三区自拍图片区| 亚洲午夜日韩高清一区| 天美传媒一区二区三区| 日韩精品无码一区二区三区不卡| av无码精品一区二区三区四区 | 国产激情一区二区三区| 亚洲AV日韩综合一区| 日本一区精品久久久久影院| 亚洲性日韩精品一区二区三区| 无码人妻aⅴ一区二区三区有奶水| 无码国产精品一区二区免费vr| 精品伦精品一区二区三区视频 | 无码少妇丰满熟妇一区二区| 国内国外日产一区二区| 免费一区二区无码视频在线播放| 国产经典一区二区三区蜜芽| 性色A码一区二区三区天美传媒| 成人区精品一区二区不卡| 麻豆视传媒一区二区三区| 国产激情一区二区三区小说| 亚欧免费视频一区二区三区| 少妇人妻精品一区二区三区| 亚洲乱码国产一区三区| 日本亚洲国产一区二区三区| 精品国产一区二区三区在线观看| 日韩精品一区二区午夜成人版| 国产精品熟女视频一区二区 | 国产手机精品一区二区| 日韩精品一区二区三区中文| 色欲AV蜜臀一区二区三区| 色一乱一伦一图一区二区精品| 日本内射精品一区二区视频 | 人妻体内射精一区二区三区| 亚洲一区免费观看| 末成年女A∨片一区二区|