整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          終于搞懂如何用Java去除HTML標簽了

          我平時的工作中,偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽,只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時使用到的集中解析的方法。

          使用正則表達式

          通過爬蟲爬到的HTML內容,從程序角度來講,就是一個字符串。我們可以對其按照純文本處理的方式來處理。

          我們在做文本處理的時候,第一個想到的就是正則表達式。從一個字符串中刪除HTML,對于正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。

          我們常用的的正則就是 <[^>]> 或者 <.*?>

          我們在使用正則的時候,需要注意的是正則默認是貪婪匹配。也就是說,正則表達式<.*> 能夠匹配到更多的HTML內容,而不是單個標簽。

          現在,讓我們測試一下它是否能從HTML源中刪除標簽。

          正則測試刪除標簽1

          在我們測試刪除HTML標簽之前,首先讓我們創建一個HTML例子,例如example1.html

          <!DOCTYPE html>
          <html>
          <head>
              <title>這是標題</title>
          </head>
          <body>
              <p>
                  如果應用程序X沒有啟動,可能的原因是<br/>
                  1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
                  2. 磁盤空間不足<br/>
                  3. 內存不足
              </p>
          </body>
          </html>
          
          

          現在,讓我們寫一個測試,用String.replaceAll()來刪除HTML標簽。

          String html = ... // load example1.html
          String result = html.replaceAll("<[^>]`>", "");
          System.out.println(result);
          

          如果我們運行這個測試方法,我們會看到結果。

              這是標題
          
          
          
                  如果應用程序X沒有啟動,可能的原因是
                  1.Maven沒有安裝
                  2.磁盤空間不足
                  3.沒有足夠的內存
          

          輸出結果保留了剝離后的HTML的空白處。我們在處理提取的文本時,可以很容易地刪除或跳過這些空行或空白處。

          正則測試刪除標簽2

          我們剛才已經看到了,通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題,我們不能預測最終的結果會是怎么樣的。

          例如,一個HTML文檔可能有<script><style>標簽,而我們可能不希望在結果中出現它們的內容。

          此外,<script><style>、甚至是<body>標簽中的文本可能包含 <>字符。如果是這種情況,我們的正則方法可能會出錯。

          現在,讓我們看看另一個例子,比如example2.html

          <!DOCTYPE HTML>
          <html>
          <head>
              <title>這是標題</title>
          </head>
          <script>
              // some js function
          </script>
          <body>
              <p>
                  如果應用程序X沒有啟動,可能的原因是<br/>
                  1. <a
                      id="link"
                      href="http://maven.apache.org/">
                      Maven
                      </a> 沒有安裝<br/>
                  2. 磁盤空間不足 (<1G) <br/>
                  3. 內存不足(<64MB)<br/>
              </p>
          </body>
          </html>
          

          現在我們有一個<script>標簽和 <字符在<body>標簽內。

          如果我們對example2.html使用同樣的方法,我們會得到如下內容。

             這是標題
              // some js function
                  如果應用程序X沒有啟動,可能的原因是
                  1. 
                      Maven
                       沒有安裝
                  2. 磁盤空間不足 (
                  3. 內存不足(
          

          顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。

          使用Jsoup

          Jsoup 是一個流行的HTML解析庫,如果想要從一個HTML文檔中提取文本,我們可以簡單地調用Jsoup.parse(htmlString).text()

          在項目中使用的時候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。

          <dependency>
              <groupId>org.jsoup</groupId>
              <artifactId>jsoup</artifactId>
              <version>1.14.3</version>
          </dependency>
          

          我們用 example2.html來測試一下。

          String html = ... // load example2.html
          System.out.println(Jsoup.parse(html).text());
          

          如果我們讓這個方法運行,它就會打印出來。

          這是標題 如果應用程序X沒有啟動,可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁盤空間 3.沒有足夠的(<64MB)內存
          

          從輸出結果可知,Jsoup已經成功地從HTML文檔中提取了文本。另外,<script>元素中的文本已經被忽略了。

          此外,默認情況下,Jsoup會刪除所有的文本格式和空白處,比如換行符。

          使用HTMLCleaner

          HTMLCleaner 也是一個HTML解析庫。

          首先,我們需要在pom.xml中添加HTMLCleaner 依賴。

          <dependency>
              <groupId>net.sourceforge.htmlcleaner</groupId>
              <artifactId>htmlcleaner</artifactId>
              <version>2.25</version>
          </dependency>
          

          我們可以設置[各種參數](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html時跳過<script>元素。

          String html = ... // load example2.html
          CleanerProperties props = new CleanerProperties();
          props.setPruneTags("script");
          String result = new HtmlCleaner(props).clean(html).getText().toString();
          System.out.println(result);
          

          運行一下,HTMLCleaner將產生這樣的輸出。

          這是標題
          
          
          
                  如果應用程序X沒有啟動,可能的原因是:
                  1.Maven沒有安裝
                  2.沒有足夠的(<1G)磁盤空間
                  3.內存不足(<64MB)
          

          我們可以看到,<script>元素中的內容被忽略了, <br/>標簽轉換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內容。

          總結

          在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。

          判斷語句:

          if 語句的語法:if (condition) statement1 else statement2

          如果條件計算結果為 true,則執行 statement1;如果條件計算結果為 false,則執行 statement2。

          注意事項

          選擇

          switch 語句的語法:

          語法格式

          每個情況(case)都是表示“如果 expression 等于 value,就執行 statement”。

          關鍵字 break 會使代碼跳出 switch 語句。如果沒有關鍵字 break,代碼執行就會繼續進入下一個 case。

          關鍵字 default 說明了表達式的結果不等于任何一種情況時的操作(事實上,它相對于 else 從句)。

          ECMAScript 和 Java 中的 switch 語句

          ECMAScript 和 Java 中的 switch 語句有兩點不同。在 ECMAScript 中,switch 語句可以用于字符串,而且能用不是常量的值說明情況:

          1、基本數據類型都可以傳遞給switch case語句。

          2、case語句可以是表達式

          循環

          while 語句

          while 語句是先測試循環。這意味著退出條件是在執行循環內部的代碼之前計算的。因此,循環主體可能根本不被執行。

          它的語法如下:

          while

          do-while 語句

          do-while 語句是后測試循環,即退出條件在執行循環內部的代碼之后計算。這意味著在計算表達式之前,至少會執行循環主體一次。

          它的語法如下:

          dowhile

          for 語句

          for 語句是前測試循環,而且在進入循環之前,能夠初始化變量,并定義循環后要執行的代碼。

          它的語法如下:

          for

          這段代碼定義了初始值為 0 的變量 i。只有當條件表達式(i < iCount)的值為 true 時,才進入 for 循環,這樣循環主體可能不被執行。如果執行了循環主體,那么將執行循環后表達式,并迭代變量 i。

          for循環中不會有局部變量,都是全局的變量。

          for in語句

          for 語句是嚴格的迭代語句,用于枚舉對象的屬性或者遍歷一個數組的元素。

          它的語法如下:

          for in

          for-in語句的作用:

          1. 可以用于遍歷數組的元素。 注意: 使用for-in語句遍歷數組元素的時候遍歷出來是數組的下標。

          2. 可以用于遍歷對象的所有屬性數據。 注意: 使用for-in語句遍歷對象的屬性的時候,遍歷出來的是對象的屬性名。

          With語句

          wth語句的作用: 有了 With 語句,在存取對象屬性和方法時就不用重復指定參考對象。

          格式:

          with(obj){

          操作obj的屬性語句;

          }

          循環語句的練習

          需求1:顯示"*"為正方形,5行5列。

          for(var i = 0 ; i<5; i++){ // 控制行數

          for(var j = 0 ; j<5 ; j++){ //控制列數

          document.write("*&nbsp;");

          }

          //換行

          document.write("<br/>")

          }

          document.write("<hr/>")

          /*

          需求2:輸出一個直角三角形:

          for(var i = 0 ; i<5; i++){

          for(var j =0 ; j<=i ; j++){

          document.write("*&nbsp;");

          }

          document.write("<br/>");

          }

          document.write("<hr/>")

          需求3:打印九九乘法表

          for(var i = 1 ; i<= 9 ; i++){

          for(var j = 1 ; j<=i ; j++){

          document.write(i+"*"+j+"="+(i*j)+"&nbsp;&nbsp;");

          }

          document.write("<br/>");

          }

          PS:java與javascript中有許多類似的地方,就當加固復習,具體的區別將會在后面統一整理

          初學css的新手朋友經常會遇到一個問題,當文字和圖片出現在同一行或者同一個div里面的時候,在瀏覽器中運行出來的顯示效果往往是在不同的行,那么我們怎么才能在css中控制他們在同一行顯示呢,其實方法有3種:1、通過添加css的“vertical-align:middle;”;2、如果圖片是背景圖片,可以在css中設置背景圖片,然后設置文字的padding屬性;3、把文字和圖片分別放入不同的div中。上面三種方法都可以讓圖片和文字在同一行顯示,下面我們用實例來應用一下。

          1、在css中給div添加上“vertical-align:middle”屬性

          我們用“注冊、登陸、找回密碼”這個在實際運用中經常遇到的情況還做實例,把“注冊”和“登陸”做成圖片,“找回密碼”設置成文字其html代碼如下:

          使用css的“vertical-align:middle”屬性讓圖片和文字在同一行對齊是一種非常常用的方法,希望大家可以掌握。

          2、把圖片設置為背景圖片

          如果我們的圖片本身是一個背景圖片的話,可以在css中使用“background”來設置該圖片,然后設置文字的padding屬性就可以使他們在同一行顯示了,html代碼如下:

          我們在css中設置了背景圖片,然后又設置了文字的padding-left屬性,這樣,圖片和文字就在同一行顯示了,運行結果就不切圖了,你可以自己試一下。

          3、下面說下最后一種方法,分別把圖片和文字放入不同的div中,然后用“margin”屬性進行定位,就可以使他們顯示在同一行了,html代碼如下:

          代碼如下:

          css代碼如下:

          代碼如下:

          在瀏覽器中運行以后,你會發現,這個方法也可以讓圖片和文字在同一行顯示,但是看起來好像麻煩了一點,所以個人還是比較推薦第一種方法的。

          學習Java的同學注意了!!!

          學習過程中遇到什么問題或者想獲取學習資源的話,歡迎加入Java學習交流,裙號碼:253772578【長按復制】 我們一起學Java!


          主站蜘蛛池模板: 国产自产在线视频一区| 国语精品一区二区三区| 伊人色综合一区二区三区| 综合无码一区二区三区四区五区| 好吊视频一区二区三区| 成人精品视频一区二区三区尤物| 精品少妇一区二区三区视频| 精品无码成人片一区二区| 国产免费一区二区三区| 色老板在线视频一区二区| 国产精品综合一区二区| 日韩一区二区三区精品| 一区二区三区无码高清视频| 国产激情一区二区三区| 天堂成人一区二区三区| 在线观看国产一区二三区| 久久综合九九亚洲一区| 精品国产一区二区三区在线观看| 在线精品自拍亚洲第一区 | 亚洲无删减国产精品一区| 亚洲一区无码精品色| 精品人妻一区二区三区四区 | 怡红院一区二区三区| 亚洲熟妇无码一区二区三区| 91在线一区二区| 日韩一区二区在线播放| 国产精品久久久久久麻豆一区| 久久国产精品一区免费下载 | 国产高清精品一区| 一区二区三区内射美女毛片| 日本高清无卡码一区二区久久| 精品亚洲福利一区二区| 日本精品少妇一区二区三区| 精品一区二区三区在线视频观看| 国产一区韩国女主播| 国产精品亚洲综合一区在线观看 | 天堂一区二区三区在线观看| 国产精品久久无码一区二区三区网| 中文字幕人妻第一区| 无码中文人妻在线一区| 无码国产精品一区二区高潮|