上一章,我們已經實現了從網頁代碼文件中提取文字,但是我們發現,提取的文字中有很多空白行,如下圖
這樣,篇幅可能很長很長?,F在我們有一個需要,就是能不能將這些空白行去除掉?本章就來研究這個問題。
首先,我們先對程序進行一下優化處理,把上一張最后程序中的自定義函數“去除html代碼”,移動到通用函數庫中。
上一章最后的程序如下
移動后程序變成下面這個樣子
此時,自定義函數已經移到了通用函數庫中。于是,我們看到,優化后的程序更加簡單易懂,下面我們研究去除空行的問題。
按照以前的習慣,我們先對主程序進行下改造,改造后的主程序變成下面的模樣
上面紅線標注的這一行,就是我們新增加的內容。我們編寫了一個函數,名字叫做去除空行,詳細內容如下圖,下面我們研究一下這個函數
第四行,我們定義的這個函數以及傳入的參數
第五行,定義了回收內容的變量
第六行,用換行符把內容分割成列表
第七行,對列表內所有的行進行遍歷
第八行,對列表中的內容進行空格刪除,然后看看是不是為空,用這樣的方式判斷行內是否有內容。
第九行,對有內容的行進行回收。
第十行,返回結果
于是我們得到了完整的程序,如下圖
運行后的效果如下圖
于是我們看到,所有的空行沒有了。剩下的行都是有內容的行。
我平時的工作中,偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽,只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時使用到的集中解析的方法。
通過爬蟲爬到的HTML內容,從程序角度來講,就是一個字符串。我們可以對其按照純文本處理的方式來處理。
我們在做文本處理的時候,第一個想到的就是正則表達式。從一個字符串中刪除HTML,對于正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。
我們常用的的正則就是 <[^>]> 或者 <.*?> 。
我們在使用正則的時候,需要注意的是正則默認是貪婪匹配。也就是說,正則表達式<.*> 能夠匹配到更多的HTML內容,而不是單個標簽。
現在,讓我們測試一下它是否能從HTML源中刪除標簽。
在我們測試刪除HTML標簽之前,首先讓我們創建一個HTML例子,例如example1.html。
<!DOCTYPE html>
<html>
<head>
<title>這是標題</title>
</head>
<body>
<p>
如果應用程序X沒有啟動,可能的原因是<br/>
1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
2. 磁盤空間不足<br/>
3. 內存不足
</p>
</body>
</html>
現在,讓我們寫一個測試,用String.replaceAll()來刪除HTML標簽。
String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);
如果我們運行這個測試方法,我們會看到結果。
這是標題
如果應用程序X沒有啟動,可能的原因是
1.Maven沒有安裝
2.磁盤空間不足
3.沒有足夠的內存
輸出結果保留了剝離后的HTML的空白處。我們在處理提取的文本時,可以很容易地刪除或跳過這些空行或空白處。
我們剛才已經看到了,通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題,我們不能預測最終的結果會是怎么樣的。
例如,一個HTML文檔可能有<script>或<style>標簽,而我們可能不希望在結果中出現它們的內容。
此外,<script>、<style>、甚至是<body>標簽中的文本可能包含 <或 >字符。如果是這種情況,我們的正則方法可能會出錯。
現在,讓我們看看另一個例子,比如example2.html。
<!DOCTYPE HTML>
<html>
<head>
<title>這是標題</title>
</head>
<script>
// some js function
</script>
<body>
<p>
如果應用程序X沒有啟動,可能的原因是<br/>
1. <a
id="link"
href="http://maven.apache.org/">
Maven
</a> 沒有安裝<br/>
2. 磁盤空間不足 (<1G) <br/>
3. 內存不足(<64MB)<br/>
</p>
</body>
</html>
現在我們有一個<script>標簽和 <字符在<body>標簽內。
如果我們對example2.html使用同樣的方法,我們會得到如下內容。
這是標題
// some js function
如果應用程序X沒有啟動,可能的原因是
1.
Maven
沒有安裝
2. 磁盤空間不足 (
3. 內存不足(
顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。
Jsoup 是一個流行的HTML解析庫,如果想要從一個HTML文檔中提取文本,我們可以簡單地調用Jsoup.parse(htmlString).text()。
在項目中使用的時候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version>
</dependency>
我們用 example2.html來測試一下。
String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());
如果我們讓這個方法運行,它就會打印出來。
這是標題 如果應用程序X沒有啟動,可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁盤空間 3.沒有足夠的(<64MB)內存
從輸出結果可知,Jsoup已經成功地從HTML文檔中提取了文本。另外,<script>元素中的文本已經被忽略了。
此外,默認情況下,Jsoup會刪除所有的文本格式和空白處,比如換行符。
HTMLCleaner 也是一個HTML解析庫。
首先,我們需要在pom.xml中添加HTMLCleaner 依賴。
<dependency>
<groupId>net.sourceforge.htmlcleaner</groupId>
<artifactId>htmlcleaner</artifactId>
<version>2.25</version>
</dependency>
我們可以設置[各種參數](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html時跳過<script>元素。
String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);
運行一下,HTMLCleaner將產生這樣的輸出。
這是標題
如果應用程序X沒有啟動,可能的原因是:
1.Maven沒有安裝
2.沒有足夠的(<1G)磁盤空間
3.內存不足(<64MB)
我們可以看到,<script>元素中的內容被忽略了, <br/>標簽轉換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內容。
在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。
天在開發一個web應用時,需要在頁面上增加一個空行,但我又不希望增加多余的代碼,比如使用 來增加內容,也不希望使用<br />這樣多余的html無素,因此我直接使用了
<div>上面增加樣式來控制顯示的效果。
<style>
.p_5 {padding:5px}
.m_5 {margin:5px}
</style>
<div>A1</div>
<div class="p_5"></div>
<div class="m_5 "></div>
<div class="ta_c m_10 fs_14”>sss</div>
對于margin外邊距,如果DIV里面沒有東西,則外邊距,也不會起作用
對于padding內邊距,如果DIV里面沒有東西,則外邊距,也會起作用(增加了邊柜),在頁面上顯示出來
對于這種情況,估計原因是:
用padding時,因為對于這個div的box,增加了內邊距,使即使div里沒有無素也占用空間
而用margin時,因為對于這個div的box,增加外邊距,但這個div本身就沒有元素,因此它無法增加,應該可以這樣理解。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。