html文件刪除如何恢復(fù)？恢復(fù)誤刪html文件教程

tml文件即超文本標(biāo)記語言文件文檔，是擴(kuò)展名、后綴名為html的文件。超文本標(biāo)記語言的結(jié)構(gòu)包括頭部分（Head）、和主體部分（Body），其中頭部（head）提供關(guān)于網(wǎng)頁的信息，主體（body）部分提供網(wǎng)頁的具體內(nèi)容。html文件能夠被多種網(wǎng)頁瀏覽器讀取，傳遞。我們可以使用電腦上自帶的記事本進(jìn)行編輯htm文件。那么html文件刪除如何恢復(fù)？

通常情況下當(dāng)您從電腦存儲(chǔ)設(shè)備中刪除html文件時(shí)，該html文件會(huì)保存在回收站中。可以根據(jù)需要通過單擊還原選項(xiàng)將其還原。但是不好運(yùn)的情況下，如果您清空回收站或文件未經(jīng)過回收站、或使用永久刪除鍵Shift + Delete將文件刪除怎么恢復(fù)呢？我們可以通過使用數(shù)據(jù)恢復(fù)軟件來恢復(fù)。

html文件刪除恢復(fù)步驟如下:

1、首先到官網(wǎng)下載并安裝好云騎士數(shù)據(jù)恢復(fù)軟件（注意：軟件不能安裝在丟失盤中），打開云騎士數(shù)據(jù)恢復(fù)軟件，根據(jù)需要選擇恢復(fù)功能，這里選擇場(chǎng)景模式下的誤刪除文件。

2、選擇好以后選擇需要恢復(fù)數(shù)據(jù)的分區(qū)，如果是外接設(shè)備則可以將它插入電腦中，或者通過讀卡器插入電腦，點(diǎn)擊開始掃描。

3、掃描結(jié)束以后，你會(huì)發(fā)現(xiàn)有很多數(shù)據(jù)，這時(shí)我們可以通過文件類型進(jìn)行查找，這里勾選其他文件類型，然后找到了需要的html格式文件。

因?yàn)槲募G失后有可能會(huì)因各種原因受損，所以遵循先預(yù)覽再恢復(fù)原則，通過預(yù)覽模式判斷文件是否正常再進(jìn)行恢復(fù)。對(duì)于無法預(yù)覽或者不支持預(yù)覽的是無法判斷數(shù)據(jù)是好的還是壞的，只能恢復(fù)出來才能進(jìn)行查看的。

4、接著在需要恢復(fù)的html文件前面進(jìn)行勾選，選擇好以后點(diǎn)擊立即恢復(fù)按鈕。

5、彈出設(shè)置文件路徑窗口，將文件存儲(chǔ)在安全區(qū)域中（如果存儲(chǔ)盤不夠內(nèi)存，可以外接其他設(shè)備進(jìn)行存儲(chǔ)），點(diǎn)擊確定按鈕。

6、耐心等待文件導(dǎo)出完成，點(diǎn)擊查看即可查看恢復(fù)出來的html文件了。

知識(shí)普及：

導(dǎo)致html文件丟失常見幾種原因：

采用來源于Internet的各種各樣沒經(jīng)驗(yàn)證的第三方應(yīng)用程序也許會(huì)使您的html文件遭遇風(fēng)險(xiǎn)。

偶爾在下載那些應(yīng)用程序時(shí)，某些惡意病毒也許會(huì)進(jìn)入系統(tǒng)并破壞html文件結(jié)構(gòu)，亦或它們也許會(huì)刪除桌面上的所有html文件，因此致使大量數(shù)據(jù)丟失。

在重新分區(qū)或調(diào)整硬盤大小時(shí)，那些html文件也許會(huì)遺失。在重新分區(qū)時(shí)，一個(gè)重大的錯(cuò)誤也會(huì)刪除存儲(chǔ)了所必需文件的分區(qū)，例如DOC、PPT、XLSX和HTML。

總結(jié)：以上就是html文件刪除恢復(fù)教程了，如果在軟件使用過程中有不懂的問題，可以咨詢專業(yè)的在線客服人員為您解答~

本文來自 yqssjhf.com>> 創(chuàng)作不易，轉(zhuǎn)載請(qǐng)注明出處。

愛的用戶們，您是否曾經(jīng)為了刪除HTML文本中的多余內(nèi)容而煩惱？是否曾經(jīng)為了批量處理文本而感到困擾？現(xiàn)在，我們?yōu)槟鷰砹艘豢钊碌腍TML文本處理工具，它可以輕松解決您的問題！

首先，在首助編輯高手的主頁面板塊欄里，選擇“文本批量處理”板塊。

第二步，進(jìn)入板塊欄里，我們要點(diǎn)擊上方功能欄里的“添加文件”即可

第三步，在彈出來的文件夾里，將您要?jiǎng)h除內(nèi)容的HTML文件進(jìn)行導(dǎo)入進(jìn)去

第四步，然后在下方的功能欄里，選擇“刪除內(nèi)容”功能。有兩種選項(xiàng)，第一種是：刪除行，第二種是刪除字，小編選擇的的是刪除字。

第五步，選擇完畢之后，我們就可以看見里面還有分成兩個(gè)類型，，一種是：?jiǎn)蝹€(gè)內(nèi)容刪除，另一種是：多個(gè)內(nèi)容刪除。小編選擇單個(gè)內(nèi)容刪除

第六步，然后就要在刪除內(nèi)容里將要?jiǎng)h除的內(nèi)容進(jìn)行輸入，再點(diǎn)擊批量刪除內(nèi)容，即可

第七步，等上方的狀態(tài)欄顯示刪除單個(gè)內(nèi)容成功，我們就可以打開文件進(jìn)行查看，發(fā)現(xiàn)我們多余的內(nèi)容已經(jīng)刪除完畢了

我平時(shí)的工作中，偶爾會(huì)用 Java 做一些解析HTML的工作。有的時(shí)候我需要?jiǎng)h除所有的HTML標(biāo)簽，只保留純文字內(nèi)容。這個(gè)問題在做過一些爬蟲工作的朋友來說很簡(jiǎn)單。下面來說說，我們平時(shí)使用到的集中解析的方法。

使用正則表達(dá)式

通過爬蟲爬到的HTML內(nèi)容，從程序角度來講，就是一個(gè)字符串。我們可以對(duì)其按照純文本處理的方式來處理。

我們?cè)谧鑫谋咎幚淼臅r(shí)候，第一個(gè)想到的就是正則表達(dá)式。從一個(gè)字符串中刪除HTML，對(duì)于正則來說，還是比較簡(jiǎn)單的。畢竟還是有固定的格式，比如“<...>”。

我們常用的的正則就是 <[^>]> 或者 <.*?> 。

我們?cè)谑褂谜齽t的時(shí)候，需要注意的是正則默認(rèn)是貪婪匹配。也就是說，正則表達(dá)式<.*> 能夠匹配到更多的HTML內(nèi)容，而不是單個(gè)標(biāo)簽。

現(xiàn)在，讓我們測(cè)試一下它是否能從HTML源中刪除標(biāo)簽。

正則測(cè)試刪除標(biāo)簽1

在我們測(cè)試刪除HTML標(biāo)簽之前，首先讓我們創(chuàng)建一個(gè)HTML例子，例如example1.html。

<!DOCTYPE html>
<html>
<head>
    <title>這是標(biāo)題</title>
</head>
<body>
    <p>
        如果應(yīng)用程序X沒有啟動(dòng)，可能的原因是<br/>
        1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
        2. 磁盤空間不足<br/>
        3. 內(nèi)存不足
    </p>
</body>
</html>

現(xiàn)在，讓我們寫一個(gè)測(cè)試，用String.replaceAll()來刪除HTML標(biāo)簽。

String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);

如果我們運(yùn)行這個(gè)測(cè)試方法，我們會(huì)看到結(jié)果。

    這是標(biāo)題



        如果應(yīng)用程序X沒有啟動(dòng)，可能的原因是
        1.Maven沒有安裝
        2.磁盤空間不足
        3.沒有足夠的內(nèi)存

輸出結(jié)果保留了剝離后的HTML的空白處。我們?cè)谔幚硖崛〉奈谋緯r(shí)，可以很容易地刪除或跳過這些空行或空白處。

正則測(cè)試刪除標(biāo)簽2

我們剛才已經(jīng)看到了，通過使用Regex來刪除HTML標(biāo)簽是非常簡(jiǎn)單。但是粗暴的使用這種方法會(huì)有很多問題，我們不能預(yù)測(cè)最終的結(jié)果會(huì)是怎么樣的。

例如，一個(gè)HTML文檔可能有<script>或<style>標(biāo)簽，而我們可能不希望在結(jié)果中出現(xiàn)它們的內(nèi)容。

此外，<script>、<style>、甚至是<body>標(biāo)簽中的文本可能包含 <或 >字符。如果是這種情況，我們的正則方法可能會(huì)出錯(cuò)。

現(xiàn)在，讓我們看看另一個(gè)例子，比如example2.html。

<!DOCTYPE HTML>
<html>
<head>
    <title>這是標(biāo)題</title>
</head>
<script>
    // some js function
</script>
<body>
    <p>
        如果應(yīng)用程序X沒有啟動(dòng)，可能的原因是<br/>
        1. <a
            id="link"
            href="http://maven.apache.org/">
            Maven
            </a> 沒有安裝<br/>
        2. 磁盤空間不足 (<1G) <br/>
        3. 內(nèi)存不足(<64MB)<br/>
    </p>
</body>
</html>

現(xiàn)在我們有一個(gè)<script>標(biāo)簽和 <字符在<body>標(biāo)簽內(nèi)。

如果我們對(duì)example2.html使用同樣的方法，我們會(huì)得到如下內(nèi)容。

   這是標(biāo)題
    // some js function
        如果應(yīng)用程序X沒有啟動(dòng)，可能的原因是
        1. 
            Maven
             沒有安裝
        2. 磁盤空間不足 (
        3. 內(nèi)存不足(

顯然，由于"<"字符的存在，我們丟失了一些文本。所以正則在處理文本的時(shí)候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復(fù)雜的場(chǎng)景。

使用Jsoup

Jsoup 是一個(gè)流行的HTML解析庫，如果想要從一個(gè)HTML文檔中提取文本，我們可以簡(jiǎn)單地調(diào)用Jsoup.parse(htmlString).text()。

在項(xiàng)目中使用的時(shí)候，我們首先需要添加 jsoup 的依賴庫，我們這里就通過maven的方式引入。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

我們用 example2.html來測(cè)試一下。

String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());

如果我們讓這個(gè)方法運(yùn)行，它就會(huì)打印出來。

這是標(biāo)題 如果應(yīng)用程序X沒有啟動(dòng)，可能的原因是 1.Maven沒有安裝 2.沒有足夠的（<1G）磁盤空間 3.沒有足夠的（<64MB）內(nèi)存

從輸出結(jié)果可知，Jsoup已經(jīng)成功地從HTML文檔中提取了文本。另外，<script>元素中的文本已經(jīng)被忽略了。

此外，默認(rèn)情況下，Jsoup會(huì)刪除所有的文本格式和空白處，比如換行符。

使用HTMLCleaner

HTMLCleaner 也是一個(gè)HTML解析庫。

首先，我們需要在pom.xml中添加HTMLCleaner 依賴。

<dependency>
    <groupId>net.sourceforge.htmlcleaner</groupId>
    <artifactId>htmlcleaner</artifactId>
    <version>2.25</version>
</dependency>

我們可以設(shè)置[各種參數(shù)]（http://htmlcleaner.sourceforge.net/parameters.php）來控制HTMLCleaner的解析行為。我們?cè)谶@里使用HTMLCleaner在解析example2.html時(shí)跳過<script>元素。

String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);

運(yùn)行一下，HTMLCleaner將產(chǎn)生這樣的輸出。

這是標(biāo)題



        如果應(yīng)用程序X沒有啟動(dòng)，可能的原因是：
        1.Maven沒有安裝
        2.沒有足夠的（<1G）磁盤空間
        3.內(nèi)存不足（<64MB）

我們可以看到，<script>元素中的內(nèi)容被忽略了， <br/>標(biāo)簽轉(zhuǎn)換為提取的文本中的換行符。另外， HTMLCleaner 保留了HTML的空白內(nèi)容。

總結(jié)

在這篇文章中，我們學(xué)習(xí)了幾種去除HTML的方法，我們需要注意的是，正則在文本處理的過程中并不是萬能的。

在線咨詢

上一篇：DNF預(yù)約角色的這些細(xì)節(jié)，掌握了你就成功了一半
下一篇：Python程序開發(fā)之簡(jiǎn)單小程序?qū)嵗?）利用Canvas繪制圖形和文字

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營(yíng)銷服務(wù)商