MHT Viewer for Mac(mht查看器)

MHT Viewer for Mac(mht查看器) v3.2激活版

容介紹

MHT Viewer for Mac一款方便的MHT MHTML,MIME HTML文檔查看器。mht viewer mac可解析和訪問MHT格式文件,并且能夠以最快速度批量打開MHT文件。測試環(huán)境：MacOS 11.3.1

MHT Viewer for Mac安裝教程

mht viewer mac下載完成后，雙擊安裝，根據(jù)安裝器提示進(jìn)行安裝即可。

mht viewer mac軟件功能

免費(fèi)的MHT查看器可以打開和查看無限的MHT文件,而不會出現(xiàn)錯誤。

MHT文件查看器可以打開和預(yù)覽MHT文件。

免費(fèi)的MHT閱讀器可以處理IE,Chrome創(chuàng)建的MHT文件。

顯示搜索,加載和查看MHT文件的簡單過程。

批量打開MHT文件的獨(dú)特選項(xiàng)。

瀏覽充滿MHT文件的文件夾并一次性加載所有文件。

沒有文件大小或文件內(nèi)容限制來打開MHTML / MHT文件格式。

嘗試查看MHT文件時,將保留數(shù)據(jù)完整性。

MHT Viewer使用教程

用戶可以直接通過此網(wǎng)站下載對應(yīng)的安裝包,然后即可進(jìn)行解壓,雙擊程序即可將其打開

雙擊后,即可彈出對應(yīng)的用戶界面,整個用戶界面的功能模塊分布非常清晰

選擇“ MHT文件”文件夾已在軟件面板中加載文件。

從您的計算機(jī)中選擇MHT文件,然后依次“打開”以繼續(xù)

選擇任何特定的MHT來閱讀和預(yù)覽其信息。

它是MHTML文檔的備用名稱和后綴,默認(rèn)格式為Internet Explorer隨同存儲的網(wǎng)頁的存檔格式的MHTML文檔。

此文件格式可以包含各種資源,例如Java,圖像,音頻,Flash等,以及所有外部鏈接以及HTML代碼。

有多種原因需要創(chuàng)建MHT文件,因?yàn)楸４婢W(wǎng)頁很有用,因?yàn)樗试S離線訪問特定網(wǎng)頁。

很多時候,用戶需要捕獲網(wǎng)頁上的內(nèi)容以備將來使用。

因此,他們通過在系統(tǒng)上創(chuàng)建MHT文件來存儲網(wǎng)頁。

下載：https://www.macv.com/mac/3172.html?id=NDcwODQ%3D

HT Viewer for Ma是一款輕量級的.mht、.mhtm、.mhtml文檔查看器/閱讀器。可快速閱讀，還支持文本縮放或者放大，支持蘋果芯片，趕快試試吧。

詳情盡在：https://www.macz.com/mac/8152.html?id=ODE3NDU1Jl8mMjcuMTg2LjEyNy4yNTQ%3D

所周知,python最強(qiáng)大的地方在于，python社區(qū)匯總擁有豐富的第三方庫，開源的特性，使得有越來越多的技術(shù)開發(fā)者來完善。

python的完美性。

未來人工智能，大數(shù)據(jù)方向，區(qū)塊鏈的識別和進(jìn)階都將以python為中心來展開。

咳咳咳！好像有點(diǎn)打廣告的嫌疑了。

當(dāng)前互聯(lián)網(wǎng)信息共享時代，最重要的是什么?是數(shù)據(jù)。最有價值的是什么？是數(shù)據(jù)。最能直觀體現(xiàn)技術(shù)水平的是什么?還是數(shù)據(jù)。

所以，今天我們要分享的是：如何來獲取各個文件格式的文本信息。

普通文件的格式一般分為: txt普通文本信息，doc word文檔，html網(wǎng)頁內(nèi)容，excel表格數(shù)據(jù)，以及特殊的mht文件。

一、Python處理html網(wǎng)頁信息

html類型的文本數(shù)據(jù)，內(nèi)容是由前端代碼書寫的標(biāo)簽+文本數(shù)據(jù)的格式，可以直接在chrome瀏覽器打開，清楚的展示出文本的格式。

python 獲取html文件的內(nèi)容和獲取txt文件的方法相同，直接打開文件讀取就可以了。

讀取代碼如下:

with open(html_path, "r", encoding="utf-8") as f:
 file=f.read()

file 是html文件的文本內(nèi)容。是一個網(wǎng)頁標(biāo)簽的格式內(nèi)容。

二、Python處理excel表格信息

python擁有直接操作excel表格的第三方庫xlwt,xlrd。調(diào)用對應(yīng)的方法就可以讀寫excel表格數(shù)據(jù)。

讀取excel操作代碼如下:

filepath="C:\\Users\Administrator\Desktop\新建文件夾\笨笨 前程6份 武漢.xls"
sheet_name="UserList"
rb=xlrd.open_workbook(filepath)
sheet=rb.sheet_by_name(sheet_name)
# clox_list=[0, 9, 14, 15, 17]
for row in range(1, sheet.nrows):
 w=WriteToExcel()
 # for clox in clox_list:
 name=sheet.cell(row, 0).value
 phone=sheet.cell(row, 15).value
 address=sheet.cell(row, 9).value
 major=sheet.cell(row, 14).value
 age=sheet.cell(row, 8).value

其中row是表格數(shù)據(jù)對應(yīng)的行數(shù)， cell獲取具體行數(shù)，列數(shù)的具體數(shù)據(jù)。

三、Python讀取doc文檔數(shù)據(jù)

python讀取doc文檔是最麻煩的。處理邏輯復(fù)雜。處理的方式也有很多種。

python 沒有直接處理doc文檔的第三方庫，但是有一個處理docx的第三方庫。可以通過將doc文件轉(zhuǎn)換為docx文件，再調(diào)用第三方python庫pydocx來讀取doc文檔的內(nèi)容。

這里需要注意的是,不要直接修改doc的后綴來修改成docx文件。直接通過修改后綴獲取的docx文件，pydocx無法讀取內(nèi)容。

我們可以使用另外一個庫來修改doc為docx。

具體代碼如下:

def doSaveAas(self, doc_path):
 """
 將doc文檔轉(zhuǎn)換為docx文檔
 :rtype: object
 """
 docx_path=doc_path.replace("doc", "docx")
 word=wc.Dispatch('Word.Application')
 doc=word.Documents.Open(doc_path) # 目標(biāo)路徑下的文件
 doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False) # 轉(zhuǎn)化后路徑下的文件
 doc.Close()
 word.Quit()

代碼所需的包接口:

import os
import zipfile
from win32com import client as wc
import xlrd
from bs4 import BeautifulSoup
from pydocx import PyDocX
from lxml import html
from xpath_content import XpathContent
from write_to_excel import WriteToExcel

python處理docx文檔的方法有很多種，具體使用情況，根據(jù)個人需求來決定。

No.1 解壓docx文件

docx文件的原理，本質(zhì)上就是一個壓縮的zip文件，通過解壓以后，就可以獲取原來文件的各個內(nèi)容。

docx解壓后的文件結(jié)構(gòu)如下:

docx文件的文本內(nèi)容存儲結(jié)構(gòu)如下:

文本內(nèi)容存儲于word/document.xml文件中。

第一種方法，我們就可以先將docx還原成zip壓縮文件，再解壓zip文件，讀取word/document.xml文件的內(nèi)容就ok了。

具體操作代碼如下:

def get_content(self):
 """
 獲取docx文檔的文本內(nèi)容
 :rtype: object
 """
 os.chdir(r"C:\Users\Administrator\Desktop\新建文件夾") # 改變目錄到文件的目錄
 #
 os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP") # 重命名為zip文件
 f=zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r') # 進(jìn)行解壓
 xml=f.read("word/document.xml")
 wordObj=BeautifulSoup(xml.decode("utf-8"))
 # print(wordObj)
 texts=wordObj.findAll("w:t")
 content=[]
 for text in texts:
 content.append(text.text)
 content_str="".join(content)
 return content_str

最后獲取到的就是docx文檔的所有文本數(shù)據(jù)了。

No.2 將docx文檔轉(zhuǎn)換成python能夠處理的文本格式

第一種方法，是依據(jù)docx文檔的原理來獲取數(shù)據(jù),流程有點(diǎn)繁瑣，有沒有能直接讀取docx文檔內(nèi)容的方法呢？答案，肯定是沒有的，別想了，洗洗回家睡吧。

直接讀取docx文檔的方法沒有，有沒有能夠?qū)ocx文檔轉(zhuǎn)換成python能夠輕松處理的文本格式呢？

這個可以有，前面說了，python擁有大量豐富的第三方庫（先夸一波我大python）,歷經(jīng)千辛萬苦終于找到了，一個能轉(zhuǎn)換docx文檔格式的第三方庫,pydocx,pydocx庫中有個方法pydocx.to_html()就可以直接將docx文檔轉(zhuǎn)換為html文件，怎么樣？意不意外，驚喜不驚喜！

第二種方法，轉(zhuǎn)換文本格式的代碼如下:

def docx_to_html(self, docx_path):
 """
 docx文檔轉(zhuǎn)換成html響應(yīng)
 :rtype: object
 """
 # docx_path="C:\\Users\Administrator\Desktop\新建文件夾\\51 2014.09.12 1份Savannah.docx"
 response=PyDocX.to_html(docx_path)

獲取到的response是html文件內(nèi)容。

四、Python處理mht文件

mht文件是一種只能在IE瀏覽器上展示的文本格式，在chrome瀏覽器中打開是一堆的亂碼。

No.1 偽造IE請求mht文件內(nèi)容

最基礎(chǔ)的讀取mht文本的方法就是偽造IE瀏覽器請求。

調(diào)用requests庫，發(fā)送get請求網(wǎng)頁鏈接，構(gòu)造IE的請求頭信息。

理論上來說，這種方法是可行的。但是呢，不建議用，原因大家都懂得。

No.2 轉(zhuǎn)換文件格式

好了說正經(jīng)的方法，猜測mht文件能否修改成其他文件格式來直接讀取呢？

docx,不行；html，不行；excel，更不用說了。

真相只有一個！！！

直接修改后綴得到的docx，無法讀取。

so,我們想到的方法是什么呢。沒錯，就是修改成doc文檔。

方法是匪夷所思的，但也是靈感一現(xiàn)。

mht可以直接通過修改后綴轉(zhuǎn)換成doc文檔，doc文檔讀取文本內(nèi)容的方法具體參考上面讀取doc文檔的方法。

如何獲取html文本的內(nèi)容？

html文本的內(nèi)容是網(wǎng)頁結(jié)構(gòu)標(biāo)簽數(shù)據(jù)，取出文本的方式是：re正則，或者xpath。

后續(xù)，小伙伴有需要的話，會再開一章詳細(xì)了解re,xapth的使用規(guī)則。

來源網(wǎng)絡(luò)，侵權(quán)聯(lián)系刪除

在線咨詢

上一篇：JS中的重載-如何實(shí)現(xiàn)一個類似這樣的功能，我也想玩玩
下一篇：網(wǎng)頁前端設(shè)計-13a鏈接-調(diào)用javaScript腳

您的項(xiàng)目需求

*請認(rèn)真填寫需求信息，我們會在24小時內(nèi)與您取得聯(lián)系。

整合營銷服務(wù)商

MHT Viewer for Mac(mht查看器)

容介紹

MHT Viewer for Mac安裝教程

mht viewer mac軟件功能

MHT Viewer使用教程

您的項(xiàng)目需求