整合營銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          MHT Viewer for Mac(mht查看器)

          MHT Viewer for Mac(mht查看器) v3.2激活版

          容介紹

          MHT Viewer for Mac一款方便的MHT MHTML,MIME HTML文檔查看器。mht viewer mac可解析和訪問MHT格式文件,并且能夠以最快速度批量打開MHT文件。測試環(huán)境:MacOS 11.3.1

          MHT Viewer for Mac安裝教程

          mht viewer mac下載完成后,雙擊安裝,根據(jù)安裝器提示進(jìn)行安裝即可。

          mht viewer mac軟件功能

          免費(fèi)的MHT查看器可以打開和查看無限的MHT文件,而不會出現(xiàn)錯誤。

          MHT文件查看器可以打開和預(yù)覽MHT文件。

          免費(fèi)的MHT閱讀器可以處理IE,Chrome創(chuàng)建的MHT文件。

          顯示搜索,加載和查看MHT文件的簡單過程。

          批量打開MHT文件的獨(dú)特選項(xiàng)。

          瀏覽充滿MHT文件的文件夾并一次性加載所有文件。

          沒有文件大小或文件內(nèi)容限制來打開MHTML / MHT文件格式。

          嘗試查看MHT文件時,將保留數(shù)據(jù)完整性。

          MHT Viewer使用教程

          用戶可以直接通過此網(wǎng)站下載對應(yīng)的安裝包,然后即可進(jìn)行解壓,雙擊程序即可將其打開

          雙擊后,即可彈出對應(yīng)的用戶界面,整個用戶界面的功能模塊分布非常清晰

          選擇“ MHT文件”文件夾已在軟件面板中加載文件。

          從您的計算機(jī)中選擇MHT文件,然后依次“打開”以繼續(xù)

          選擇任何特定的MHT來閱讀和預(yù)覽其信息。

          它是MHTML文檔的備用名稱和后綴,默認(rèn)格式為Internet Explorer隨同存儲的網(wǎng)頁的存檔格式的MHTML文檔。

          此文件格式可以包含各種資源,例如Java,圖像,音頻,Flash等,以及所有外部鏈接以及HTML代碼。

          有多種原因需要創(chuàng)建MHT文件,因?yàn)楸4婢W(wǎng)頁很有用,因?yàn)樗试S離線訪問特定網(wǎng)頁。

          很多時候,用戶需要捕獲網(wǎng)頁上的內(nèi)容以備將來使用。

          因此,他們通過在系統(tǒng)上創(chuàng)建MHT文件來存儲網(wǎng)頁。

          下載:https://www.macv.com/mac/3172.html?id=NDcwODQ%3D

          HT Viewer for Ma是一款輕量級的.mht、.mhtm、.mhtml文檔查看器/閱讀器。可快速閱讀,還支持文本縮放或者放大,支持蘋果芯片,趕快試試吧。

          詳情盡在:https://www.macz.com/mac/8152.html?id=ODE3NDU1Jl8mMjcuMTg2LjEyNy4yNTQ%3D

          所周知,python最強(qiáng)大的地方在于,python社區(qū)匯總擁有豐富的第三方庫,開源的特性,使得有越來越多的技術(shù)開發(fā)者來完善。

          python的完美性。

          未來人工智能,大數(shù)據(jù)方向,區(qū)塊鏈的識別和進(jìn)階都將以python為中心來展開。

          咳咳咳! 好像有點(diǎn)打廣告的嫌疑了。

          當(dāng)前互聯(lián)網(wǎng)信息共享時代,最重要的是什么?是數(shù)據(jù)。最有價值的是什么?是數(shù)據(jù)。最能直觀體現(xiàn)技術(shù)水平的是什么?還是數(shù)據(jù)。

          所以,今天我們要分享的是:如何來獲取各個文件格式的文本信息。

          普通文件的格式 一般分為: txt普通文本信息,doc word文檔,html網(wǎng)頁內(nèi)容,excel表格數(shù)據(jù),以及特殊的mht文件。

          一、Python處理html網(wǎng)頁信息

          html類型的文本數(shù)據(jù),內(nèi)容是由前端代碼書寫的標(biāo)簽+文本數(shù)據(jù)的格式,可以直接在chrome瀏覽器打開,清楚 的展示出文本的格式。

          python 獲取html文件的內(nèi)容和獲取txt文件的方法相同,直接打開文件讀取就可以了。

          讀取代碼如下:

          with open(html_path, "r", encoding="utf-8") as f:
           file=f.read()
          

          file 是html文件的文本內(nèi)容。是一個網(wǎng)頁標(biāo)簽的格式內(nèi)容。

          二、Python處理excel表格信息

          python擁有直接操作excel表格的第三方庫xlwt,xlrd。調(diào)用對應(yīng)的方法就可以讀寫excel表格數(shù)據(jù)。

          讀取excel操作代碼如下:

          filepath="C:\\Users\Administrator\Desktop\新建文件夾\笨笨 前程6份 武漢.xls"
          sheet_name="UserList"
          rb=xlrd.open_workbook(filepath)
          sheet=rb.sheet_by_name(sheet_name)
          # clox_list=[0, 9, 14, 15, 17]
          for row in range(1, sheet.nrows):
           w=WriteToExcel()
           # for clox in clox_list:
           name=sheet.cell(row, 0).value
           phone=sheet.cell(row, 15).value
           address=sheet.cell(row, 9).value
           major=sheet.cell(row, 14).value
           age=sheet.cell(row, 8).value
          

          其中row是表格數(shù)據(jù)對應(yīng)的行數(shù), cell獲取具體行數(shù),列數(shù)的具體數(shù)據(jù)。

          三、Python讀取doc文檔數(shù)據(jù)

          python讀取doc文檔是最麻煩的。處理邏輯復(fù)雜。處理的方式也有很多種。

          python 沒有直接處理doc文檔的第三方庫,但是有一個處理docx的第三方庫。可以通過將doc文件轉(zhuǎn)換為docx文件,再調(diào)用第三方python庫pydocx來讀取doc文檔的內(nèi)容。

          這里需要注意的是,不要直接修改doc的后綴來修改成docx文件。直接通過修改后綴獲取的docx文件,pydocx無法讀取內(nèi)容。

          我們可以使用另外一個庫來修改doc為docx。

          具體代碼如下:

          def doSaveAas(self, doc_path):
           """
           將doc文檔轉(zhuǎn)換為docx文檔
           :rtype: object
           """
           docx_path=doc_path.replace("doc", "docx")
           word=wc.Dispatch('Word.Application')
           doc=word.Documents.Open(doc_path) # 目標(biāo)路徑下的文件
           doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False) # 轉(zhuǎn)化后路徑下的文件
           doc.Close()
           word.Quit()
          

          代碼所需的包接口:

          import os
          import zipfile
          from win32com import client as wc
          import xlrd
          from bs4 import BeautifulSoup
          from pydocx import PyDocX
          from lxml import html
          from xpath_content import XpathContent
          from write_to_excel import WriteToExcel
          

          python處理docx文檔的方法有很多種,具體使用情況,根據(jù)個人需求來決定。

          No.1 解壓docx文件

          docx文件的原理,本質(zhì)上就是一個壓縮的zip文件,通過解壓以后,就可以獲取原來文件的各個內(nèi)容。

          docx解壓后的文件結(jié)構(gòu)如下:



          docx文件的文本內(nèi)容存儲結(jié)構(gòu)如下:

          文本內(nèi)容存儲于word/document.xml文件中。



          第一種方法,我們就可以先將docx還原成zip壓縮文件,再解壓zip文件,讀取word/document.xml文件的內(nèi)容就ok了。

          具體操作代碼如下:

          def get_content(self):
           """
           獲取docx文檔的文本內(nèi)容
           :rtype: object
           """
           os.chdir(r"C:\Users\Administrator\Desktop\新建文件夾") # 改變目錄到文件的目錄
           #
           os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP") # 重命名為zip文件
           f=zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r') # 進(jìn)行解壓
           xml=f.read("word/document.xml")
           wordObj=BeautifulSoup(xml.decode("utf-8"))
           # print(wordObj)
           texts=wordObj.findAll("w:t")
           content=[]
           for text in texts:
           content.append(text.text)
           content_str="".join(content)
           return content_str
          

          最后獲取到的就是docx文檔的所有文本數(shù)據(jù)了。

          No.2 將docx文檔轉(zhuǎn)換成python能夠處理的文本格式

          第一種方法,是依據(jù)docx文檔的原理來獲取數(shù)據(jù),流程有點(diǎn)繁瑣,有沒有能直接讀取docx文檔內(nèi)容的方法呢?答案,肯定是沒有的,別想了,洗洗回家睡吧。

          直接讀取docx文檔的方法沒有,有沒有能夠?qū)ocx文檔轉(zhuǎn)換成python能夠輕松處理的文本格式呢?

          這個可以有,前面說了,python擁有大量豐富的第三方庫(先夸一波我大python),歷經(jīng)千辛萬苦終于找到了,一個能轉(zhuǎn)換docx文檔格式的第三方庫,pydocx,pydocx庫中有個方法pydocx.to_html()就可以直接將docx文檔轉(zhuǎn)換為html文件,怎么樣?意不意外,驚喜不驚喜!

          第二種方法,轉(zhuǎn)換文本格式的代碼如下:

          def docx_to_html(self, docx_path):
           """
           docx文檔轉(zhuǎn)換成html響應(yīng)
           :rtype: object
           """
           # docx_path="C:\\Users\Administrator\Desktop\新建文件夾\\51 2014.09.12 1份Savannah.docx"
           response=PyDocX.to_html(docx_path)
          

          獲取到的response是html文件內(nèi)容。

          四、Python處理mht文件

          mht文件是一種只能在IE瀏覽器上展示的文本格式,在chrome瀏覽器中打開是一堆的亂碼。

          No.1 偽造IE請求mht文件內(nèi)容

          最基礎(chǔ)的讀取mht文本的方法就是偽造IE瀏覽器請求。

          調(diào)用requests庫,發(fā)送get請求網(wǎng)頁鏈接,構(gòu)造IE的請求頭信息。

          理論上來說,這種方法是可行的。但是呢,不建議用,原因大家都懂得。


          No.2 轉(zhuǎn)換文件格式

          好了說正經(jīng)的方法,猜測mht文件能否修改成其他文件格式來直接讀取呢?

          docx,不行;html,不行;excel,更不用說了。

          真相只有一個!!!

          直接修改后綴得到的docx,無法讀取。

          so,我們想到的方法是什么呢。沒錯,就是修改成doc文檔。

          方法是匪夷所思的,但也是靈感一現(xiàn)。

          mht可以直接通過修改后綴轉(zhuǎn)換成doc文檔,doc文檔讀取文本內(nèi)容的方法具體參考上面讀取doc文檔的方法。

          如何獲取html文本的內(nèi)容?

          html文本的內(nèi)容是網(wǎng)頁結(jié)構(gòu)標(biāo)簽數(shù)據(jù),取出文本的方式是:re正則,或者xpath。

          后續(xù),小伙伴有需要的話,會再開一章詳細(xì)了解re,xapth的使用規(guī)則。

          來源網(wǎng)絡(luò),侵權(quán)聯(lián)系刪除


          主站蜘蛛池模板: 国产婷婷色一区二区三区| aⅴ一区二区三区无卡无码| 国产一区二区三区播放| 无码精品久久一区二区三区| 国产一区二区三区在线电影| 亚洲爆乳精品无码一区二区三区 | 日韩在线视频一区二区三区| 人成精品视频三区二区一区 | 99精品一区二区三区无码吞精| 日韩精品一区二区三区影院| 亚洲一区二区三区夜色 | 国产一区韩国女主播| 国产剧情一区二区| 色噜噜狠狠一区二区| 精品欧洲AV无码一区二区男男| 福利一区二区三区视频午夜观看| 无码人妻精品一区二区三区在线| 国产AⅤ精品一区二区三区久久| 亚洲午夜精品一区二区麻豆| 亚洲一区二区三区高清视频| 久久精品一区二区三区日韩| 亚欧成人中文字幕一区| 一本大道东京热无码一区| 精品91一区二区三区| 一区二区3区免费视频| 国精产品一区一区三区免费视频 | 精品人妻一区二区三区毛片 | 视频一区二区在线观看| 视频一区二区三区在线观看| 国产精品无码一区二区在线观一| 日韩视频在线观看一区二区| 国产精品视频一区国模私拍| 一区二区高清视频在线观看| 麻豆精品一区二区综合av| 日韩综合无码一区二区| 无码一区二区三区老色鬼| 成人一区专区在线观看| 亚洲国产综合精品一区在线播放| 无码欧精品亚洲日韩一区夜夜嗨| 色偷偷av一区二区三区| 无码日韩人妻AV一区免费l|