整合營(yíng)銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          VBA技術(shù)資料MF188:將Txt文件轉(zhuǎn)換成Html

          VBA技術(shù)資料MF188:將Txt文件轉(zhuǎn)換成Html文件

          給VBA的定義:VBA是個(gè)人小型自動(dòng)化處理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高數(shù)據(jù)的準(zhǔn)確度。“VBA語(yǔ)言専攻”提供的教程一共九套,分為初級(jí)、中級(jí)、高級(jí)三大部分,教程是對(duì)VBA的系統(tǒng)講解,從簡(jiǎn)單的入門(mén)、到入門(mén)后的提高、到數(shù)據(jù)庫(kù)、到字典、到Word VBA的應(yīng)用、到高級(jí)網(wǎng)抓及類的應(yīng)用、一直講到程序的分發(fā)。另外,為了方便大家在寫(xiě)代碼是方便查找,“VBA語(yǔ)言専攻”又推出了一部VBA漢英手冊(cè),這部手冊(cè)覆蓋了VBA的方方面面,與實(shí)際工作銜接度高。為了更好的完善學(xué)員的知識(shí)結(jié)構(gòu),豐富學(xué)員的實(shí)踐經(jīng)驗(yàn),“VBA語(yǔ)言専攻”還提供給學(xué)員VBA工具,有較復(fù)雜些的NZ系列工具,較容易些的YZ系列,這個(gè)兩個(gè)工具系列一共是二十六份。

          VBA是職場(chǎng)很好的利用工具,為了讓大家更廣泛看到VBA應(yīng)用場(chǎng)景,“VBA語(yǔ)言専攻”還有MF系列技術(shù)資料提供。MF系列技術(shù)資料側(cè)重VBA應(yīng)用技巧和疑難雜癥,目前提供640多份資料,會(huì)持續(xù)增加,里面有很多實(shí)用技巧提供。如果您已經(jīng)成為我的學(xué)員(獲得我9套教程及漢英手冊(cè)中的兩套及以上)可以免費(fèi)索獲這個(gè)系列部分資料;如果您是我的T3學(xué)員(獲得我的全部教程+手冊(cè)+NZ,YZ工具),那么您可以獲得我提供的所有MF系列技術(shù)資料,并享受永久更新;您如果還不是我的學(xué)員,您只能選擇分享,但需要擁有我的至少一套教程或者手冊(cè)。今日給大家介紹的是VBA技術(shù)資料MF188:將Txt文件轉(zhuǎn)換成Html文件

          分享成果,隨喜正能量】總以為來(lái)日方長(zhǎng),卻忘了世事無(wú)常。無(wú)論春風(fēng)得意與聚散離合,一切都會(huì)過(guò)去的。飄風(fēng)不終朝,驟雨不終日。一味地沉浸在過(guò)去的痛苦中,只會(huì)無(wú)端地消耗自己,去釋?xiě)?,去放下,把過(guò)去的一切當(dāng)做磨礪,腳踏實(shí)地把今天的事做好,才是對(duì)未來(lái)的不辜負(fù)。。

          MF188:將Txt文件轉(zhuǎn)換成Html文件

          Html文件是超文本標(biāo)記語(yǔ)言(英語(yǔ):HyperText Markup Language,簡(jiǎn)稱:HTML)是一種用于創(chuàng)建網(wǎng)頁(yè)的標(biāo)準(zhǔn)標(biāo)記語(yǔ)言。您可以使用 HTML 來(lái)建立自己的 WEB 站點(diǎn),HTML 運(yùn)行在瀏覽器上,由瀏覽器來(lái)解析。本講的內(nèi)容力爭(zhēng)實(shí)現(xiàn)VBA完成Html文件的轉(zhuǎn)換。在MF188的資料中,我們將探討如何使用Excel VBA代碼實(shí)現(xiàn)將Txt文件轉(zhuǎn)換成Html文件的方法,本節(jié)代碼您可以作單獨(dú)使用,也可以作為您的UDF利用。MF188料提供的內(nèi)容有:① 將Txt文件裝換成Html文件

          為了說(shuō)明這節(jié)內(nèi)容,我在給出的資料中會(huì)給出一個(gè)簡(jiǎn)單的TXT文件,如下截圖:

          一 將Txt文件裝換成Html文件

          我們先看實(shí)現(xiàn)上述功能的操作界面:

          點(diǎn)擊按鈕后代碼會(huì)運(yùn)行,會(huì)打開(kāi)上述的txt文件,并將其裝換成HTML文件。

          • 代碼見(jiàn)程序文件:VBA_ConvertTxtFilesToHtmFiles.xlsm

          所周知,python最強(qiáng)大的地方在于,python社區(qū)匯總擁有豐富的第三方庫(kù),開(kāi)源的特性,使得有越來(lái)越多的技術(shù)開(kāi)發(fā)者來(lái)完善。

          python的完美性。

          未來(lái)人工智能,大數(shù)據(jù)方向,區(qū)塊鏈的識(shí)別和進(jìn)階都將以python為中心來(lái)展開(kāi)。

          咳咳咳! 好像有點(diǎn)打廣告的嫌疑了。

          當(dāng)前互聯(lián)網(wǎng)信息共享時(shí)代,最重要的是什么?是數(shù)據(jù)。最有價(jià)值的是什么?是數(shù)據(jù)。最能直觀體現(xiàn)技術(shù)水平的是什么?還是數(shù)據(jù)。

          所以,今天我們要分享的是:如何來(lái)獲取各個(gè)文件格式的文本信息。

          普通文件的格式 一般分為: txt普通文本信息,doc word文檔,html網(wǎng)頁(yè)內(nèi)容,excel表格數(shù)據(jù),以及特殊的mht文件。

          一、Python處理html網(wǎng)頁(yè)信息

          html類型的文本數(shù)據(jù),內(nèi)容是由前端代碼書(shū)寫(xiě)的標(biāo)簽+文本數(shù)據(jù)的格式,可以直接在chrome瀏覽器打開(kāi),清楚 的展示出文本的格式。

          python 獲取html文件的內(nèi)容和獲取txt文件的方法相同,直接打開(kāi)文件讀取就可以了。

          讀取代碼如下:

          with open(html_path, "r", encoding="utf-8") as f:
           file=f.read()
          

          file 是html文件的文本內(nèi)容。是一個(gè)網(wǎng)頁(yè)標(biāo)簽的格式內(nèi)容。

          二、Python處理excel表格信息

          python擁有直接操作excel表格的第三方庫(kù)xlwt,xlrd。調(diào)用對(duì)應(yīng)的方法就可以讀寫(xiě)excel表格數(shù)據(jù)。

          讀取excel操作代碼如下:

          filepath="C:\\Users\Administrator\Desktop\新建文件夾\笨笨 前程6份 武漢.xls"
          sheet_name="UserList"
          rb=xlrd.open_workbook(filepath)
          sheet=rb.sheet_by_name(sheet_name)
          # clox_list=[0, 9, 14, 15, 17]
          for row in range(1, sheet.nrows):
           w=WriteToExcel()
           # for clox in clox_list:
           name=sheet.cell(row, 0).value
           phone=sheet.cell(row, 15).value
           address=sheet.cell(row, 9).value
           major=sheet.cell(row, 14).value
           age=sheet.cell(row, 8).value
          

          其中row是表格數(shù)據(jù)對(duì)應(yīng)的行數(shù), cell獲取具體行數(shù),列數(shù)的具體數(shù)據(jù)。

          三、Python讀取doc文檔數(shù)據(jù)

          python讀取doc文檔是最麻煩的。處理邏輯復(fù)雜。處理的方式也有很多種。

          python 沒(méi)有直接處理doc文檔的第三方庫(kù),但是有一個(gè)處理docx的第三方庫(kù)。可以通過(guò)將doc文件轉(zhuǎn)換為docx文件,再調(diào)用第三方python庫(kù)pydocx來(lái)讀取doc文檔的內(nèi)容。

          這里需要注意的是,不要直接修改doc的后綴來(lái)修改成docx文件。直接通過(guò)修改后綴獲取的docx文件,pydocx無(wú)法讀取內(nèi)容。

          我們可以使用另外一個(gè)庫(kù)來(lái)修改doc為docx。

          具體代碼如下:

          def doSaveAas(self, doc_path):
           """
           將doc文檔轉(zhuǎn)換為docx文檔
           :rtype: object
           """
           docx_path=doc_path.replace("doc", "docx")
           word=wc.Dispatch('Word.Application')
           doc=word.Documents.Open(doc_path) # 目標(biāo)路徑下的文件
           doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False) # 轉(zhuǎn)化后路徑下的文件
           doc.Close()
           word.Quit()
          

          代碼所需的包接口:

          import os
          import zipfile
          from win32com import client as wc
          import xlrd
          from bs4 import BeautifulSoup
          from pydocx import PyDocX
          from lxml import html
          from xpath_content import XpathContent
          from write_to_excel import WriteToExcel
          

          python處理docx文檔的方法有很多種,具體使用情況,根據(jù)個(gè)人需求來(lái)決定。

          No.1 解壓docx文件

          docx文件的原理,本質(zhì)上就是一個(gè)壓縮的zip文件,通過(guò)解壓以后,就可以獲取原來(lái)文件的各個(gè)內(nèi)容。

          docx解壓后的文件結(jié)構(gòu)如下:



          docx文件的文本內(nèi)容存儲(chǔ)結(jié)構(gòu)如下:

          文本內(nèi)容存儲(chǔ)于word/document.xml文件中。



          第一種方法,我們就可以先將docx還原成zip壓縮文件,再解壓zip文件,讀取word/document.xml文件的內(nèi)容就ok了。

          具體操作代碼如下:

          def get_content(self):
           """
           獲取docx文檔的文本內(nèi)容
           :rtype: object
           """
           os.chdir(r"C:\Users\Administrator\Desktop\新建文件夾") # 改變目錄到文件的目錄
           #
           os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP") # 重命名為zip文件
           f=zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r') # 進(jìn)行解壓
           xml=f.read("word/document.xml")
           wordObj=BeautifulSoup(xml.decode("utf-8"))
           # print(wordObj)
           texts=wordObj.findAll("w:t")
           content=[]
           for text in texts:
           content.append(text.text)
           content_str="".join(content)
           return content_str
          

          最后獲取到的就是docx文檔的所有文本數(shù)據(jù)了。

          No.2 將docx文檔轉(zhuǎn)換成python能夠處理的文本格式

          第一種方法,是依據(jù)docx文檔的原理來(lái)獲取數(shù)據(jù),流程有點(diǎn)繁瑣,有沒(méi)有能直接讀取docx文檔內(nèi)容的方法呢?答案,肯定是沒(méi)有的,別想了,洗洗回家睡吧。

          直接讀取docx文檔的方法沒(méi)有,有沒(méi)有能夠?qū)ocx文檔轉(zhuǎn)換成python能夠輕松處理的文本格式呢?

          這個(gè)可以有,前面說(shuō)了,python擁有大量豐富的第三方庫(kù)(先夸一波我大python),歷經(jīng)千辛萬(wàn)苦終于找到了,一個(gè)能轉(zhuǎn)換docx文檔格式的第三方庫(kù),pydocx,pydocx庫(kù)中有個(gè)方法pydocx.to_html()就可以直接將docx文檔轉(zhuǎn)換為html文件,怎么樣?意不意外,驚喜不驚喜!

          第二種方法,轉(zhuǎn)換文本格式的代碼如下:

          def docx_to_html(self, docx_path):
           """
           docx文檔轉(zhuǎn)換成html響應(yīng)
           :rtype: object
           """
           # docx_path="C:\\Users\Administrator\Desktop\新建文件夾\\51 2014.09.12 1份Savannah.docx"
           response=PyDocX.to_html(docx_path)
          

          獲取到的response是html文件內(nèi)容。

          四、Python處理mht文件

          mht文件是一種只能在IE瀏覽器上展示的文本格式,在chrome瀏覽器中打開(kāi)是一堆的亂碼。

          No.1 偽造IE請(qǐng)求mht文件內(nèi)容

          最基礎(chǔ)的讀取mht文本的方法就是偽造IE瀏覽器請(qǐng)求。

          調(diào)用requests庫(kù),發(fā)送get請(qǐng)求網(wǎng)頁(yè)鏈接,構(gòu)造IE的請(qǐng)求頭信息。

          理論上來(lái)說(shuō),這種方法是可行的。但是呢,不建議用,原因大家都懂得。


          No.2 轉(zhuǎn)換文件格式

          好了說(shuō)正經(jīng)的方法,猜測(cè)mht文件能否修改成其他文件格式來(lái)直接讀取呢?

          docx,不行;html,不行;excel,更不用說(shuō)了。

          真相只有一個(gè)?。?!

          直接修改后綴得到的docx,無(wú)法讀取。

          so,我們想到的方法是什么呢。沒(méi)錯(cuò),就是修改成doc文檔。

          方法是匪夷所思的,但也是靈感一現(xiàn)。

          mht可以直接通過(guò)修改后綴轉(zhuǎn)換成doc文檔,doc文檔讀取文本內(nèi)容的方法具體參考上面讀取doc文檔的方法。

          如何獲取html文本的內(nèi)容?

          html文本的內(nèi)容是網(wǎng)頁(yè)結(jié)構(gòu)標(biāo)簽數(shù)據(jù),取出文本的方式是:re正則,或者xpath。

          后續(xù),小伙伴有需要的話,會(huì)再開(kāi)一章詳細(xì)了解re,xapth的使用規(guī)則。

          來(lái)源網(wǎng)絡(luò),侵權(quán)聯(lián)系刪除

          科技之巔#python html指定區(qū)域文本內(nèi)容轉(zhuǎn)稱txt文本文件

          1、首先,通過(guò)python,去將讀取遍歷程序目錄文件夾中,【html】文件夾里面的文件、文件

          夾以及子目錄、子目錄里面的 ,獲取到該目錄下所有的【.html】文件后,返回一個(gè)list對(duì)象

          2、遍歷完成后得到一個(gè)html文件列表對(duì)象,將該列表交給html_to_txt方法,html_to_txt方法

          里面循環(huán)逐個(gè)讀取html文件中指定標(biāo)簽中<DIV>標(biāo)簽中<H1>標(biāo)簽中的文字,和中指定標(biāo)簽

          <TD>里面<P>標(biāo)簽的文字提取出來(lái)

          3、讀取到的文本內(nèi)容輸出到txt文件中,這里可以加上一個(gè)替換replace,把我們不需要的內(nèi)

          容替換之后,這里可以做多次替換,也可以加上換行之類的處理,再進(jìn)行輸出,可根據(jù)自己

          的需求修改,如果有什么不明之處,可以提問(wèn)


          主站蜘蛛池模板: 亚洲一区二区三区无码中文字幕| 亚洲美女一区二区三区| 韩国福利一区二区美女视频| 成人在线一区二区| 亚洲av片一区二区三区| 区三区激情福利综合中文字幕在线一区亚洲视频1 | 久久精品人妻一区二区三区| 国产SUV精品一区二区88L| 国产MD视频一区二区三区| 亚洲成AV人片一区二区| 精品少妇人妻AV一区二区 | 国产在线精品一区二区 | 亚洲高清偷拍一区二区三区| 国产一区二区电影在线观看| 国产精品合集一区二区三区 | 国产伦理一区二区三区| 高清一区二区三区免费视频| 久久青青草原一区二区| 日韩制服国产精品一区| 亚洲国产欧美国产综合一区| 制服丝袜一区二区三区| 大伊香蕉精品一区视频在线 | 天堂一区二区三区精品| 国产乱码精品一区二区三区中文 | 国产91精品一区| 亚洲AV无码一区二区三区牛牛| 国产在线视频一区二区三区98| 精品无码综合一区二区三区| 中文无码一区二区不卡αv| 国产精品亚洲一区二区三区在线| 精品亚洲一区二区三区在线播放| 玩弄放荡人妻一区二区三区| 国产91大片精品一区在线观看| 亚洲一区二区三区亚瑟| 美女毛片一区二区三区四区| 亚洲日韩一区二区一无码| 人妻av综合天堂一区| 日韩一区二区三区在线精品| 亚洲一区二区三区乱码A| 国产成人高清视频一区二区| 国产高清在线精品一区|