整合營銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          Python 讀取各類文件格式的文本信息 - doc,excel,html,mht

          所周知,python最強(qiáng)大的地方在于,python社區(qū)匯總擁有豐富的第三方庫,開源的特性,使得有越來越多的技術(shù)開發(fā)者來完善。

          python的完美性。

          未來人工智能,大數(shù)據(jù)方向,區(qū)塊鏈的識(shí)別和進(jìn)階都將以python為中心來展開。

          咳咳咳! 好像有點(diǎn)打廣告的嫌疑了。

          當(dāng)前互聯(lián)網(wǎng)信息共享時(shí)代,最重要的是什么?是數(shù)據(jù)。最有價(jià)值的是什么?是數(shù)據(jù)。最能直觀體現(xiàn)技術(shù)水平的是什么?還是數(shù)據(jù)。

          所以,今天我們要分享的是:如何來獲取各個(gè)文件格式的文本信息。

          普通文件的格式 一般分為: txt普通文本信息,doc word文檔,html網(wǎng)頁內(nèi)容,excel表格數(shù)據(jù),以及特殊的mht文件。

          一、Python處理html網(wǎng)頁信息

          html類型的文本數(shù)據(jù),內(nèi)容是由前端代碼書寫的標(biāo)簽+文本數(shù)據(jù)的格式,可以直接在chrome瀏覽器打開,清楚 的展示出文本的格式。

          python 獲取html文件的內(nèi)容和獲取txt文件的方法相同,直接打開文件讀取就可以了。

          讀取代碼如下:

          with open(html_path, "r", encoding="utf-8") as f:
           file = f.read()
          

          file 是html文件的文本內(nèi)容。是一個(gè)網(wǎng)頁標(biāo)簽的格式內(nèi)容。

          二、Python處理excel表格信息

          python擁有直接操作excel表格的第三方庫xlwt,xlrd。調(diào)用對(duì)應(yīng)的方法就可以讀寫excel表格數(shù)據(jù)。

          讀取excel操作代碼如下:

          filepath = "C:\\Users\Administrator\Desktop\新建文件夾\笨笨 前程6份 武漢.xls"
          sheet_name = "UserList"
          rb = xlrd.open_workbook(filepath)
          sheet = rb.sheet_by_name(sheet_name)
          # clox_list = [0, 9, 14, 15, 17]
          for row in range(1, sheet.nrows):
           w = WriteToExcel()
           # for clox in clox_list:
           name = sheet.cell(row, 0).value
           phone = sheet.cell(row, 15).value
           address = sheet.cell(row, 9).value
           major = sheet.cell(row, 14).value
           age = sheet.cell(row, 8).value
          

          其中row是表格數(shù)據(jù)對(duì)應(yīng)的行數(shù), cell獲取具體行數(shù),列數(shù)的具體數(shù)據(jù)。

          三、Python讀取doc文檔數(shù)據(jù)

          python讀取doc文檔是最麻煩的。處理邏輯復(fù)雜。處理的方式也有很多種。

          python 沒有直接處理doc文檔的第三方庫,但是有一個(gè)處理docx的第三方庫。可以通過將doc文件轉(zhuǎn)換為docx文件,再調(diào)用第三方python庫pydocx來讀取doc文檔的內(nèi)容。

          這里需要注意的是,不要直接修改doc的后綴來修改成docx文件。直接通過修改后綴獲取的docx文件,pydocx無法讀取內(nèi)容。

          我們可以使用另外一個(gè)庫來修改doc為docx。

          具體代碼如下:

          def doSaveAas(self, doc_path):
           """
           將doc文檔轉(zhuǎn)換為docx文檔
           :rtype: object
           """
           docx_path = doc_path.replace("doc", "docx")
           word = wc.Dispatch('Word.Application')
           doc = word.Documents.Open(doc_path) # 目標(biāo)路徑下的文件
           doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False) # 轉(zhuǎn)化后路徑下的文件
           doc.Close()
           word.Quit()
          

          代碼所需的包接口:

          import os
          import zipfile
          from win32com import client as wc
          import xlrd
          from bs4 import BeautifulSoup
          from pydocx import PyDocX
          from lxml import html
          from xpath_content import XpathContent
          from write_to_excel import WriteToExcel
          

          python處理docx文檔的方法有很多種,具體使用情況,根據(jù)個(gè)人需求來決定。

          No.1 解壓docx文件

          docx文件的原理,本質(zhì)上就是一個(gè)壓縮的zip文件,通過解壓以后,就可以獲取原來文件的各個(gè)內(nèi)容。

          docx解壓后的文件結(jié)構(gòu)如下:



          docx文件的文本內(nèi)容存儲(chǔ)結(jié)構(gòu)如下:

          文本內(nèi)容存儲(chǔ)于word/document.xml文件中。



          第一種方法,我們就可以先將docx還原成zip壓縮文件,再解壓zip文件,讀取word/document.xml文件的內(nèi)容就ok了。

          具體操作代碼如下:

          def get_content(self):
           """
           獲取docx文檔的文本內(nèi)容
           :rtype: object
           """
           os.chdir(r"C:\Users\Administrator\Desktop\新建文件夾") # 改變目錄到文件的目錄
           #
           os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP") # 重命名為zip文件
           f = zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r') # 進(jìn)行解壓
           xml = f.read("word/document.xml")
           wordObj = BeautifulSoup(xml.decode("utf-8"))
           # print(wordObj)
           texts = wordObj.findAll("w:t")
           content = []
           for text in texts:
           content.append(text.text)
           content_str = "".join(content)
           return content_str
          

          最后獲取到的就是docx文檔的所有文本數(shù)據(jù)了。

          No.2 將docx文檔轉(zhuǎn)換成python能夠處理的文本格式

          第一種方法,是依據(jù)docx文檔的原理來獲取數(shù)據(jù),流程有點(diǎn)繁瑣,有沒有能直接讀取docx文檔內(nèi)容的方法呢?答案,肯定是沒有的,別想了,洗洗回家睡吧。

          直接讀取docx文檔的方法沒有,有沒有能夠?qū)ocx文檔轉(zhuǎn)換成python能夠輕松處理的文本格式呢?

          這個(gè)可以有,前面說了,python擁有大量豐富的第三方庫(先夸一波我大python),歷經(jīng)千辛萬苦終于找到了,一個(gè)能轉(zhuǎn)換docx文檔格式的第三方庫,pydocx,pydocx庫中有個(gè)方法pydocx.to_html()就可以直接將docx文檔轉(zhuǎn)換為html文件,怎么樣?意不意外,驚喜不驚喜!

          第二種方法,轉(zhuǎn)換文本格式的代碼如下:

          def docx_to_html(self, docx_path):
           """
           docx文檔轉(zhuǎn)換成html響應(yīng)
           :rtype: object
           """
           # docx_path = "C:\\Users\Administrator\Desktop\新建文件夾\\51 2014.09.12 1份Savannah.docx"
           response = PyDocX.to_html(docx_path)
          

          獲取到的response是html文件內(nèi)容。

          四、Python處理mht文件

          mht文件是一種只能在IE瀏覽器上展示的文本格式,在chrome瀏覽器中打開是一堆的亂碼。

          No.1 偽造IE請求mht文件內(nèi)容

          最基礎(chǔ)的讀取mht文本的方法就是偽造IE瀏覽器請求。

          調(diào)用requests庫,發(fā)送get請求網(wǎng)頁鏈接,構(gòu)造IE的請求頭信息。

          理論上來說,這種方法是可行的。但是呢,不建議用,原因大家都懂得。


          No.2 轉(zhuǎn)換文件格式

          好了說正經(jīng)的方法,猜測mht文件能否修改成其他文件格式來直接讀取呢?

          docx,不行;html,不行;excel,更不用說了。

          真相只有一個(gè)!!!

          直接修改后綴得到的docx,無法讀取。

          so,我們想到的方法是什么呢。沒錯(cuò),就是修改成doc文檔。

          方法是匪夷所思的,但也是靈感一現(xiàn)。

          mht可以直接通過修改后綴轉(zhuǎn)換成doc文檔,doc文檔讀取文本內(nèi)容的方法具體參考上面讀取doc文檔的方法。

          如何獲取html文本的內(nèi)容?

          html文本的內(nèi)容是網(wǎng)頁結(jié)構(gòu)標(biāo)簽數(shù)據(jù),取出文本的方式是:re正則,或者xpath。

          后續(xù),小伙伴有需要的話,會(huì)再開一章詳細(xì)了解re,xapth的使用規(guī)則。

          來源網(wǎng)絡(luò),侵權(quán)聯(lián)系刪除

          天在處理html數(shù)據(jù)的時(shí)候發(fā)現(xiàn)了python里面比較好玩的幾個(gè)庫,先存起來之后有時(shí)間慢慢再去學(xué)習(xí)和使用,覺得是一件蠻有意思的事情。今天想學(xué)習(xí)使用的是html2text模塊和readability模塊。其中,第一個(gè)模塊是負(fù)責(zé)對(duì)html數(shù)據(jù)進(jìn)行處理的,返回html中的文本信息;第二個(gè)模塊是負(fù)責(zé)html數(shù)據(jù)中指定信息如:文章標(biāo)題、作者等信息的提取。

          之前在處理爬取的html數(shù)據(jù)的時(shí)候大多數(shù)是自己編寫正則表達(dá)式或者是xpath規(guī)則集來完成指定數(shù)據(jù)字段信息的提取,相對(duì)來說比較靈活,但是規(guī)則集的編寫較為耗時(shí),且遇上復(fù)雜數(shù)據(jù)的時(shí)候就難以應(yīng)付了。如果有現(xiàn)成的封裝好的模塊可以直接完成某一項(xiàng)工作的話還是很不錯(cuò)的,這兩個(gè)庫可以說還是比較不錯(cuò),今天只是簡單拿來使用一下,之后再做到類似的項(xiàng)目的時(shí)候可以將一部分的工作交由固定模塊來完成。

          下面是具體的實(shí)踐:

          #!usr/bin/env python
          # encoding:utf-8
           
          '''
          __Author__:沂水寒城
          功能: html2text 模塊和 readability 模塊使用
          '''
           
          import sys
          import urllib
          import requests
          import html2text
          from readability import Document
           
           
          reload(sys)
          sys.setdefaultencoding('utf-8')
           
           
           
          def test_func():
           '''
           官網(wǎng)實(shí)例,清洗html
           '''
           print html2text.html2text("<p>Hello, world.</p>")
           h=html2text.HTML2Text()
           h.ignore_links=True
           print h.handle("<p>Hello, <a )
           
           
          def test_func2(url):
           '''
           獲取指定URL的html,對(duì)html進(jìn)行處理
           '''
           html=urllib.urlopen(url).read()
           h=html2text.HTML2Text()
           h.ignore_links=True
           print h.handle(html)
           
           
          def test_func3(url):
           '''
           抽取指定URL中的標(biāo)題等數(shù)據(jù)
           '''
           response=requests.get(url)
           doc=Document(response.text)
           print doc.title()
           html=urllib.urlopen(url).read()
           #該方式抽取出來的readable_article是帶HTML標(biāo)簽的文本
           readable_article=Document(html).summary() 
           readable_title=Document(html).short_title()
           print 'readable_article: ',readable_article
           print 'readable_title: ',readable_title
           
           
           
          if __name__=='__main__':
           url='https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_2588586383061242738%22%7D&n_type=0&p_from=1'
           test_func()
           print '-|'*50
           test_func2(url)
           print '-|'*50
           test_func3(url)
          

          運(yùn)行結(jié)果如下:

          、接口文檔面對(duì)的困境

          我工作幾年,接口文檔用過好幾種方式了。從最開始的word文檔,到后來的swagger和confluence編寫接口文檔,再到后來侵入性很小的jApiDoc,最后到現(xiàn)在的smart-doc工具。

          對(duì)比下他們的優(yōu)缺點(diǎn):

          方式

          好處

          缺點(diǎn)

          word文檔和confluence

          有文檔留存(好像也不算好處)

          費(fèi)時(shí)費(fèi)力、多人編寫不便

          swagger

          1、不用專門寫文檔

          2、通過連接直接訪問

          3、在線測試,有點(diǎn)像簡化的postman

          注釋太多,寫得想打人

          jApiDoc

          1、引入jar包,一鍵生成html接口文檔

          2、侵入小,添加簡單注釋就行

          1、功能單一,只能接口文檔

          2、作者好久沒有維護(hù)了

          smart-doc

          1、引入maven插件,一鍵生成HTML接口文檔

          2、作者很活躍,社區(qū)也很活躍,反應(yīng)問題很快就有新版本解決

          3、能生成常用的html,markdown、postman接口文檔

          4、侵入小,添加簡單注釋就行

          5、適配單服務(wù)、微服務(wù)等多種環(huán)境

          1、需要抽兩個(gè)小時(shí)看下官方文檔

          2、JApiDocs簡介

          前面我介紹過一種工具,叫做JApiDocs,這個(gè)工具我也使用了一段時(shí)間,用起來還是不錯(cuò)的,能滿足基本要求,文檔鏈接地址

          3、前言

          被寫接口文檔難受了好久,使用swagger要加各種稀奇古怪的注釋,十分繁瑣,突然看到JApiDocs 的介紹,只需要在接口上加上點(diǎn)注釋,就能夠生成接口文檔。突然來了希望,通過看文檔自己使用之后,把踩過的坑記錄下來

          生成的接口文檔頁面展示:

          查詢接口

          新增接口

          ?


          主站蜘蛛池模板: 制服美女视频一区| 日韩一区二区三区射精| 亚洲国产精品无码第一区二区三区| 台湾无码一区二区| 无码国产精品一区二区免费| 色屁屁一区二区三区视频国产| 美女免费视频一区二区| 国产一区风间由美在线观看| 日美欧韩一区二去三区 | 一区二区精品久久| 一区二区日韩国产精品| 中文字幕一区二区三区在线播放 | 中文字幕亚洲一区二区三区| 亚洲国产精品一区二区第一页免 | 精品亚洲一区二区三区在线播放| 天天看高清无码一区二区三区| 日韩AV在线不卡一区二区三区 | 中文字幕日韩一区| 变态拳头交视频一区二区| 久久久久人妻一区精品果冻| 亚洲熟女乱综合一区二区| 亚洲无线码一区二区三区| 国产成人精品一区二区秒拍| 91福利视频一区| 亚洲色无码专区一区| 美女免费视频一区二区| 精品乱人伦一区二区三区| 中文字幕一区二区三匹| 无码视频免费一区二三区| 一区二区三区内射美女毛片| 国产一区二区三区久久| 中文字幕AV一区二区三区 | 国产成人久久一区二区不卡三区| 国产成人一区二区三区精品久久| 一区二区三区免费看| 亚洲狠狠久久综合一区77777| 无码少妇A片一区二区三区| 日韩少妇无码一区二区三区| 精品国产免费一区二区三区香蕉| 精品深夜AV无码一区二区老年| 视频在线一区二区|