整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          把HTML網頁下載為單文件,可離線訪問

          網頁下載下來使用,在日常工作中使用頻率還是很高的,有時候確實能解一時之急,我自己就有很窘迫的經歷。

          我開會的時候,都會把準備好的文檔存在局域網,到會議室直接打開就能直接用了。有一次到分公司,由于分公司剛剛成立,內網還沒有和母公司連通。結果這下子懵逼了,上不去內網,看不到文檔。又是叫同事發過來,又是提發送文件的安全申請,讓人著急。

          如果把網站保存下來,放在自己的電腦中,既不用擔心信息泄露問題,又不用為了看不了文檔而著急。

          遇到問題,記錄下來,然后解決問題,程序員的解決思路永遠是自己創造輪子的,接下來就是不斷的探索解決方案。

          其實下載網頁的方式有很多種,其中有幾種辦法使用的比較多,例如:如果你用Chrome,直接按 Ctrl+s 就可實現。使用這種方法,Chrome會把整個網站,按照編譯完成的源碼目錄結構保存下來。像下面這樣:

          下載完成的文件直接點擊 xxx.html 可以直接離線訪問,但是這種方式對目錄的依賴結構比較高,怎么理解呢?就是 html 文件和對應文件名的文件夾必須在同一個目錄中,才能正常使用。拷貝到其他機器的時候必須要兩個同時拷貝才可以,否則就會排版錯亂。

          如果有十個或者更多的網頁需要拷貝或者刪除,就會很麻煩,例如我想在其中找到其中幾個,復制到其他地方,很容易弄錯順序。

          HTML 是一種純文本格式,它用于排版文字。純文本文檔的意思就是,文檔中只包含文字內容,不包含二進制內容,舉個例子:打印出的A4紙,只有文字沒有圖片。而 HTML 想要顯示照片等二進制信息,通常都會鏈接到其他文件,也就是上面文件夾里面的內容。

          不過 Chrome 下載文件這種方式也有優點,下載下來的文件可以保持獨立性,比如說,我需要這個網頁中的一張圖片,那么就可以直接到文件夾里面尋找了。

          另外還有一種辦法,也有很多人再使用。Chrome 在打印網頁的時候,會把網頁轉成 PDF ,然后在進行打印。那么就給我們提供了很明確的思路,把網頁直接保存為 PDF ,這樣保存下來的網頁就只有一個文件。

          使用Chrome,直接按下Ctrl+p就可以。然后目標打印機選擇 另存為 PDF 。

          這個功能很多瀏覽器都支持

          但是這種辦法也有很明顯的缺點,由于 PDF 是靜態文檔,網頁上的一些動畫可能不會正常顯示,而且排版也有可能會錯亂,這完全靠運氣。個人覺得這不是一種很靠譜的方法。

          這時候主角來了!有一個工具既可以把網頁保存為 html 又可以保持是單文件。他就是 monolith ,你可以在 github 上面找到它,但是源碼并沒有編譯為可執行文件,我把它編譯了一下,下面會放上來鏈接,https://github.com/leconio/Repos/raw/master/monolith.7z。

          那么下面就簡單說說使用方法:如果你下載我的鏈接,那么里面有三個文件:

          第一個是Mac平臺編譯出來的,使用方式為:

          ./monolith 網站地址 > xxx.html
          

          默認情況下 monolith 會把生成的 html 輸出到標準輸出流,也就是當前終端。使用 > 我們把輸出的內容重定向并覆蓋到文件。

          執行完成之后,在這個目錄下面就會有一個對應的文件:xxx.html 。

          另外兩個是 Windows 平臺使用的。為了簡化使用,我寫了一個 CMD 腳本。直接點擊 monolith.cmd ,然后粘貼地址就可以完成下載。

          下載完成之后,在本地你會發現只有一個 html 文件。我們打開之后,發現圖片和JS等信息都在,而且排版正常。那么就要思考了,我們之前說過,HTML 是放置純文本信息的,那么圖片在哪里呢?

          答案顯而易見,就在 HTML 文件里面。為了方便小圖片傳輸,有一種叫 Base64 的東西,它可以把二進制信息變成成純文本。這在使用 Json 傳遞數據的今天十分常見,它可以減少一次請求(題外話),這里就是用的這個原理。monolith 把圖片等二進制內容轉為了純文本,保存在 HTML 文件中。我們在下載的文件源碼可以看到:

          對比源代碼,src 信息已經變成了 base64 格式的圖片,就是那串亂碼。復制那串亂碼,從網上搜一個 base64 轉圖片工具,粘貼進去,這時會發現就是我們看到的那張圖片。這樣一來,無論這個網站上有多少個文件,都會保存到一個 HTML 文件里面,而且還能離線使用。

          當然,base64 編碼的圖片比原生圖片略大,這可能也是你現在在擔心的問題。不過 monolith 會特殊處理文件體積。我們可以看看 Chrome 直接下載和使用 monolith 下載體積相差多少。我們把兩種方式下載的網頁都進行了 7-Zip 壓縮。

          我們可以看到,使用 monolith 下載會比 Chrome 直接下載小一倍還多!

          最后要說的是局限性,無論那種方法,都幾乎不能把視頻網站中的視頻下載下來。因為現在的視頻地址都是 Token 加密的,同理,使用 Token 加密的其他請求信息也無法下載。

          比如你可以試試下載其他網站的首頁,Logo 和視頻都是下載不了的。但是也有解決辦法,那就是另外一個領域的事情了,以后有機會說給大家聽。

          如果這篇文章對您或者您的朋友有幫助,感謝您關注,轉發。

          融界2024年1月16日消息,據國家知識產權局公告,中信銀行股份有限公司申請一項名為“一種基于iText的支持生僻字轉換方法及系統”的專利,公開號CN117408230A,申請日期為2023年10月。

          專利摘要顯示,本發明提供了一種基于iText的支持生僻字轉換方法及系統,涉及人工智能技術領域。其中,所述方法包括:獲得生僻字字庫;獲得常規字字庫;將所述生僻字字庫與所述常規字字庫進行組合,獲得字庫集合;根據所述字庫集合對HTML進行字體樣式設定,獲得HTML信息;將所述字庫集合設置到iText中,調用所述iText對所述HTML信息進行PDF轉換,獲得轉換文件。解決了現有技術中存在遇到生成含有生僻字的HTML轉換PDF場景時,無法正常完成生僻字轉換,出現生僻字變為亂碼,且使用升級現有中文字字庫的方法不能隨時新增生僻字,靈活性差的技術問題。

          本文源自金融界

          ord作為使用率最高的一款辦公軟件,它的優勢是全球公認的。但是有時候經常會發現別人傳過來的文件都PDF格式的,沒辦法編輯。正是因為PDF有著兼容性最好、色彩還原度最高、打印效果最好、支持平臺最多、閱讀性最佳等五最優勢。所以PDF轉Word成了職場中必備的一個技能。雖然說的這么高大尚,其實我們只需借助一款PDF轉換器就能解決的事情。

          PDF轉換器可以支持PDF轉Word、PDF轉Excel、PDF轉PPT、PDF轉HTML、PDF轉圖片等10幾種格式之間的互轉。而且操作簡單,操作效率高,轉換效果好。所以人手一款PDF轉換器可以說是至關重要的。

          在面對pdf文件的時候我們都想將其轉換成word文檔的格式,因為這樣就可以對pdf文件進行編輯啦,但是有不少朋友在將pdf轉word的時候會出現亂碼的問題,這是怎么回事呢?相信這個亂碼是大家一直被疑惑的問題,甚至很多人會購買會員后吐槽轉換器差,轉換都亂碼等等現象。今天我來為大家揭曉最常簡單的幾種原因:

          轉換亂碼

          WHY?

          原因一、說明你的pdf文檔是掃描版的,也就是由掃描圖片制成的pdf文檔,由于一般的pdf轉換軟件無法識別,使用造成出現亂碼或者是出現文字重疊;

          原因二、pdf文件是不是內嵌了很多字體,如果你PDF文件中內嵌的某個或者某些字體在你的操作系統中 沒有,那么轉換出來的word文件一般都會出現亂碼。雖然說有些文字配上某些字體經過特殊處理會變得風非常有藝術感,但是為了避免不必要的麻煩,我們盡量使用系統常用的幾款字體;

          字體

          原因三、特殊符號一籮筐。這里特別要提醒的是這個全角字符。可能你一時間覺得沒有問題。但是細心的朋友肯定會發現這些文字的占位符跟平常的不一樣,位置都偏寬了些。雖然在閱讀上可能沒有很大的區別,但是在轉換過程中這也是很大的一方面原因之一。所以我們要養成良好的編輯習慣:半角輸入。

          特殊符號

          特殊符號

          原因四、特殊文字個性化十足,經過拼湊組合成一個藝術感很強的圖形,很多輸入法會有這個功能。

          特殊文字

          還有幾年前的火星文迅速火熱起來。有時候甚至你自己都不認識的字。

          原因五:外文文檔,外文就是指非中文、英文的這些文字。可能有些人是做貿易的,跟其他一些國家進行溝通、或者簽合同會使用到,或者是一些外語愛好者、外語培訓的情況會出現。

          外文

          當然別以為只有外國的,我們國內的蒙古文、藏文、維吾爾文、苗文等最為特色代表的。

          原因六、網絡上經過某些編輯器,很好的的格式經過編輯直接復制黏貼過來的特殊的格式,雖然你在編輯的時候可能覺得并沒有不妥。但是經過轉換之后可能就會出現這種亂碼情況。

          特殊格式

          學會排查以上幾種原因,基本可以完美解決PDF轉換亂碼。假如您還是沒辦法解決,請提交人工轉換。

          假如你學習到了這個新技能不妨轉發推薦給你的小伙伴。并動動小指頭收藏,以免下次走丟。

          我們將定期更新Word、Excel、PPT等操作技巧。pdf轉換器供在線免費的PDF轉word、PDF轉Excel、PDF轉PPT服務。


          主站蜘蛛池模板: 无码精品黑人一区二区三区 | 日韩精品人妻一区二区三区四区 | 久久免费视频一区| 亚洲乱码一区av春药高潮| 国产一区二区三区夜色| 伊人色综合一区二区三区| 日韩精品视频一区二区三区| 中文乱码字幕高清一区二区| 国产精品资源一区二区| 相泽亚洲一区中文字幕| 日本不卡一区二区三区视频| 日本一区二区视频| 男人免费视频一区二区在线观看| 本免费AV无码专区一区| 久久久久人妻精品一区蜜桃| 亚洲愉拍一区二区三区| 久久精品无码一区二区日韩AV| 国产精品伦一区二区三级视频| 亚洲欧美国产国产综合一区| 一区二区三区电影在线观看| 人妻夜夜爽天天爽爽一区| 在线观看国产一区亚洲bd| 中文字幕一区二区三区在线不卡| 韩国福利一区二区美女视频 | 亚洲一区二区无码偷拍| 国产美女av在线一区| 亚洲一区二区三区久久| 亚洲国产激情一区二区三区| 天堂资源中文最新版在线一区| 国内精品一区二区三区最新| 国产精品一区二区久久不卡| 亚洲日韩中文字幕一区| 亚洲日韩激情无码一区| 成人H动漫精品一区二区| 久久亚洲国产精品一区二区| 国产一区二区成人| 久久免费精品一区二区| 夜夜爽一区二区三区精品| 曰韩人妻无码一区二区三区综合部 | 波多野结衣一区二区三区88| 99久久综合狠狠综合久久一区|