Mac系統如何輕松實現網頁長截圖功能

ac 截長圖

在日常工作生活中，我們經常需要使用到截圖功能，簡單的截圖使用常用的截圖工具即可，但是有時會碰到需要截圖多頁內容或者整個網頁，使用截圖工具分頁截圖再拼接不僅復雜而且耗時。

那么針對這種情況，有什么解決辦法嗎？

——答案是當然有，無須下載任何軟件，而且還相當簡單。

方法1 使用Safari瀏覽器

Mac系統自帶的瀏覽器功能強大，可完全實現網頁長截圖，且操作簡單易用。

Step 01

在 Safari 瀏覽器中，在當前網頁右鍵菜單，選擇「檢查元素」。

檢查元素

Step 02

然后在瀏覽器跳出界面的內容中，單擊并選中第一行<html>，右鍵菜單并選擇「捕捉屏幕快照」如圖：

捕捉屏幕快照

Step 03

選擇儲存位置，截圖默認保存位置是桌面，點擊「存儲」，大功告成。

存儲快照

方法2 使用 QQ 瀏覽器

如果你電腦里剛好有安裝「QQ 瀏覽器」的話，請你打開它并在網頁空白處點擊右鍵，你會驚奇地發現居然有「保存完整網頁為圖片…」功能。

Step 01

打開QQ 瀏覽器中，在當前網頁右鍵菜單，選擇「保存完整網頁為圖片」。

保存完整網頁為圖片

Step 02

選擇儲存位置，點擊「存儲」，大功告成。

保存快照

以上方法，妥妥地解決的網頁長截圖問題，再不用下一堆的什么軟件了。

特別說明：本文中使用的 QQ 瀏覽器版本 4.5.123.400，針對不同版本的 QQ 瀏覽器可能有所不同，注意甄別。

求背景

用戶在使用小O地圖EXCEL插件，將EXCEL表格數據在地圖上進行可視化展現，或是在地圖上繪圖，此前，只能通過截圖方式，將成果分享他人、應用在PPT匯報稿、打印等需求，然而受限屏幕大小，截取圖片存在尺寸小、不清晰、拉伸失真等問題。

為此，軟件作者對【地圖快照】功能進行強化，實現分級截取大圖的功能，完美解決了上述問題。

下圖是用小O地圖生成的熱力圖：

解決方案

使用【小O地圖EXCEL插件】的地圖可視化、地圖繪圖進行制圖操作后，我們可以打開【地圖快照】功能。

在窗口右上角選擇【新建快照/自定義范圍】菜單，地圖上出現藍色矩形框，拖拽設置需要截取地圖的范圍，設置好后，選擇右上角的相機圖標，點擊，確定截取的地圖范圍。

新增快照

【全圖】界面，顯示的是實際截取范圍的截圖。

在這個界面中，可以對截取圖進行縮放操作，將圖片復制到剪貼板，粘貼到其他應用軟件中。

截取大圖

在全圖基礎上，切換到大圖界面

軟件自動計算可截取的層級，由小至大，代表了截取范圍由縮小放大倍數。

上圖中倍數 1 表示截取的原始尺寸，每縮小一個級別圖片尺寸減小一半，每放大一個級別圖片尺寸放大一倍，以此類推。

右側界面顯示截取圖片的網格，每個網格代表的范圍與設置范圍一致。

水印設置

支持設置水印，在截取的圖片上增加水印，可以一定程度保護地圖可視化的成果。

設置水印，需要在截圖啟動前。

支持預覽

原始截圖

放大4倍后截圖（帶水印）

導出大圖

支持導出TIF（大圖）、PNG、HTML格式，方便分享地圖成果。

PNG：可保存PNG格式圖片，適用一般截圖保存。如果放大倍數大，圖片尺寸大，請使用TIF格式保存。
TIF：可將截圖保存為一個大圖。

HTML格式：HTML網頁及圖片資源格式，可用瀏覽器打開，適用放大倍數和圖片尺寸超大的地圖截圖。

TIF格式在圖片軟件中打開截圖（顯示比例為原圖的22%）

HTML格式在瀏覽器中打開

結語

地圖快照是小O地圖EXCEL軟件的創新功能，能夠將您的地圖成果以截大圖的方式保存下來，方便分享和應用。

配合地圖設置，可以截取不同地圖樣式的圖片。

更多應用請登陸小O地圖的官網下載軟件體驗！

譯自： https://anarc.at/blog/2018-10-04-archiving-web-sites/
作者： Anarcat
譯者： fuowang

我最近深入研究了網站歸檔，因為有些朋友擔心遇到糟糕的系統管理或惡意刪除時失去對放在網上的內容的控制權。這使得網站歸檔成為系統管理員工具箱中的重要工具。事實證明，有些網站比其他網站更難歸檔。本文介紹了對傳統網站進行歸檔的過程，并闡述在面對最新流行單頁面應用程序（SPA）的現代網站時，它有哪些不足。

轉換為簡單網站

手動編碼 HTML 網站的日子早已不復存在。現在的網站是動態的，并使用最新的 JavaScript、PHP 或 Python 框架即時構建。結果，這些網站更加脆弱：數據庫崩潰、升級出錯或者未修復的漏洞都可能使數據丟失。在我以前是一名 Web 開發人員時，我不得不接受客戶這樣的想法：希望網站基本上可以永久工作。這種期望與 web 開發“快速行動和破除陳規”的理念不相符。在這方面，使用 Drupal 內容管理系統（CMS）尤其具有挑戰性，因為重大更新會破壞與第三方模塊的兼容性，這意味著客戶很少承擔的起高昂的升級成本。解決方案是將這些網站歸檔：以實時動態的網站為基礎，將其轉換為任何 web 服務器可以永久服務的純 HTML 文件。此過程對你自己的動態網站非常有用，也適用于你想保護但無法控制的第三方網站。

對于簡單的靜態網站，古老的 Wget 程序就可以勝任。然而鏡像保存一個完整網站的命令卻是錯綜復雜的：

$ nice wget --mirror --execute robots=off --no-verbose --convert-links \
--backup-converted --page-requisites --adjust-extension \
--base=./ --directory-prefix=./ --span-hosts \
--domains=www.example.com,example.com http://www.example.com/

以上命令下載了網頁的內容，也抓取了指定域名中的所有內容。在對你喜歡的網站執行此操作之前，請考慮此類抓取可能對網站產生的影響。上面的命令故意忽略了 robots.txt 規則，就像現在歸檔者的習慣做法，并以盡可能快的速度歸檔網站。大多數抓取工具都可以選擇在兩次抓取間暫停并限制帶寬使用，以避免使網站癱瘓。

上面的命令還將獲取 “頁面所需（LCTT 譯注：單頁面所需的所有元素）”，如樣式表（CSS）、圖像和腳本等。下載的頁面內容將會被修改，以便鏈接也指向本地副本。任何 web 服務器均可托管生成的文件集，從而生成原始網站的靜態副本。

以上所述是事情一切順利的時候。任何使用過計算機的人都知道事情的進展很少如計劃那樣；各種各樣的事情可以使程序以有趣的方式脫離正軌。比如，在網站上有一段時間很流行日歷塊。內容管理系統會動態生成這些內容，這會使爬蟲程序陷入死循環以嘗試檢索所有頁面。靈巧的歸檔者可以使用正則表達式（例如 Wget 有一個 --reject-regex 選項）來忽略有問題的資源。如果可以訪問網站的管理界面，另一個方法是禁用日歷、登錄表單、評論表單和其他動態區域。一旦網站變成靜態的，（那些動態區域）也肯定會停止工作，因此從原始網站中移除這些雜亂的東西也不是全無意義。

JavaScript 噩夢

很不幸，有些網站不僅僅是純 HTML 文件構建的。比如，在單頁面網站中，web 瀏覽器通過執行一個小的 JavaScript 程序來構建內容。像 Wget 這樣的簡單用戶代理將難以重建這些網站的有意義的靜態副本，因為它根本不支持 JavaScript。理論上，網站應該使用漸進增強技術，在不使用 JavaScript 的情況下提供內容和實現功能，但這些指引很少被人遵循 —— 使用過 NoScript 或 uMatrix 等插件的人都知道。

傳統的歸檔方法有時會以最愚蠢的方式失敗。在嘗試為一個本地報紙網站（ pamplemousse.ca ）創建備份時，我發現 WordPress 在包含的 JavaScript 末尾添加了查詢字符串（例如：?ver=1.12.4）。這會使提供歸檔服務的 web 服務器不能正確進行內容類型檢測，因為其靠文件擴展名來發送正確的 Content-Type 頭部信息。在 web 瀏覽器加載此類歸檔時，這些腳本會加載失敗，導致動態網站受損。

隨著 web 向使用瀏覽器作為執行任意代碼的虛擬機轉化，依賴于純 HTML 文件解析的歸檔方法也需要隨之適應。這個問題的解決方案是在抓取時記錄（以及重現）服務器提供的 HTTP 頭部信息，實際上專業的歸檔者就使用這種方法。

創建和顯示 WARC 文件

在互聯網檔案館 (Internet Archive) 網站，Brewster Kahle 和 Mike Burner 在 1996 年設計了 ARC （即 “ARChive”）文件格式，以提供一種聚合其歸檔工作所產生的百萬個小文件的方法。該格式最終標準化為 WARC（“Web ARChive”）規范，并在 2009 年作為 ISO 標準發布，2017 年修訂。標準化工作由國際互聯網保護聯盟 (International Internet Preservation Consortium)（IIPC）領導，據維基百科稱，這是一個“為了協調為未來而保護互聯網內容的努力而成立的國際圖書館組織和其他組織”；它的成員包括美國國會圖書館(US Library of Congress)和互聯網檔案館等。后者在其基于 Java 的 Heritrix crawler （LCTT 譯注：一種爬蟲程序）內部使用了 WARC 格式。

WARC 在單個壓縮文件中聚合了多種資源，像 HTTP 頭部信息、文件內容，以及其他元數據。方便的是，Wget 實際上提供了 --warc 參數來支持 WARC 格式。不幸的是，web 瀏覽器不能直接顯示 WARC 文件，所以為了訪問歸檔文件，一個查看器或某些格式轉換是很有必要的。我所發現的最簡單的查看器是 pywb ，它以 Python 包的形式運行一個簡單的 web 服務器提供一個像“ 時光倒流機網站(Wayback Machine)”的界面，來瀏覽 WARC 文件的內容。執行以下命令將會在 http://localhost:8080/ 地址顯示 WARC 文件的內容：

$ pip install pywb
$ wb-manager init example
$ wb-manager add example crawl.warc.gz
$ wayback

順便說一句，這個工具是由 Webrecorder 服務提供者建立的，Webrecoder 服務可以使用 web 瀏覽器保存動態頁面的內容。

很不幸，pywb 無法加載 Wget 生成的 WARC 文件，因為它遵循的 1.0 規范不一致， 1.1 規范修復了此問題。就算 Wget 或 pywb 修復了這些問題，Wget 生成的 WARC 文件對我的使用來說不夠可靠，所以我找了其他的替代品。引起我注意的爬蟲程序簡稱 crawl 。以下是它的調用方式：

$ crawl https://example.com/

（它的 README 文件說“非常簡單”。）該程序支持一些命令行參數選項，但大多數默認值都是最佳的：它會從其他域獲取頁面所需（除非使用 -exclude-related 參數），但肯定不會遞歸出域。默認情況下，它會與遠程站點建立十個并發連接，這個值可以使用 -c 參數更改。但是，最重要的是，生成的 WARC 文件可以使用 pywb 完美加載。

未來的工作和替代方案

這里還有更多有關使用 WARC 文件的資源。特別要提的是，這里有一個專門用來歸檔網站的 Wget 的直接替代品，叫做 Wpull 。它實驗性地支持了 PhantomJS 和 youtube-dl 的集成，即允許分別下載更復雜的 JavaScript 頁面以及流媒體。該程序是一個叫做 ArchiveBot 的復雜歸檔工具的基礎，ArchiveBot 被那些在 ArchiveTeam 的“零散離群的歸檔者、程序員、作家以及演說家”使用，他們致力于“在歷史永遠丟失之前保存它們”。集成 PhantomJS 好像并沒有如團隊期望的那樣良好工作，所以 ArchiveTeam 也用其它零散的工具來鏡像保存更復雜的網站。例如， snscrape 將抓取一個社交媒體配置文件以生成要發送到 ArchiveBot 的頁面列表。該團隊使用的另一個工具是 crocoite ，它使用無頭模式的 Chrome 瀏覽器來歸檔 JavaScript 較多的網站。

如果沒有提到稱做“網站復制者”的 HTTrack 項目，那么這篇文章算不上完整。它工作方式和 Wget 相似，HTTrack 可以對遠程站點創建一個本地的副本，但是不幸的是它不支持輸出 WRAC 文件。對于不熟悉命令行的小白用戶來說，它在人機交互方面顯得更有價值。

同樣，在我的研究中，我發現了叫做 Wget2 的 Wget 的完全重制版本，它支持多線程操作，這可能使它比前身更快。和 Wget 相比，它舍棄了一些功能，但是最值得注意的是拒絕模式、WARC 輸出以及 FTP 支持，并增加了 RSS、DNS 緩存以及改進的 TLS 支持。

最后，我個人對這些工具的愿景是將它們與我現有的書簽系統集成起來。目前我在 Wallabag 中保留了一些有趣的鏈接，這是一種自托管式的“稍后閱讀”服務，意在成為 Pocket （現在由 Mozilla 擁有）的免費替代品。但是 Wallabag 在設計上只保留了文章的“可讀”副本，而不是一個完整的拷貝。在某些情況下，“可讀版本”實際上不可讀，并且 Wallabag 有時無法解析文章。恰恰相反，像 bookmark-archiver 或 reminiscence 這樣其他的工具會保存頁面的屏幕截圖以及完整的 HTML 文件，但遺憾的是，它沒有 WRAC 文件所以沒有辦法更可信的重現網頁內容。

我所經歷的有關鏡像保存和歸檔的悲劇就是死數據。幸運的是，業余的歸檔者可以利用工具將有趣的內容保存到網上。對于那些不想麻煩的人來說，“互聯網檔案館”看起來仍然在那里，并且 ArchiveTeam 顯然正在為互聯網檔案館本身做備份。

via: https://anarc.at/blog/2018-10-04-archiving-web-sites/

作者： Anarcat 選題： lujun9972 譯者： fuowang 校對： wxy

本文由 LCTT 原創編譯， Linux中國榮譽推出

點擊“了解更多”可訪問文內鏈接

在線咨詢

上一篇：使用log4j2打印日志
下一篇：鴻萌的成功案例：天津某單位網站遭遇病毒掛馬，硬盤空間

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

Mac系統如何輕松實現網頁長截圖功能

方法1 使用Safari瀏覽器

Step 01

Step 02

Step 03

方法2 使用 QQ 瀏覽器

Step 01

Step 02

求背景

解決方案

新增快照

截取大圖

水印設置

支持預覽

導出大圖

結語

轉換為簡單網站

JavaScript 噩夢

創建和顯示 WARC 文件

未來的工作和替代方案

點擊“了解更多”可訪問文內鏈接

您的項目需求