Web 防爬指南

至少讓其更難抓取）

這篇文章我翻譯自：https://github.com/JonasCz/How-To-Prevent-Scraping，因?yàn)樽罱诳匆恍┓磁赖馁Y料，無意間在 Github 發(fā)現(xiàn)這篇文章，我覺得寫的很全面，所以想要翻譯一下，順便進(jìn)行吸收。另外讓我覺得非常贊的是這個(gè)文章從服務(wù)端和前端的角度都做了分析，我們應(yīng)該從哪些點(diǎn)去做優(yōu)化，而且每個(gè)點(diǎn)都舉了例子，有些還給出了注意點(diǎn)。雖然文中有些提到的一些點(diǎn)很基礎(chǔ)，也有很多我們目前在業(yè)務(wù)中也在使用，但是我還是從中吸收到了一些新東西，里面文中外部鏈接有很多，但是公眾號(hào)這里不允許外鏈，所以大家可以點(diǎn)擊文末最后的"閱讀原文"到 Github 去查看，Github Markdown 的排版可能也比這里更好 : )。

（最后，有些倉(cāng)促，可能有些注意不到的措別字，還請(qǐng)多多包涵）

提示：這篇文章是我 Stack Overflow 這個(gè)問題回答的擴(kuò)展，我把它整理在 Github 因?yàn)樗鼘?shí)在是太長(zhǎng)了，超過了 Stack Overflow 的字?jǐn)?shù)限制（最多 3 萬個(gè)字，這文章已經(jīng)超過 4 萬字）

歡迎大家修改、完善還有分享，本文使用 CC-BY-SA 3.0 許可。

本質(zhì)上說，防抓的目的在于增加腳本或機(jī)器獲取你網(wǎng)站內(nèi)容的難度，而不要影響真實(shí)用戶的使用或搜索引擎的收錄

不幸的是這挺難的，你需要在防抓和降低真實(shí)用戶以及搜索引擎的可訪問性之間做一下權(quán)衡。

為了防爬（也稱為網(wǎng)頁(yè)抓取、屏幕抓取、網(wǎng)站數(shù)據(jù)挖掘、網(wǎng)站收割或者網(wǎng)站數(shù)據(jù)獲取），了解他們的工作原理很重要，這能防止他們能高效爬取，這個(gè)就是這篇文章的主要內(nèi)容。

通常情況下，抓取程序的目的是為了獲取你網(wǎng)站特定的信息，比如文章內(nèi)容、搜索結(jié)果、產(chǎn)品詳情還有網(wǎng)站上藝術(shù)家或者相冊(cè)信息。他們爬取這些內(nèi)容用于維護(hù)他們自己的網(wǎng)站（甚至通過你的內(nèi)容賺錢！），或者制作和你網(wǎng)站不一樣的前端界面（比如去做移動(dòng) APP），還有一些可能作為個(gè)人研究或分析使用。

實(shí)際上，有特別多的爬蟲類型，而且他們的爬取方式都不太相同：

蜘蛛，比如 Google's bot 或者網(wǎng)站復(fù)制工具 HTtrack，他們?cè)L問你的網(wǎng)站，而且在頁(yè)面中尋找鏈接后遞歸的去爬取以獲取頁(yè)面的數(shù)據(jù)。有時(shí)候他們只用于獲取特定數(shù)據(jù)，而不會(huì)全部爬取，通常結(jié)合 HTML 分析器在頁(yè)面中獲取想要的數(shù)據(jù)。
Shell 腳本，有時(shí)候，通用的 Unix 工具也被用來爬取：wget 或者 curl 用于下載頁(yè)面，用 Grep （Regex）去分析獲取想要的數(shù)據(jù)，一般都會(huì)寫一個(gè) Shell 腳本。這些都是最簡(jiǎn)單的爬蟲，也是最脆弱的一類爬蟲(Don't ever try parse HTML with regex !），所以是最早發(fā)現(xiàn)和防范的爬蟲。
HTML 爬取器和分析器，會(huì)基于 Jsoup、Scrapy 還有其他一些工具。和 shell 腳本基于正則類似，他們呢基于特定模式（pattern）分析你的 HTML 結(jié)構(gòu)從而獲取想要的數(shù)據(jù)。舉個(gè)例子：如果你的網(wǎng)站有搜索功能，那這個(gè)爬蟲可能會(huì)模擬提交一個(gè)搜索的 HTTP 請(qǐng)求，然后從搜索結(jié)果頁(yè)中獲取所有的鏈接和標(biāo)題，有時(shí)候會(huì)構(gòu)造有成千上百不同的請(qǐng)求，只是為了獲取標(biāo)題和鏈接而已。這是最常見的一類爬蟲。
屏幕爬取，比如會(huì)基于 Selenium 或者 PhantomJS，他們實(shí)際上會(huì)通過真實(shí)瀏覽器打開你的網(wǎng)站，因此也會(huì)運(yùn)行你網(wǎng)站的 JavaScript、AJAX 或者其他的，然后他們從你的頁(yè)面獲取自己想要的文本內(nèi)容，通常：基于瀏覽器的爬取很難處理，他們運(yùn)行腳本，渲染 HTML，就像真實(shí)用戶一樣訪問你的網(wǎng)站。

等頁(yè)面加載完畢， JavaScript 也執(zhí)行之后，從瀏覽器獲取 HTML 結(jié)構(gòu)，然后用 HTML 分析器去獲取想要的數(shù)據(jù)或者文本。這是常見做法，所以有很多方法可以防止這類 HTML 分析器或爬蟲。
獲取加載完頁(yè)面的屏幕截圖，然后使用 OCR 分析從截屏中獲取想要的數(shù)據(jù)。這類不唱將，而且只有非常想要你網(wǎng)站內(nèi)容的爬蟲才會(huì)使用。

Web爬取服務(wù)，比如 ScrapingHub 或者 Kimono。實(shí)際上，很多人的工作就是找出如何爬取你的頁(yè)面獲取其中內(nèi)容并給其他人使用。他們又是會(huì)用大量的代理甚至修改 IP 地址來繞過頻率限制和封禁，所以他們反爬的關(guān)鍵對(duì)象。毫無疑問，防止專業(yè)的爬取服務(wù)是非常困難的，但是如果你增加爬取的難度，或者增加他們找出爬取方法的時(shí)間，那這些人（或者付錢讓他們做的人）可能會(huì)放棄爬取你的網(wǎng)站。
把你的網(wǎng)站頁(yè)面通過 frames 嵌入其他站點(diǎn)，或者把你的頁(yè)面嵌入移動(dòng) APP。雖然沒有什么技術(shù)含量，但是確實(shí)也是個(gè)問題，比如移動(dòng) APP（Android 和 iOS）可以嵌入你的網(wǎng)站，甚至可以注入一些自定義的 CSS 和 JavaScript，所以可以完全改變你網(wǎng)站的外觀，然后只展示想要的信息，比如只展示文章內(nèi)容或者搜索結(jié)果，然后隱藏你網(wǎng)站的 headers、footers 還有廣告。
人肉復(fù)制粘貼：人肉復(fù)制和粘貼你網(wǎng)站的內(nèi)容到其他地方。很遺憾，這個(gè)沒有好的方法加以防范。

以上不同的爬蟲類型有很多相同點(diǎn)，很多爬蟲的行為也很相似，即使他們使用了不同的技術(shù)或者方案去爬取你的內(nèi)容。

這些大多數(shù)都是我自己的想法，我在寫爬蟲時(shí)也遇到許多困難，還有一些是來源于網(wǎng)絡(luò)。

如何反爬

一些常見的檢測(cè)和防止爬蟲的方法：

監(jiān)控你的日志和請(qǐng)求；當(dāng)發(fā)現(xiàn)異常行為時(shí)限制訪問

周期性的檢查你的日志，如果發(fā)現(xiàn)有異常活動(dòng)表明是自動(dòng)爬取（爬蟲），類似某一個(gè)相同的 IP 很多相同的行為，那你就可以阻止或限制訪問。

一些常用的方法：

頻率限制
只允許用戶（或爬蟲）在一段時(shí)間內(nèi)訪問特定的次數(shù)，舉個(gè)例子，某個(gè) IP 或用戶只允許一分鐘搜索很少的次數(shù)。這個(gè)會(huì)減慢爬蟲的爬取速度，讓他們變得低效。如果次數(shù)特別多或者比真實(shí)用戶多很多，那你也可以顯示驗(yàn)證碼頁(yè)面。

檢測(cè)異常行為如果你能看到異常行為，比如同一個(gè) IP 有很多相同的請(qǐng)求，有些會(huì)翻很多頁(yè)或者訪問一些異常的頁(yè)碼，你可以拒絕訪問或者在后續(xù)的請(qǐng)求中展示驗(yàn)證碼。

不要只通過 IP 檢測(cè)和限制，也要用其他的用戶標(biāo)識(shí)如果你做了訪問限制或頻率限制，不要只簡(jiǎn)單的根據(jù)單個(gè) IP 地址去做；你可以通過其他的標(biāo)識(shí)和方法去識(shí)別一個(gè)用戶或爬蟲。一些可以幫你識(shí)別用戶/爬蟲的標(biāo)識(shí)：

用戶填寫表單的速度，還有他們點(diǎn)擊按鈕的位置
你可以通過 JavaScript 獲取很多信息，比如屏幕的大小 / 分辨率，時(shí)區(qū)，安裝的字體等等，你可以用這些去識(shí)別用戶
攜帶的 HTTP 頭，特別是 User-Agent

舉個(gè)例子，如果某個(gè) IP 請(qǐng)求了你網(wǎng)站很多次，所有的訪問都有相同的 UserAgent 、屏幕尺寸（JavaScript 檢測(cè)），還有全都使用同樣的方式和固定的時(shí)間間隔點(diǎn)擊同一個(gè)按鈕，那它大概是一個(gè)屏幕爬蟲；你可以臨時(shí)限制相似的請(qǐng)求（比如只限制來自那個(gè) IP 特定 User-Agent 和屏幕尺寸的請(qǐng)求），這樣你不會(huì)誤傷同樣使用這個(gè) IP 的真實(shí)用戶，比如共享網(wǎng)絡(luò)鏈接的用戶。

更進(jìn)一步，當(dāng)你發(fā)現(xiàn)相似的請(qǐng)求，但是來自不同的 IP 地址，表明是分布式爬蟲（使用僵尸網(wǎng)絡(luò)或網(wǎng)絡(luò)代理的爬蟲）。如果你收到類似大量的請(qǐng)求，但是他們來自不同的 IP 地址，你可以拒絕訪問。再?gòu)?qiáng)調(diào)一下，小心不經(jīng)意限制了真實(shí)用戶。

這種方法對(duì)那種運(yùn)行 JavaScript 的屏幕爬蟲比較有效，因?yàn)槟憧梢垣@得他們大量的信息。

Stack Exchange 上關(guān)于 Secruity 的相關(guān)問題：

How to uniquely identify users with the same external IP address?

Why do people use IP address bans when IP addresses often change? 關(guān)于僅使用 IP 的其他限制

使用驗(yàn)證碼，而不是臨時(shí)限制訪問對(duì)于頻率限制，最簡(jiǎn)單的方式就是臨時(shí)限制訪問，然而使用驗(yàn)證碼會(huì)更好，看下面關(guān)于驗(yàn)證碼的部分。

要求注冊(cè)和登錄

如果可行，要求創(chuàng)建用戶才可以查看你的內(nèi)容。這個(gè)可以很好的遏制爬蟲，但很容易遏制真實(shí)用戶：

如果你要求必須創(chuàng)建賬戶和登錄，你可以精準(zhǔn)的跟蹤用戶和爬蟲的行為。這樣的話，你可以很簡(jiǎn)單就能檢測(cè)到有爬取行為的賬戶，然后封禁它。像頻率限制或檢測(cè)濫用（比如段時(shí)間大量搜索）就變得簡(jiǎn)單，你也可以不僅僅通過 IP 去識(shí)別爬蟲。

為了防止爬蟲創(chuàng)建大量的用戶，你應(yīng)該：

注冊(cè)時(shí)需要提供 email 地址，發(fā)送一個(gè)驗(yàn)證鏈接到郵箱，而且這個(gè)鏈接必須被打開才可以激活這個(gè)賬戶。一個(gè)郵箱只允許一個(gè)賬戶使用。
在注冊(cè)或創(chuàng)建用戶時(shí)，必須通過驗(yàn)證碼驗(yàn)證，為了防止創(chuàng)建用戶的自動(dòng)腳本。

要求注冊(cè)用戶對(duì)用戶和搜索引擎來說不友好；如果你要求必須注冊(cè)才可以看文章，那用戶也可能直接離開。

阻止來自云服務(wù)商和抓取服務(wù)的 IP

有時(shí)爬蟲會(huì)被運(yùn)行在云服務(wù)商，比如 Amazon Web Services 或 Google App Engine，或者其他 VPS。限制這些來自云服務(wù)商的 IP 地址訪問你的網(wǎng)站（或出驗(yàn)證碼）。你可以可以直接對(duì)來自爬取服務(wù)的 IP 地址限制訪問。

類似的，你也可以限制來自代理或 VPN 的 IP 地址，因?yàn)楹芏嗯老x會(huì)使用它們來防止被檢測(cè)到。

但是要知道限制來自代理服務(wù)器或 VPN 的 IP，也很容易影響到真實(shí)用戶。

當(dāng)你封禁時(shí)不要展示具體錯(cuò)誤信息

如果你要封禁或限制訪問，你應(yīng)該確保不要把導(dǎo)致封禁的原因告訴爬蟲，他們會(huì)根據(jù)提示修改自己的爬蟲程序。所以下面的這些錯(cuò)誤最好不要出現(xiàn)：

你的 IP 訪問太多次了，請(qǐng)重試
錯(cuò)誤，沒有 User Agent

想法的，展示一些不包含原因的友好信息會(huì)更好，比如下面的信息會(huì)更好：

對(duì)不起，有些不對(duì)勁。如果問題持續(xù)出現(xiàn)，你可以聯(lián)系 helpdesk@example.com 以獲取支持。

如果真實(shí)用戶看到這個(gè)錯(cuò)誤頁(yè)面，這個(gè)對(duì)真實(shí)用戶來說也十分友好。在后續(xù)訪問中，你也可以考慮展示驗(yàn)證碼而不是直接封禁，如果真實(shí)用戶看到這個(gè)錯(cuò)誤信息，對(duì)于合法用戶也會(huì)聯(lián)系你。

如果有爬蟲訪問，請(qǐng)使用驗(yàn)證碼

驗(yàn)證碼（Captcha，“Completely Automated Test to Tell Computers and Humans Apart”)對(duì)于防爬十分有效。不幸的是，它也很容易惹惱用戶。

因此，如果你發(fā)現(xiàn)疑似爬蟲，而且想要阻止它的爬取行為，而不是封禁它以免它是真實(shí)用戶。你可以考慮顯示驗(yàn)證碼在你再次允許訪問之前。

使用驗(yàn)證碼的注意事項(xiàng)：

不要造輪子，使用類似 Google 的 reCaptcha 的一些服務(wù)：比你自己實(shí)現(xiàn)一套驗(yàn)證碼服務(wù)要簡(jiǎn)單太多，對(duì)于用戶來說，也比識(shí)別模糊或扭曲的文字更友好（用戶一般只需要點(diǎn)擊一下），而且相對(duì)于你自己提供的簡(jiǎn)單驗(yàn)證碼圖片，爬蟲也更難去破解
不要在 HTML 結(jié)構(gòu)中包含驗(yàn)證碼答案：我曾經(jīng)看到過一個(gè)網(wǎng)站在它自己頁(yè)面上有驗(yàn)證碼的答案，（雖然隱藏的很好）所以讓驗(yàn)證碼根本就沒有用。不要做類似的事情。再?gòu)?qiáng)調(diào)一次，用像 reCaptcha 的服務(wù)，你將不會(huì)有類似的問題（如果你正確地使用它）

將你的文字轉(zhuǎn)為圖片

你可以在服務(wù)端將文字渲染成圖片顯示，他將防止簡(jiǎn)單的爬蟲去獲取文字內(nèi)容。

然而，這個(gè)對(duì)于屏幕閱讀器、搜索引擎、性能還有一些其他一些事情都不太好。這個(gè)在某些方面也是不違法的（源于訪問性問題，eg. the Americans with Disabilities Act），而且對(duì)于一些 OCR 爬蟲也能非常簡(jiǎn)單的規(guī)避，所以不要采用這種方式。

你也可以用 CSS sprites 做類似的事情，但是也有相同的問題。

不要暴露你完整的數(shù)據(jù)

如果可以的話，不要讓腳本/爬蟲能獲取你所有的數(shù)據(jù)。舉個(gè)例子：你有一個(gè)新聞?wù)荆写罅康膫€(gè)人文章。你應(yīng)該確保文章只能通過你自己網(wǎng)站的搜索到，如果你網(wǎng)站不是到處都有你的文章還有鏈接，那么確保它們只能被搜索功能訪問到。這意味著如果一個(gè)腳本想要獲取你網(wǎng)站的所有文章，就必須通過你站點(diǎn)文章中所有可能的短語(yǔ)去進(jìn)行搜索，從而獲取所有的文章列表，但是這個(gè)會(huì)非常耗時(shí)，而且低效，從而讓爬蟲放棄。

以下操作會(huì)讓你完全暴露：

爬蟲/腳本并不想/需要獲取所有的數(shù)據(jù)
你站點(diǎn)文章的鏈接看起來是這種方式 example.com/article.php?articleId=12345 ，這樣做（或類似的其他做法）會(huì)讓爬蟲很簡(jiǎn)單的迭代 articleID 就能獲取你所有的文章
還有一些其他方式獲取所有的文章，比如寫一個(gè)腳本去遞歸的爬取你文章中其他文章的鏈接
搜索一些常用的詞比如 "一" 或者 "的" 將會(huì)暴露幾乎所有的內(nèi)容。所以這點(diǎn)是要注意的（你可以通過只返回 top 10 或 top 20 來避免這個(gè)問題）
你的文章需要被搜索引擎收錄

不要暴露你的 API、節(jié)點(diǎn)或其他類似的東西

確保你不會(huì)暴露你的任何 API，很多時(shí)候都是無意間暴露。舉個(gè)例子，如果你正在使用 AJAX 或 Adobe Flash 的網(wǎng)絡(luò)請(qǐng)求或 Java Applet（千萬不要用！）來加載你的數(shù)據(jù)，從這些網(wǎng)絡(luò)請(qǐng)求中找到要請(qǐng)求的 API 十分簡(jiǎn)單，比如可以進(jìn)行反編譯然后在爬蟲程序中使用這些接口。確保你混淆了你的 API 并且其他人要用它會(huì)非常難破解。

阻止 HTML 解析器和爬取器

由于 HTML 解析器是通過分析頁(yè)面特定結(jié)構(gòu)去獲取內(nèi)容，我們可以故意修改這些結(jié)構(gòu)來阻止這類爬蟲，甚至從根本上他們獲取內(nèi)容。下面大多數(shù)做法對(duì)其他類型爬蟲如搜索引擎蜘蛛、屏幕爬蟲也有效。

經(jīng)常修改你的 HTML 結(jié)構(gòu)

處理 HTML 的爬蟲通過分析特定可識(shí)別的部分來處理 HTML。舉個(gè)例子：如果你所有的頁(yè)面都有 id 為 article-content 的 div 結(jié)構(gòu)，然后里面有你的文章內(nèi)容，那要獲取你站點(diǎn)所有文章內(nèi)容是十分簡(jiǎn)單的，只要解析那個(gè) article-content 那個(gè) div 就可以了，然后有這個(gè)結(jié)構(gòu)的爬蟲就可以把你的文章隨便用在什么地方。

如果你常常修改 HTML 還有你頁(yè)面的結(jié)構(gòu)，那這類爬蟲就不能一直使用。

你可以經(jīng)常修改你 HTML 的 id 和 class ，甚至讓他能自動(dòng)改變。所以，如果你的 div.article-content 變成 div.a4c36dda13eaf0 ，而且每周都會(huì)變化，那么爬蟲一開始可能能正常工作，但是一周之后就不能使用了。同時(shí)也確保修改你 id/class的長(zhǎng)度，這樣也可以避免爬蟲使用類似 div.[any-14-characters] 來找到想要的 div 。
如果無法從標(biāo)記中找到所需的內(nèi)容，則抓取工具將通過HTML的結(jié)構(gòu)方式進(jìn)行查找。所以，如果你的所有文章都有類似的結(jié)構(gòu)，比如每個(gè) div ，并且里面通過 h1 放文章的標(biāo)題，爬蟲將基于這個(gè)結(jié)構(gòu)獲取文章內(nèi)容。同樣的，為了防止這個(gè)，你可以在你的 HTML 添加/刪除額外的標(biāo)記，周期并且隨機(jī)的做，eg. 添加額外的 div 或 span 。對(duì)于服務(wù)端渲染的程序，這應(yīng)該不會(huì)很難。

注意事項(xiàng)：

它的實(shí)現(xiàn)、維護(hù)和調(diào)試都是很復(fù)雜困難的
你要注意緩存。特別是你修改你 HTML 元素的 id 或 class 時(shí)，也要去修改相應(yīng)的 CSS 和 JavaScript 文件，這意味著每次修改都要修改這些，而瀏覽器每次都要重新下載他們。這將導(dǎo)致頁(yè)面打開慢也會(huì)導(dǎo)致服務(wù)端負(fù)載升高。不過這也不是一個(gè)大問題，如果你只是一個(gè)星期改變一次。
聰明的爬蟲仍然能推斷出你文章的位置，比如，頁(yè)面上大塊的文本大概率是文章內(nèi)容。這個(gè)讓爬蟲從頁(yè)面找到、獲取想要的數(shù)據(jù)。Boilerpipe 就是這樣做的。

本質(zhì)上來說，就是確保爬蟲從相似頁(yè)面獲取想要的內(nèi)容變得不那么容易。

可以參考這個(gè) PHP 的實(shí)現(xiàn)：How to prevent crawlers depending on XPath from getting page contents

基于用戶地理位置修改 HTML

這個(gè)和前一個(gè)類似。如果你根據(jù)不同用戶的位置/國(guó)家（根據(jù) IP 獲取）來提供不同的 HTML，這個(gè)可能會(huì)破壞將站點(diǎn) HTML 給用戶的爬蟲。比如，如果有人寫了一個(gè)移動(dòng) APP 來抓取你的站點(diǎn)，一開始可以用，但是對(duì)于不同地區(qū)的用戶就不起作用了，因?yàn)樗麄儠?huì)獲取到不同的 HTML 結(jié)構(gòu)，嵌入式的 HTML 將不不能正常使用。

經(jīng)常改變 HTML，并與爬蟲斗智斗勇！

舉個(gè)例子：你有一個(gè)包含搜索功能的網(wǎng)站， example.com/search?query=somesearchquery 的搜索結(jié)果是下面的 HTML 結(jié)構(gòu)：

<div class="search-result">

  <h3 class="search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>

  <p class="search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>

  <a class"search-result-link" href="/stories/stack-overflow-has-become-the-most-popular">Read more</a>

</div>

(And so on, lots more identically structured divs with search results)

你可以猜到這個(gè)非常容易爬取：一個(gè)爬蟲需要做的就只是訪問搜索鏈接，然后從返回的 HTML 分析想要的數(shù)據(jù)。除了定期修改上面 HTML 的內(nèi)容，你也可以保留舊結(jié)構(gòu)的 id 和 class，然后使用 CSS 進(jìn)行隱藏，并使用假數(shù)據(jù)進(jìn)行填充，從而給爬蟲投毒。比如像下面這樣：

<div class="the-real-search-result">

  <h3 class="the-real-search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>

  <p class="the-real-search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>

  <a class"the-real-search-result-link" href="/stories/stack-overflow-has-become-the-most-popular">Read more</a>

</div>




<div class="search-result" style="display:none">

  <h3 class="search-result-title">Visit example.com now, for all the latest Stack Overflow related news !</h3>

  <p class="search-result-excerpt">EXAMPLE.COM IS SO AWESOME, VISIT NOW! (Real users of your site will never see this, only the scrapers will.)</p>

  <a class"search-result-link" href="http://example.com/">Visit Now !</a>

</div>

(More real search results follow)

這意味著基于 id 或 class 獲取特定數(shù)據(jù)的爬蟲仍然能繼續(xù)工作，但是他們將會(huì)獲取假數(shù)據(jù)甚至廣告，而這些數(shù)據(jù)真實(shí)用戶是看不到的，因?yàn)樗麄儽?CSS 隱藏了。

與爬蟲斗智斗勇：在頁(yè)面插入假的、不可見的蜜罐數(shù)據(jù)

對(duì)上個(gè)例子進(jìn)行補(bǔ)充，你可以在你的 HTML 里面增加不可見的蜜罐數(shù)據(jù)來抓住爬蟲。下面的例子來補(bǔ)充之前說的搜索結(jié)果：

<div class="search-result" style="display:none">

  <h3 class="search-result-title">This search result is here to prevent scraping</h3>

  <p class="search-result-excerpt">If you're a human and see this, please ignore it. If you're a scraper, please click the link below :-)

  Note that clicking the link below will block access to this site for 24 hours.</p>

  <a class"search-result-link" href="/scrapertrap/scrapertrap.php">I'm a scraper !</a>

</div>

(The actual, real, search results follow.)

一個(gè)來獲取所有內(nèi)容的爬蟲將會(huì)被找到，就像獲取其他結(jié)果一樣，訪問鏈接，查找想要的內(nèi)容。一個(gè)真人將不會(huì)看到（因?yàn)槭褂?CSS 隱藏），而且更不會(huì)訪問這個(gè)鏈接。而正規(guī)或者期望的蜘蛛比如谷歌的蜘蛛將不會(huì)訪問這個(gè)鏈接，因?yàn)槟憧梢詫?/scrapertrap/ 加入你的 robots.txt 中（不要忘記增加）

你可以讓你的 scrapertrap.php 做一些比如限制這個(gè) IP 訪問的事情，或者強(qiáng)制這個(gè) IP 之后的請(qǐng)求出驗(yàn)證碼。

不要忘記在你的 robots.txt 中添加禁止訪問 /scrapertrap/ 的規(guī)則避免所有的搜索引擎不會(huì)中招
你可以/應(yīng)該和上個(gè)經(jīng)常更換 HTML 結(jié)構(gòu)的例子一起使用
也要經(jīng)常修改它，因?yàn)榕老x可能會(huì)周期性的了解并不去訪問它。修改蜜罐 URL 和文本。同時(shí)要考慮使用 id 屬性或外部的 CSS 來取代內(nèi)聯(lián)的 CSS，要不然爬蟲將會(huì)學(xué)會(huì)防止爬取所有包含隱藏屬性 style 的節(jié)點(diǎn)。并且只是偶爾啟用它，這樣爬蟲一開始正常工作，但是過段時(shí)間就不起作用。這個(gè)同樣也適用于上個(gè)例子。
要注意可能會(huì)有惡意的人在論壇發(fā)布像 [img]http://yoursite.com/scrapertrap/scrapertrap.php[img] ，然后當(dāng)正常用戶訪問然后點(diǎn)擊到你的蜜罐鏈接。所以上個(gè)注意事項(xiàng)中經(jīng)常更換你的蜜罐鏈接是非常重要的，當(dāng)然你也可以檢查 Referer。

當(dāng)識(shí)別為爬蟲時(shí)，提供假的或無用的數(shù)據(jù)

如果你確定某個(gè)訪問是爬蟲，你可以提供假的或者無用的數(shù)據(jù)；這將破壞爬蟲從你網(wǎng)站獲取的數(shù)據(jù)。你還應(yīng)該把它和真實(shí)數(shù)據(jù)進(jìn)行混淆，這樣爬蟲就不知道他們獲取的到底是真的還是假的數(shù)據(jù)。

舉個(gè)例子：如果你有一個(gè)新聞?wù)荆銠z測(cè)到了一個(gè)爬蟲，不要去直接封禁它，而是提供假的或者隨機(jī)生成的文章，那爬蟲獲取的數(shù)據(jù)將會(huì)被破壞。如果你將假數(shù)據(jù)和真實(shí)的數(shù)據(jù)進(jìn)行混淆，那爬蟲很難獲取到他們想要的真實(shí)文章。

不要接受沒有 UserAgent 的請(qǐng)求

很多懶惰的程序員不會(huì)在他們的爬蟲發(fā)請(qǐng)求時(shí)帶上 UserAgent，而所有的瀏覽器包括搜索引擎蜘蛛都會(huì)攜帶。

如果請(qǐng)求你時(shí)沒有攜帶 UserAgent header 頭，你可以展示驗(yàn)證碼，或者直接封禁或者限制訪問（或者像上面說的提供假數(shù)據(jù)或者其他的）

這個(gè)非常簡(jiǎn)單去避免，但是作為一種針對(duì)書寫不當(dāng)?shù)呐老x，是值得去做的。

不要接受 UserAgent 是通用爬蟲或在爬蟲黑名單的請(qǐng)求

很多情況下，爬蟲將會(huì)使用真實(shí)瀏覽器或搜索引擎爬蟲絕對(duì)不會(huì)使用的 UserAgent，比如：

"Mozilla" （就只有這個(gè)，我曾經(jīng)看到過一些爬蟲的問題用這個(gè)，但真實(shí)瀏覽器絕對(duì)不會(huì)用）
"Java 1.7.43_u43" （Java 的 HttpUrlConnection 的默認(rèn) UserAgent）
"BIZCO EasyScraping Studio 2.0"
"wget", "curl", "libcurl",.. （基礎(chǔ)爬蟲有時(shí)候會(huì)用 Wget 和 cURL）

如果你發(fā)現(xiàn)一些爬蟲使用真實(shí)瀏覽器或合法蜘蛛絕對(duì)不會(huì)使用的 UserAgent，你可以將其添加到你的黑名單中。

檢查 Referer header 頭

對(duì)上一章節(jié)的補(bǔ)充，你也可以檢查 [Referer] (https://en.wikipedia.org/wiki/HTTP_referer header) （是的，它是 Referer，而不是 Referrer），一些懶惰的爬蟲可能不會(huì)攜帶的這個(gè)，或者只是每次都攜帶一樣的（有時(shí)候是 “google.com”）。舉個(gè)例子，如果用戶是從站內(nèi)搜索結(jié)果頁(yè)點(diǎn)擊進(jìn)入文章詳情的，那要檢查 Referer 這個(gè) header 頭是否存在還要看搜索結(jié)果頁(yè)的打點(diǎn)。

注意：

真實(shí)瀏覽器并不總是攜帶 Referer；
很容易被避免

還是，作為一種防止簡(jiǎn)單爬蟲的方法，也值得去實(shí)現(xiàn)。

如果不請(qǐng)求資源（CSS，images），它可能不是真實(shí)瀏覽器

一個(gè)真實(shí)瀏覽器（通常）會(huì)請(qǐng)求和下載資源比如 CSS 和圖片。HTML 解析器和爬取器可能只關(guān)心特定的頁(yè)面和內(nèi)容。

你可以基于訪問你資源的日志，如果你看到很多請(qǐng)求只請(qǐng)求 HTML，那它可能就是爬蟲。

注意搜索引擎蜘蛛、舊的移動(dòng)設(shè)備、屏幕閱讀器和設(shè)置錯(cuò)誤的設(shè)備可能也不會(huì)請(qǐng)求資源。

要求使用 Cookie；使用它們來跟蹤用戶和爬蟲行為

訪問你網(wǎng)站時(shí)，你可以要求 cookie 必須開啟。這個(gè)能識(shí)別沒有經(jīng)驗(yàn)和爬蟲新手，然而爬蟲要攜帶 Cookie 也十分簡(jiǎn)單。如果你要求開啟 Cookie，你能使用它們來追蹤用戶和爬蟲的行為，然后基于此來實(shí)現(xiàn)頻率限制、封禁、或者顯示驗(yàn)證碼而不僅僅依賴 IP 地址。

舉個(gè)例子：當(dāng)用戶進(jìn)行搜索時(shí)，設(shè)置一個(gè)唯一的 Cookie。當(dāng)搜索結(jié)果加載出來之后，驗(yàn)證這個(gè) Cookie。如果一個(gè)用戶打開了所有的搜索結(jié)果（可以從 Cookie 中得知），那很可能就是爬蟲

使用 Cookie 可能是低效的，因?yàn)榕老x也可以攜帶 Cookie 發(fā)送請(qǐng)求，也可以根據(jù)需要丟棄。如果你的網(wǎng)站只能在開啟 Cookie 時(shí)使用，你也不能給關(guān)閉 Cookie 的用戶提供服務(wù)。

要注意如果你使用 JavaScript 去設(shè)置和檢測(cè) Cookie，你能封禁那些沒有運(yùn)行 JavaScript 的爬蟲，因?yàn)樗鼈儧]辦法獲取和發(fā)送 Cookie。

使用 JavaScript 和 AJAX 加載內(nèi)容

你可以在頁(yè)面加載完成之后，使用 JavaScript + AJAX 來加載你的內(nèi)容。這個(gè)對(duì)于那些沒有運(yùn)行 JavaScript 的 HTML 分析器來說將無法取得數(shù)據(jù)。這個(gè)對(duì)于沒有經(jīng)驗(yàn)或者新手程序員寫的爬蟲非常有效。

注意：

使用 JavaScript 加載內(nèi)容將會(huì)降低用戶體驗(yàn)和性能；
搜索引擎也不會(huì)運(yùn)行 JavaScript，因此不會(huì)對(duì)你的內(nèi)容進(jìn)行收錄。這對(duì)于搜索結(jié)果來說可能不是問題，但是要注意其他頁(yè)面，比如文章頁(yè)面；
寫爬蟲的程序員獲取到加載內(nèi)容的 API 后可以直接使用它

混淆你的數(shù)據(jù)和網(wǎng)絡(luò)請(qǐng)求，不要讓其直接通過腳本就能獲取

如果你用 Ajax 和 JavaScript 加載你的數(shù)據(jù)，在傳輸?shù)臅r(shí)候要混淆一下。比如，你可以在服務(wù)器端 encode 你的數(shù)據(jù)（比如簡(jiǎn)單的使用 base64 或負(fù)載一些的多次混淆、位偏移或者是進(jìn)行加密），然后在客戶端在 Ajax 獲取數(shù)據(jù)之后再進(jìn)行 decode。這意味著如果有人要抓包獲取你的請(qǐng)求就不能直接看到你頁(yè)面如何加載數(shù)據(jù)，而且那些人也不能直接通過 API 獲得你的數(shù)據(jù)，如果想要獲取數(shù)據(jù)，就必須要去解密你的算法。

如果你用 Ajax 加載數(shù)據(jù)，那你應(yīng)該強(qiáng)制在頁(yè)面加載之后才可以獲取，比如要求獲取數(shù)據(jù)必須包含 session 信息，這些你可以在頁(yè)面加載的時(shí)候嵌入到 JavaScript 或 HTML 中
你也可以直接把混淆的數(shù)據(jù)嵌入到 HTML 中，然后用 JavaScript 去解密然后再顯示它們，這樣的話，你就不需要再使用 Ajax 去做額外的請(qǐng)求。這樣做可以讓那些不運(yùn)行 JavaScript 的 HTML 解析器更難獲取你的數(shù)據(jù)，他們必須要反解你的 JavaScript（沒錯(cuò)，JavaScript 也要做混淆）
你應(yīng)該經(jīng)常更換混淆方法以免爬蟲找出方法揭秘它

下面是一些這個(gè)方式的缺點(diǎn)：

實(shí)現(xiàn)、維護(hù)和調(diào)試都非常麻煩
雖然讓爬蟲變得不容易抓取，但是對(duì)于截屏類的爬蟲來說，它們實(shí)際上會(huì)運(yùn)行 JavaScript，所以能獲取到數(shù)據(jù)（不過很多簡(jiǎn)單的 HTML 解釋器不會(huì)運(yùn)行 JavaScript）
如果真實(shí)用戶禁用了 JavaScript，那你的網(wǎng)站將不能正常顯示
性能和頁(yè)面加載速度會(huì)受到影響

其他非技術(shù)做法

你的服務(wù)器供應(yīng)商可能提供搜索引擎蜘蛛或爬蟲的防御：

比如，CloudFlare 提供反蜘蛛和反爬蟲的防御，你只需要直接啟用它就可以了，另外 AWS 也提供類似服務(wù)。而且 Apache 的 mod_evasive 模塊也能讓你很輕松地實(shí)現(xiàn)頻率限制。

直接告訴別人不要抓取，會(huì)有人尊重而且停止抓取

你應(yīng)該直接告訴人們不要抓取你的網(wǎng)站，比如，在你的服務(wù)條款中表明。有些人確實(shí)會(huì)尊重它，而且不在你允許的情況下不會(huì)再去抓取數(shù)據(jù)。

尋求律師的援助

律師們知道如何處理侵犯版權(quán)的事情，而且他們可以發(fā)送律師函。DMCA（譯者注：Digital Millennium Copyright Act，數(shù)字千年版權(quán)法案，是一個(gè)美國(guó)版權(quán)法律）也能提供援助。

直接提供 API 獲取你的數(shù)據(jù)

這看起來適得其反，但是你可以要求標(biāo)明來源并包含返回你站點(diǎn)的鏈接。甚至也可以售賣你的 API 而賺取費(fèi)用。

還有就是，Stack Exchange 提供了 API，但是必須要標(biāo)明來源。

其他補(bǔ)充

要在用戶體驗(yàn)和反爬之間做權(quán)衡：你做的每個(gè)舉措都有可能在某種程度上影響用戶體驗(yàn)，所以你必須要權(quán)衡和妥協(xié)；
不要忘你的移動(dòng)站點(diǎn)和 APP：如果你的站點(diǎn)有移動(dòng)版，要小心爬蟲也可以通過它爬取你的數(shù)據(jù)。或者說你有移動(dòng) APP，他們也可以截屏分析，或者可以抓取你的網(wǎng)絡(luò)請(qǐng)求去直接找到你的 RESTful 的 API 直接使用；
如果你對(duì)一些特定瀏覽器提供了特定的版本，比如對(duì)很老的 IE 版本提供網(wǎng)站的閹割版，不要忘記爬蟲也可以直接爬取它；
選出集中最適合你的策略結(jié)合起來使用，而不是只用一種；
爬蟲可以抓取其他爬蟲：如果有個(gè)網(wǎng)站顯示的內(nèi)容都是從你網(wǎng)站爬取的，那另外一個(gè)爬蟲也可以直接爬取那個(gè)網(wǎng)站。

有哪些最有效的方法？

以我自己寫和幫忙別人寫爬蟲的經(jīng)驗(yàn)，我認(rèn)為最有效的方法是：

經(jīng)常修改 HTML 的結(jié)構(gòu)
蜜罐和假數(shù)據(jù)
使用混淆的 JavaScript、Ajax 還有 Cookie
頻率限制、爬蟲檢測(cè)和請(qǐng)求封禁

擴(kuò)展閱讀：

維基百科關(guān)于 Web 爬蟲的文章，其中提到了很多 Web 爬蟲的相關(guān)技術(shù)和爬蟲類型，看完如何進(jìn)行 web 爬取的一些信息，也不要忘記看一看爬取的合法性。

最后祝你在保護(hù)你網(wǎng)站的內(nèi)容坎坷路上一路順風(fēng)...

作者:h1z3y3

來源:微信公眾號(hào): 360搜索技術(shù)團(tuán)隊(duì)

出處:https://mp.weixin.qq.com/s?__biz=MzA5ODIxODE2Ng==&mid=2651137205&idx=1&sn=664a46d66f132c96780750d4e9b206eb

防火墻”可以阻擋“黑客”的進(jìn)攻嗎？

"防火墻"這個(gè)詞大家應(yīng)該都聽說過或者應(yīng)用過，每個(gè)人的電腦、手機(jī)幾乎都會(huì)安裝一些的主流的防火墻軟件，工作的企事業(yè)單位網(wǎng)絡(luò)里都會(huì)安裝硬件防火墻。那么這些防火墻能阻擋住黑客的攻擊嗎？今天我就和大家分享一下這個(gè)話題！

一、首先我們需要知道防火墻的原理或者說主要功能

1、什么是防火墻？

官方定義：防火墻也被稱為防護(hù)墻，它是一種位于內(nèi)部網(wǎng)絡(luò)與外部網(wǎng)絡(luò)之間的網(wǎng)絡(luò)安全系統(tǒng)，可以將內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)隔離。通常，防火墻可以保護(hù)內(nèi)部/私有局域網(wǎng)免受外部攻擊，并防止重要數(shù)據(jù)泄露。在沒有防火墻的情況下，路由器會(huì)在內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)之間盲目傳遞流量且沒有過濾機(jī)制，而防火墻不僅能夠監(jiān)控流量，還能夠阻止未經(jīng)授權(quán)的流量。

簡(jiǎn)單理解：防火墻是由軟件或者軟件和硬件組成的系統(tǒng)，它處于安全的網(wǎng)絡(luò)（通常是內(nèi)部局域網(wǎng)）和不安全的網(wǎng)絡(luò)之間，根據(jù)由系統(tǒng)管理員設(shè)置的訪問控制規(guī)則，對(duì)數(shù)據(jù)流進(jìn)行過濾。

2、防火墻基本分類和工作原理

1) 包過濾防火墻

這是第一代防火墻，又稱為網(wǎng)絡(luò)層防火墻，在每一個(gè)數(shù)據(jù)包傳送到源主機(jī)時(shí)都會(huì)在網(wǎng)絡(luò)層進(jìn)行過濾，對(duì)于不合法的數(shù)據(jù)訪問，防火墻會(huì)選擇阻攔以及丟棄。這種防火墻的連接可以通過一個(gè)網(wǎng)卡即一張網(wǎng)卡由內(nèi)網(wǎng)的IP地址，又有公網(wǎng)的IP地址和兩個(gè)網(wǎng)卡一個(gè)網(wǎng)卡上有私有網(wǎng)絡(luò)的IP地址，另一個(gè)網(wǎng)卡有外部網(wǎng)絡(luò)的IP 地址。

第一代防火墻和最基本形式防火墻檢查每一個(gè)通過的網(wǎng)絡(luò)包，或者丟棄，或者放行，取決于所建立的一套規(guī)則。這稱為包過濾防火墻。

本質(zhì)上，包過濾防火墻是多址的，表明它有兩個(gè)或兩個(gè)以上網(wǎng)絡(luò)適配器或接口。例如，作為防火墻的設(shè)備可能有兩塊網(wǎng)卡(NIC)，一塊連到內(nèi)部網(wǎng)絡(luò)，一塊連到公共的Internet。防火墻的任務(wù)，就是作為"通信警察"，指引包和截住那些有危害的包。

包過濾防火墻檢查每一個(gè)傳入包，查看包中可用的基本信息（源地址和目的地址、端口號(hào)、協(xié)議等）。然后，將這些信息與設(shè)立的規(guī)則相比較。如果已經(jīng)設(shè)立了阻斷telnet連接，而包的目的端口是23的話，那么該包就會(huì)被丟棄。如果允許傳入Web連接，而目的端口為80，則包就會(huì)被放行。

多個(gè)復(fù)雜規(guī)則的組合也是可行的。如果允許Web連接，但只針對(duì)特定的服務(wù)器，目的端口和目的地址二者必須與規(guī)則相匹配，才可以讓該包通過。

最后，可以確定當(dāng)一個(gè)包到達(dá)時(shí)，如果對(duì)該包沒有規(guī)則被定義，接下來將會(huì)發(fā)生什么事情了。通常，為了安全起見，與傳入規(guī)則不匹配的包就被丟棄了。如果有理由讓該包通過，就要建立規(guī)則來處理它。

建立包過濾防火墻規(guī)則的例子如下：

對(duì)來自專用網(wǎng)絡(luò)的包，只允許來自內(nèi)部地址的包通過，因?yàn)槠渌徽_的包頭部信息。這條規(guī)則可以防止網(wǎng)絡(luò)內(nèi)部的任何人通過欺騙性的源地址發(fā)起攻擊。而且，如果黑客對(duì)專用網(wǎng)絡(luò)內(nèi)部的機(jī)器具有了不知從何得來的訪問權(quán)，這種過濾方式可以阻止黑客從網(wǎng)絡(luò)內(nèi)部發(fā)起攻擊。

在公共網(wǎng)絡(luò)，只允許目的地址為80端口的包通過。這條規(guī)則只允許傳入的連接為Web連接。這條規(guī)則也允許與Web連接使用相同端口的連接，所以它并不是十分安全。

丟棄從公共網(wǎng)絡(luò)傳入的包，而這些包都有你的網(wǎng)絡(luò)內(nèi)的源地址，從而減少IP欺騙性的攻擊。

丟棄包含源路由信息的包，以減少源路由攻擊。要記住，在源路由攻擊中，傳入的包包含路由信息，它覆蓋了包通過網(wǎng)絡(luò)應(yīng)采取得正常路由，可能會(huì)繞過已有的安全程序。

2) 狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻

狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻，試圖跟蹤通過防火墻的網(wǎng)絡(luò)連接和包，這樣防火墻就可以使用一組附加的標(biāo)準(zhǔn)，以確定是否允許和拒絕通信。它是在使用了基本包過濾防火墻的通信上應(yīng)用一些技術(shù)來做到這點(diǎn)的。

當(dāng)包過濾防火墻見到一個(gè)網(wǎng)絡(luò)包，包是孤立存在的。它沒有防火墻所關(guān)心的歷史或未來。允許和拒絕包的決定完全取決于包自身所包含的信息，如源地址、目的地址、端口號(hào)等。包中沒有包含任何描述它在信息流中的位置的信息，則該包被認(rèn)為是無狀態(tài)的；它僅是存在而已。

一個(gè)有狀態(tài)包檢查防火墻跟蹤的不僅是包中包含的信息。為了跟蹤包的狀態(tài)，防火墻還記錄有用的信息以幫助識(shí)別包，例如已有的網(wǎng)絡(luò)連接、數(shù)據(jù)的傳出請(qǐng)求等。

例如，如果傳入的包包含視頻數(shù)據(jù)流，而防火墻可能已經(jīng)記錄了有關(guān)信息，是關(guān)于位于特定IP地址的應(yīng)用程序最近向發(fā)出包的源地址請(qǐng)求視頻信號(hào)的信息。如果傳入的包是要傳給發(fā)出請(qǐng)求的相同系統(tǒng)，防火墻進(jìn)行匹配，包就可以被允許通過。

一個(gè)狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻可截?cái)嗨袀魅氲耐ㄐ牛试S所有傳出的通信。因?yàn)榉阑饓Ω檭?nèi)部出去的請(qǐng)求，所有按要求傳入的數(shù)據(jù)被允許通過，直到連接被關(guān)閉為止。只有未被請(qǐng)求的傳入通信被截?cái)唷?/p>

如果在防火墻內(nèi)正運(yùn)行一臺(tái)服務(wù)器，配置就會(huì)變得稍微復(fù)雜一些，但狀態(tài)包檢查是很有力和適應(yīng)性的技術(shù)。例如，可以將防火墻配置成只允許從特定端口進(jìn)入的通信，只可傳到特定服務(wù)器。如果正在運(yùn)行Web服務(wù)器，防火墻只將80端口傳入的通信發(fā)到指定的Web服務(wù)器。

狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻可提供的其他一些額外的服務(wù)有：

將某些類型的連接重定向到審核服務(wù)中去。例如，到專用Web服務(wù)器的連接，在Web服務(wù)器連接被允許之前，可能被發(fā)到SecutID服務(wù)器（用一次性口令來使用）。

拒絕攜帶某些數(shù)據(jù)的網(wǎng)絡(luò)通信，如帶有附加可執(zhí)行程序的傳入電子消息，或包含ActiveX程序的Web頁(yè)面。

跟蹤連接狀態(tài)的方式取決于包通過防火墻的類型：

TCP包。當(dāng)建立起一個(gè)TCP連接時(shí)，通過的第一個(gè)包被標(biāo)有包的SYN標(biāo)志。通常情況下，防火墻丟棄所有外部的連接企圖，除非已經(jīng)建立起某條特定規(guī)則來處理它們。對(duì)內(nèi)部的連接試圖連到外部主機(jī)，防火墻注明連接包，允許響應(yīng)及隨后再兩個(gè)系統(tǒng)之間的包，直到連接結(jié)束為止。在這種方式下，傳入的包只有在它是響應(yīng)一個(gè)已建立的連接時(shí)，才會(huì)被允許通過。

UDP包。UDP包比TCP包簡(jiǎn)單，因?yàn)樗鼈儾话魏芜B接或序列信息。它們只包含源地址、目的地址、校驗(yàn)和攜帶的數(shù)據(jù)。這種信息的缺乏使得防火墻確定包的合法性很困難，因?yàn)闆]有打開的連接可利用，以測(cè)試傳入的包是否應(yīng)被允許通過。可是，如果防火墻跟蹤包的狀態(tài)，就可以確定。對(duì)傳入的包，若它所使用的地址和UDP包攜帶的協(xié)議與傳出的連接請(qǐng)求匹配，該包就被允許通過。和TCP包一樣，沒有傳入的UDP包會(huì)被允許通過，除非它是響應(yīng)傳出的請(qǐng)求或已經(jīng)建立了指定的規(guī)則來處理它。對(duì)其他種類的包，情況和UDP包類似。防火墻仔細(xì)地跟蹤傳出的請(qǐng)求，記錄下所使用的地址、協(xié)議和包的類型，然后對(duì)照保存過的信息核對(duì)傳入的包，以確保這些包是被請(qǐng)求的。

3) 應(yīng)用程序代理防火墻

應(yīng)用程序代理防火墻實(shí)際上并不允許在它連接的網(wǎng)絡(luò)之間直接通信。相反，它是接受來自內(nèi)部網(wǎng)絡(luò)特定用戶應(yīng)用程序的通信，然后建立于公共網(wǎng)絡(luò)服務(wù)器單獨(dú)的連接。網(wǎng)絡(luò)內(nèi)部的用戶不直接與外部的服務(wù)器通信，所以服務(wù)器不能直接訪問內(nèi)部網(wǎng)的任何一部分。

另外，如果不為特定的應(yīng)用程序安裝代理程序代碼，這種服務(wù)是不會(huì)被支持的，不能建立任何連接。這種建立方式拒絕任何沒有明確配置的連接，從而提供了額外的安全性和控制性。

例如，一個(gè)用戶的Web瀏覽器可能在80端口，但也經(jīng)常可能是在1080端口，連接到了內(nèi)部網(wǎng)絡(luò)的HTTP代理防火墻。防火墻然后會(huì)接受這個(gè)連接請(qǐng)求，并把它轉(zhuǎn)到所請(qǐng)求的Web服務(wù)器。

這種連接和轉(zhuǎn)移對(duì)該用戶來說是透明的，因?yàn)樗耆怯纱矸阑饓ψ詣?dòng)處理的。

代理防火墻通常支持的一些常見的應(yīng)用程序協(xié)議有：

HTTP

HTTPS/SSL

SMTP

POP3

IMAP

NNTP

TELNET

FTP

IRC

應(yīng)用程序代理防火墻可以配置成允許來自內(nèi)部網(wǎng)絡(luò)的任何連接，它也可以配置成要求用戶認(rèn)證后才建立連接。要求認(rèn)證的方式由只為已知的用戶建立連接的這種限制，為安全性提供了額外的保證。如果網(wǎng)絡(luò)受到危害，這個(gè)特征使得從內(nèi)部發(fā)動(dòng)攻擊的可能性大大減少。

4) NAT

討論到防火墻的主題，就一定要提到有一種路由器，盡管從技術(shù)上講它根本不是防火墻。網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)協(xié)議將內(nèi)部網(wǎng)絡(luò)的多個(gè)IP地址轉(zhuǎn)換到一個(gè)公共地址發(fā)到Internet上。

NAT經(jīng)常用于小型辦公室、家庭等網(wǎng)絡(luò)，多個(gè)用戶分享單一的IP地址，并為Internet連接提供一些安全機(jī)制。

當(dāng)內(nèi)部用戶與一個(gè)公共主機(jī)通信時(shí)，NAT追蹤是哪一個(gè)用戶作的請(qǐng)求，修改傳出的包，這樣包就像是來自單一的公共IP地址，然后再打開連接。一旦建立了連接，在內(nèi)部計(jì)算機(jī)和Web站點(diǎn)之間來回流動(dòng)的通信就都是透明的了。

當(dāng)從公共網(wǎng)絡(luò)傳來一個(gè)未經(jīng)請(qǐng)求的傳入連接時(shí)，NAT有一套規(guī)則來決定如何處理它。如果沒有事先定義好的規(guī)則，NAT只是簡(jiǎn)單的丟棄所有未經(jīng)請(qǐng)求的傳入連接，就像包過濾防火墻所做的那樣。

可是，就像對(duì)包過濾防火墻一樣，你可以將NAT配置為接受某些特定端口傳來的傳入連接，并將它們送到一個(gè)特定的主機(jī)地址。

5) 個(gè)人主機(jī)防火墻

現(xiàn)在網(wǎng)絡(luò)上流傳著很多的個(gè)人防火墻軟件，它是應(yīng)用程序級(jí)的。主機(jī)防火墻是一種能夠保護(hù)個(gè)人計(jì)算機(jī)系統(tǒng)安全的軟件，它可以直接在用戶的計(jì)算機(jī)上運(yùn)行，使用與狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻相同的方式，保護(hù)一臺(tái)計(jì)算機(jī)免受攻擊。通常，這些防火墻是安裝在計(jì)算機(jī)網(wǎng)絡(luò)接口的較低級(jí)別上，使得它們可以監(jiān)視傳入傳出網(wǎng)卡的所有網(wǎng)絡(luò)通信。

一旦安裝上個(gè)人防火墻，就可以把它設(shè)置成"學(xué)習(xí)模式"，這樣的話，對(duì)遇到的每一種新的網(wǎng)絡(luò)通信，個(gè)人防火墻都會(huì)提示用戶一次，詢問如何處理那種通信。然后個(gè)人防火墻便記住響應(yīng)方式，并應(yīng)用于以后遇到的相同那種網(wǎng)絡(luò)通信。

例如，如果用戶已經(jīng)安裝了一臺(tái)個(gè)人Web服務(wù)器，個(gè)人防火墻可能將第一個(gè)傳入的Web連接作上標(biāo)志，并詢問用戶是否允許它通過。用戶可能允許所有的Web連接、來自某些特定IP地址范圍的連接等，個(gè)人防火墻然后把這條規(guī)則應(yīng)用于所有傳入的Web連接。

基本上，你可以將個(gè)人防火墻想象成在用戶計(jì)算機(jī)上建立了一個(gè)虛擬網(wǎng)絡(luò)接口。不再是計(jì)算機(jī)的操作系統(tǒng)直接通過網(wǎng)卡進(jìn)行通信，而是以操作系統(tǒng)通過和個(gè)人防火墻對(duì)話，仔細(xì)檢查網(wǎng)絡(luò)通信，然后再通過網(wǎng)卡通信。

6) Web應(yīng)用防火墻

Web應(yīng)用防火墻是通過執(zhí)行一系列針對(duì)HTTP/HTTPS的來專門為Web應(yīng)用提供保護(hù)的一款產(chǎn)品，當(dāng)WEB應(yīng)用越來越為豐富的同時(shí)，WEB 服務(wù)器以其強(qiáng)大的計(jì)算能力、處理性能及蘊(yùn)含的較高價(jià)值逐漸成為主要攻擊目標(biāo)。SQL注入、網(wǎng)頁(yè)篡改、網(wǎng)頁(yè)掛馬等安全事件，頻繁發(fā)生。因此誕生了針對(duì)這一些安全隱患的防火墻，與上述防火墻不同，WAF工作在應(yīng)用層，因此對(duì)Web應(yīng)用防護(hù)具有先天的技術(shù)優(yōu)勢(shì)。基于對(duì)Web應(yīng)用業(yè)務(wù)和邏輯的深刻理解，WAF對(duì)來自Web應(yīng)用程序客戶端的各類請(qǐng)求進(jìn)行內(nèi)容檢測(cè)和驗(yàn)證，確保其安全性與合法性，對(duì)非法的請(qǐng)求予以實(shí)時(shí)阻斷，從而對(duì)各類網(wǎng)站站點(diǎn)進(jìn)行有效防護(hù)。

主要特點(diǎn)：

WAF不僅僅只是防御Web的http訪問，可以對(duì)Web應(yīng)用做到全方位的立體防護(hù)。可以防范：

· 常見的命令注入攻擊，利用網(wǎng)頁(yè)漏洞將含有操作系統(tǒng)或軟件平臺(tái)命令注入到網(wǎng)頁(yè)訪問語(yǔ)句中以盜取數(shù)據(jù)或后端服務(wù)器的控制權(quán)

· SQL 注入，找到數(shù)據(jù)查詢語(yǔ)句漏洞，通過數(shù)據(jù)庫(kù)查詢代碼竊取或修改數(shù)據(jù)庫(kù)中的數(shù)據(jù)

· 跨站腳本攻擊，利用網(wǎng)站漏洞攻擊訪問該站點(diǎn)的用戶，用戶登陸或認(rèn)證信息；

· 各種HTTP 協(xié)議攻擊，利用http的協(xié)議漏洞進(jìn)行攻擊；

· 機(jī)器人、爬蟲和掃描，通過機(jī)器人，爬蟲，和掃描工具自動(dòng)抓取網(wǎng)站數(shù)據(jù)以及對(duì)網(wǎng)站進(jìn)行自動(dòng)攻擊；

· 常見的應(yīng)用程序配置錯(cuò)誤（如 Apache、 IIS 等），利用Web發(fā)布程序的配置漏洞或者已知bug進(jìn)行攻擊

主要功能：

①防攻擊：功能主要關(guān)注Web應(yīng)用并試圖入侵網(wǎng)絡(luò)服務(wù)器的攻擊事件過程。可以覆蓋OWASP TOP 10、WASC、PCI DSS等標(biāo)準(zhǔn)，包括、、攻擊等。

②防漏洞：可對(duì)網(wǎng)站中的敏感信息、服務(wù)器信息進(jìn)行屏蔽或偽裝，達(dá)到避免數(shù)據(jù)泄露的隱患。成功的攻擊往往需要利用服務(wù)器的IP、操作系統(tǒng)信息、應(yīng)用信息、服務(wù)器出錯(cuò)信息、數(shù)據(jù)庫(kù)出錯(cuò)信息，KS-WAF接管所有返回給客戶端的信息，并可中止會(huì)話，避免黑客利用敏感信息及服務(wù)器信息發(fā)動(dòng)攻擊、各類黑客入侵攻擊。

③防掛馬：隨著監(jiān)管部門的打擊力度逐漸加強(qiáng)，掛馬攻擊的數(shù)量越來越少，與此同時(shí)，地下逐漸轉(zhuǎn)向了。為了應(yīng)對(duì)這個(gè)情況，KS-WAF系統(tǒng)內(nèi)置了針對(duì)當(dāng)前流行的暗鏈攻擊建立的惡意指紋庫(kù)，在服務(wù)器端已被植入暗鏈的情況下可準(zhǔn)確識(shí)別并進(jìn)行報(bào)警，協(xié)助管理員清除暗鏈代碼。

④URL檢測(cè)：通過實(shí)現(xiàn)URL級(jí)別的，對(duì)客戶端請(qǐng)求進(jìn)行檢測(cè)，如果發(fā)現(xiàn)圖片、文件等資源信息的來自于其它網(wǎng)站，則阻止請(qǐng)求，節(jié)省因盜用資源鏈接而消耗的帶寬和性能。

⑤防爬蟲：將爬蟲行為分為搜索引擎爬蟲及掃描程序爬蟲，可屏蔽特定的搜索引擎爬蟲節(jié)省帶寬和性能，也可屏蔽掃描程序爬蟲，避免網(wǎng)站被惡意抓取頁(yè)面。

⑥防掛馬：通過檢查HTML頁(yè)面中特征、用戶提交數(shù)據(jù)，查看是否出現(xiàn)、Javascript引用掛馬源URL及其他掛馬特征以決定是否攔截請(qǐng)求。

⑦抗DDos：支持TCP Flood和HTTP Flood類型的拒絕服務(wù)攻擊，通過簡(jiǎn)單有效的方式緩解拒絕服務(wù)攻擊。

⑨攻擊源定位：通過記錄攻擊者的源IP，進(jìn)行分析和定位后，通過進(jìn)行定位展現(xiàn)，幫助運(yùn)維攻擊來源。

7) 下一代防火墻

上面所述的幾乎都是傳統(tǒng)意義的防火墻，下一代是一款可以全面應(yīng)對(duì)應(yīng)用層威脅的高性能。通過深入洞察網(wǎng)絡(luò)流量中的用戶、應(yīng)用和內(nèi)容，并借助全新的高性能單路徑異構(gòu)并行處理，能夠?yàn)橛脩籼峁┯行У膽?yīng)用層一體化安全防護(hù)，幫助用戶安全地開展業(yè)務(wù)并簡(jiǎn)化用戶的架構(gòu)。

下一代防火墻和傳統(tǒng)防火墻的區(qū)別：

下一代防火墻是一款可以全面應(yīng)對(duì)應(yīng)用層威脅的高性能防火墻。通過深入洞察網(wǎng)絡(luò)流量中的用戶、應(yīng)用和內(nèi)容，并借助全新的高性能單路徑異構(gòu)并行處理引擎，能夠?yàn)橛脩籼峁┯行У膽?yīng)用層一體化安全防護(hù)，幫助用戶安全地開展業(yè)務(wù)并簡(jiǎn)化用戶的網(wǎng)絡(luò)安全架構(gòu)。

傳統(tǒng)防火墻功能：具有數(shù)據(jù)包過濾、網(wǎng)絡(luò)地址轉(zhuǎn)換（NAT）、協(xié)議狀態(tài)檢查以及VPN功能等功能。相對(duì)而言，下一代防火墻檢測(cè)更加細(xì)。

下一代防火墻自身屬性：

(1) 標(biāo)準(zhǔn)的第一代防火墻功能：具有、（NAT）、協(xié)議狀態(tài)檢查以及VPN功能等。

(2) 集成式而非托管式網(wǎng)絡(luò)入侵防御：支持基于漏洞的簽名與基于威脅的簽名。IPS與防火墻間的協(xié)作所獲得的性能要遠(yuǎn)高于部件的疊加，如：提供推薦防火墻規(guī)則，以阻止持續(xù)某一載入IPS及有害流量的地址。這就證明，在下一代防火墻中，互相關(guān)聯(lián)作用的是防火墻而非由操作人員在控制臺(tái)制定與執(zhí)行各種解決方案。高質(zhì)量的集成式IPS引擎與簽名也是下一代防火墻的主要特性。所謂集成可將諸多特性集合在一起，如：根據(jù)針對(duì)注入惡意軟件網(wǎng)站的IPS檢測(cè)向防火墻提供推薦阻止的地址。

(3) 業(yè)務(wù)識(shí)別與全棧可視性：采用非端口與協(xié)議vs僅端口、協(xié)議與服務(wù)的方式，識(shí)別應(yīng)用程序并在執(zhí)行網(wǎng)絡(luò)安全策略。

(4) 超級(jí)智能的防火墻: 可收集防火墻外的各類信息，用于改進(jìn)阻止決策，或作為優(yōu)化阻止規(guī)則的基礎(chǔ)。范例中還包括利用目錄集成來強(qiáng)化根據(jù)用戶身份實(shí)施的阻止或根據(jù)地址編制黑名單與白名單。

(5) 支持新信息流與新技術(shù)的集成路徑升級(jí)，以應(yīng)對(duì)未來出現(xiàn)的各種威脅。

下一代防火墻工作流程：

數(shù)據(jù)包入站處理階段

入站主要完成數(shù)據(jù)包的接收及L2-L4層的數(shù)據(jù)包解析過程，并且根據(jù)解析結(jié)果決定是否需要進(jìn)入處理流程，否則該數(shù)據(jù)包就會(huì)被丟棄。在這個(gè)過程中還會(huì)判斷是否經(jīng)過VPN，如果是，則會(huì)先進(jìn)行解密后再做進(jìn)一步解析。

主引擎處理階段

主引擎處理大致會(huì)經(jīng)歷三個(gè)過程：策略匹配及創(chuàng)建會(huì)話、應(yīng)用識(shí)別、內(nèi)容檢測(cè)。創(chuàng)建會(huì)話信息。當(dāng)數(shù)據(jù)包進(jìn)入主引擎后，首先會(huì)進(jìn)行會(huì)話查找，看是否存在該數(shù)據(jù)包相關(guān)的會(huì)話。如果存在，則會(huì)依據(jù)已經(jīng)設(shè)定的策略進(jìn)行匹配和對(duì)應(yīng)。否則就需要?jiǎng)?chuàng)建會(huì)話。具體步驟簡(jiǎn)述為：進(jìn)行轉(zhuǎn)發(fā)相關(guān)的信息查找;而后進(jìn)行NAT相關(guān)的查找;最后進(jìn)行防火墻的策略查找，檢查策略是否允許。如果允許則按照之前的建立對(duì)應(yīng)的會(huì)話，如果不允許則丟棄該數(shù)據(jù)包。

應(yīng)用識(shí)別

數(shù)據(jù)包進(jìn)行完初始的防火墻匹配并創(chuàng)建對(duì)應(yīng)會(huì)話信息后，會(huì)進(jìn)行應(yīng)用識(shí)別檢測(cè)和處理，如果該應(yīng)用為已經(jīng)可識(shí)別的應(yīng)用，則對(duì)此應(yīng)用進(jìn)行識(shí)別和標(biāo)記并直接進(jìn)入下一個(gè)處理流程。如果該應(yīng)用為未識(shí)別應(yīng)用，則需要進(jìn)行應(yīng)用識(shí)別子流程，對(duì)應(yīng)用進(jìn)行特征匹配，協(xié)議解碼，行為分析等處理從而標(biāo)記該應(yīng)用。應(yīng)用標(biāo)記完成后，會(huì)查找對(duì)應(yīng)的應(yīng)用，如果策略允許則準(zhǔn)備下一階段流程;如果策略不允許，則直接丟棄。

內(nèi)容檢測(cè)

主引擎工作的最后一個(gè)流程為內(nèi)容檢測(cè)流程，主要是需要對(duì)數(shù)據(jù)包進(jìn)行深層次的協(xié)議解碼、內(nèi)容解析、等操作，實(shí)現(xiàn)對(duì)數(shù)據(jù)包內(nèi)容的完全解析;然后通過查找相對(duì)應(yīng)的內(nèi)容安全策略進(jìn)行匹配，最后依據(jù)安全策略執(zhí)行諸如：丟棄、報(bào)警、記錄日志等動(dòng)作。

數(shù)據(jù)包出站處理階段

當(dāng)數(shù)據(jù)包經(jīng)過內(nèi)容檢測(cè)模塊后，會(huì)進(jìn)入出站處理流程。首先系統(tǒng)會(huì)路由等信息查找，然后執(zhí)行QOS，IP數(shù)據(jù)包分片的操作，如果該數(shù)據(jù)走VPN通道的話，還需要通過VPN加密，最后進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā)。

與統(tǒng)一策略的關(guān)系

統(tǒng)一策略實(shí)際上是通過同一套安全策略將處于不同層級(jí)的安全模塊有效地整合在一起，在策略匹配順序及層次上實(shí)現(xiàn)系統(tǒng)智能匹配，其主要的目的是為了提供更好的。舉個(gè)例子：有些產(chǎn)品HTTP的檢測(cè)，URL過濾是通過代理模塊做的，而其他協(xié)議的是用另外的引擎。用戶必須明白這些模塊間的依賴關(guān)系，分別做出正確的購(gòu)置才能達(dá)到需要的功能，而統(tǒng)一策略可以有效的解決上述問題。

二、防火墻是否能阻擋住黑客攻擊？

答案：是否定的

下面我就說說原由！！！

首先傳統(tǒng)防火墻的缺陷：

1.傳統(tǒng)防火墻的并發(fā)連接數(shù)限制容易導(dǎo)致?lián)砣蛘咭绯?

由于要判斷、處理流經(jīng)防火墻的每一個(gè)包，因此防火墻在某些流量大、并發(fā)請(qǐng)求多的情況下，很容易導(dǎo)致?lián)砣蔀檎麄€(gè)網(wǎng)絡(luò)的瓶頸影響性能。而當(dāng)防火墻溢出的時(shí)候，整個(gè)防線就如同虛設(shè)，原本被禁止的連接也能從容通過了。

2.傳統(tǒng)防火墻對(duì)服務(wù)器合法開放的端口的攻擊大多無法阻止

某些情況下，攻擊者利用服務(wù)器提供的服務(wù)進(jìn)行缺陷攻擊。例如利用開放了3389端口取得沒打過sp補(bǔ)丁的win2k的超級(jí)權(quán)限、利用asp程序進(jìn)行腳本攻擊等。由于其行為在防火墻一級(jí)看來是"合理"和"合法"的，因此就被簡(jiǎn)單地放行了。

3.傳統(tǒng)防火墻對(duì)待內(nèi)部主動(dòng)發(fā)起連接的攻擊一般無法阻止

"外緊內(nèi)松"是一般局域網(wǎng)絡(luò)的特點(diǎn)。或許一道嚴(yán)密防守的防火墻內(nèi)部的網(wǎng)絡(luò)是一片混亂也有可能。通過社會(huì)工程學(xué)發(fā)送帶木馬的郵件、帶木馬的URL等方式，然后由中木馬的機(jī)器主動(dòng)對(duì)攻擊者連接，將鐵壁一樣的防火墻瞬間破壞掉。另外，防火墻內(nèi)部各主機(jī)間的攻擊行為，防火墻也只有如旁觀者一樣冷視而愛莫能助。

4.傳統(tǒng)防火墻不處理病毒

不管是funlove病毒也好，還是CIH也好。在內(nèi)部網(wǎng)絡(luò)用戶下載外網(wǎng)的帶毒文件的時(shí)候，防火墻是不為所動(dòng)的（這里的防火墻不是指單機(jī)/企業(yè)級(jí)的殺毒軟件中的實(shí)時(shí)監(jiān)控功能，雖然它們不少都叫"病毒防火墻"）。

下一代防火墻：

1.可以阻斷網(wǎng)絡(luò)攻擊，但不能消滅攻擊源。

防火墻能夠阻擋一定的網(wǎng)絡(luò)攻擊，但是無法清除攻擊源。即使防火墻進(jìn)行了良好的設(shè)置，使得攻擊無法穿透防火墻，但各種攻擊仍然會(huì)源源不斷地向防火墻發(fā)出嘗試。例如接主干網(wǎng)10M網(wǎng)絡(luò)帶寬的某站點(diǎn)，其日常流量中平均有512K左右是攻擊行為。那么，即使成功設(shè)置了防火墻后，這512K的攻擊流量依然不會(huì)有絲毫減少。

2.不能抵抗最新的未設(shè)置策略的攻擊漏洞

就如殺毒軟件與病毒一樣，總是先出現(xiàn)病毒，殺毒軟件經(jīng)過分析出特征碼后加入到病毒庫(kù)內(nèi)才能查殺。防火墻的各種策略，也是在該攻擊方式經(jīng)過專家分析后給出其特征進(jìn)而設(shè)置的。如果世界上新發(fā)現(xiàn)某個(gè)主機(jī)漏洞的cracker的把第一個(gè)攻擊對(duì)象選中了您的網(wǎng)絡(luò)，那么防火墻也沒有辦法幫到您的。

3.本身也會(huì)出現(xiàn)問題和受到攻擊

防火墻也是一個(gè)os，也有著其硬件系統(tǒng)和軟件，因此依然有著漏洞和bug。所以其本身也可能受到攻擊和出現(xiàn)軟/硬件方面的故障。

4.同樣對(duì)待內(nèi)網(wǎng)攻擊也是無法完全抵御

介紹了這么多，我相信大家應(yīng)該也理解了，防火墻是入侵者進(jìn)入的第一道安全防線，主要解決了經(jīng)過防火墻的網(wǎng)絡(luò)傳播途徑的部分入侵攻擊問題，而通過物理傳播途徑，內(nèi)網(wǎng)傳播途徑的攻擊就會(huì)很難解決，因此本篇文章希望通過我的介紹讓大家多了解防火墻這門安全技術(shù)和安全知識(shí)，提高咱們自身的信息安全意識(shí)，任何技術(shù)都有漏洞，有了漏洞必然就有機(jī)會(huì)攻克。所以我們需要擁有掌握技術(shù)的同時(shí)，更應(yīng)該提高自身信息安全意識(shí)。

比Python，JavaScript才是更適合寫爬蟲的語(yǔ)言。原因有如下三個(gè)方面：

JavaScript異步IO機(jī)制適用于爬蟲這種IO密集型任務(wù)。JavaScript中的回調(diào)非常自然，使用異步網(wǎng)絡(luò)請(qǐng)求能夠充分利用CPU。
JavaScript中的jQuery毫無疑問是最強(qiáng)悍的HTML解析工具，使用JavaScript寫爬蟲能夠減少學(xué)習(xí)負(fù)擔(dān)和記憶負(fù)擔(dān)。雖然Python中有PyQuery，但終究還是比不上jQuery自然。
爬取結(jié)果多為JSON，JavaScript是最適合處理JSON的語(yǔ)言。

一、任務(wù)：爬取用戶在Github上的repo信息

通過實(shí)例的方式學(xué)習(xí)爬蟲是最好的方法，先定一個(gè)小目標(biāo)：爬取github repo信息。入口URL如下，我們只需要一直點(diǎn)擊next按鈕就能夠遍歷到用戶的所有repo。

https://github.com/{{username}}?tab=repositories

獲取repo之后，可以做什么？

統(tǒng)計(jì)用戶最常使用的語(yǔ)言，統(tǒng)計(jì)用戶語(yǔ)言使用分布情況統(tǒng)計(jì)用戶所獲取的star數(shù)，fork數(shù)

二、爬蟲雙股劍：axios和jQuery

axios是JavaScript中很常用的異步網(wǎng)絡(luò)請(qǐng)求庫(kù)，相比jQuery，它更輕量、更專業(yè)。既能夠用于瀏覽器端，也可以用于Node。它的語(yǔ)法風(fēng)格是promise形式的。在本任務(wù)中，只需要了解如下用法就足夠了：

axios.get(url).then((resp) => {
 請(qǐng)求成功，處理resp.data中的html數(shù)據(jù)
}).catch((err) => {
 請(qǐng)求失敗，錯(cuò)誤處理
})

請(qǐng)求之后需要處理回復(fù)結(jié)果，處理回復(fù)結(jié)果的庫(kù)當(dāng)然是用jQuery。實(shí)際上，我們有更好的選擇：cheerio。

在node下，使用jQuery，需要使用jsdom庫(kù)模擬一個(gè)window對(duì)象，這種方法效率較低，四個(gè)字形容就是：笨重穩(wěn)妥。

如下代碼使用jQuery解析haha.html文件

fs = require("fs")
jquery=require('jquery')
jsdom=require('jsdom') //fs.readFileSync()返回結(jié)果是一個(gè)buffer，相當(dāng)于byte[] 
html = fs.readFileSync('haha.html').toString('utf8') 
dom= new jsdom.JSDOM(html) 
$=jquery(dom.window) console.log($('h1'))

cheerio只實(shí)現(xiàn)了jQuery中的DOM部分，相當(dāng)于jQuery的一個(gè)子集。cheerio的語(yǔ)法和jQuery完全一致，在使用cheerio時(shí)，幾乎感覺不到它和jQuery的差異。在解析HTML方面，毫無疑問，cheerio是更好的選擇。如下代碼使用cheerio解析haha.html文件。

cheerio=require('cheerio')
html=require('fs').readFileSync("haha.html").toString('utf8')
$=cheerio.load(html)
console.log($('h1'))

只需20余行，便可實(shí)現(xiàn)簡(jiǎn)單的github爬蟲，此爬蟲只爬取了一頁(yè)repo列表。

var axios = require("axios")
var cheerio = require("cheerio")
axios.get("https://github.com/weiyinfu?tab=repositories").then(resp => {
 var $ = cheerio.load(resp.data)
 var lis = $("#user-repositories-list li")
 var repos = []
 for (var i = 0; i < lis.length; i++) {
 var li = lis.eq(i)
 var repo = {
 repoName: li.find("h3").text().trim(),
 repoUrl: li.find("h3 a").attr("href").trim(),
 repoDesc: li.find("p").text().trim(),
 language: li.find("[itemprop=programmingLanguage]").text().trim(),
 star: li.find(".muted-link.mr-3").eq(0).text().trim(),
 fork: li.find(".muted-link.mr-3").eq(1).text().trim(),
 forkedFrom: li.find(".f6.text-gray.mb-1 a").text().trim()
 }
 repos.push(repo)
 }
 console.log(repos)
})

三、更豐富的功能

爬蟲不是目的，而是達(dá)成目的的一種手段。獲取數(shù)據(jù)也不是目的，從數(shù)據(jù)中提取統(tǒng)計(jì)信息并呈現(xiàn)給人才是最終目的。

在github爬蟲的基礎(chǔ)上，我們可以擴(kuò)展出更加豐富的功能：使用echarts等圖表展示結(jié)果。

要想讓更多人使用此爬蟲工具獲取自己的github統(tǒng)計(jì)信息，就需要將做成一個(gè)網(wǎng)站的形式，通過搜索頁(yè)面輸入用戶名，啟動(dòng)爬蟲立即爬取github信息，然后使用echarts進(jìn)行統(tǒng)計(jì)展示。網(wǎng)站肯定也要用js作為后端，這樣才能和js爬蟲無縫銜接，不然還要考慮跨語(yǔ)言調(diào)用。js后端有兩大web框架express和koa，二者API非常相似，并無優(yōu)劣之分，但express更加流行。

如上設(shè)計(jì)有一處用戶體驗(yàn)不佳的地方：當(dāng)啟動(dòng)爬蟲爬取github信息時(shí)，用戶可能需要等待好幾秒，這個(gè)過程不能讓用戶干等著。一種解決思路是：讓用戶看到爬蟲爬取的進(jìn)度或者爬取過程。可以通過websocket向用戶推送爬取過程信息并在前端進(jìn)行展示。展示時(shí)，使用類似控制臺(tái)的界面進(jìn)行展示。

如何存儲(chǔ)爬取到的數(shù)據(jù)呢？使用MongoDB或者文件都可以，最好實(shí)現(xiàn)兩種存儲(chǔ)方式，讓系統(tǒng)的存儲(chǔ)方式變得可配置。使用MongoDB時(shí)，用到j(luò)s中的連接池框架generic-pool。

整個(gè)項(xiàng)目用到的庫(kù)包括：

express：后端框架
cheerio+axios：爬蟲
ws：websocket展示爬取過程
webpack：打包工具
less：樣式語(yǔ)言
echarts：圖表展示
vue：模板渲染
jquery：DOM操作
mongodb：存儲(chǔ)數(shù)據(jù)
generic-pool：數(shù)據(jù)庫(kù)連接池

試用地址：

https://weiyinfu.cn/githubstatistic/search.html?

案例地址：https://github.com/weiyinfu/GithubStatistic

原文鏈接：https://zhuanlan.zhihu.com/p/53763115

在線咨詢

上一篇：通過html2canvas+jspdf將html頁(yè)面生成PDF下載
下一篇：契約鎖UKey電子簽章，無需部署，即刻享受電子簽署的便捷體驗(yàn)

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營(yíng)銷服務(wù)商