整合營(yíng)銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          Web 防爬指南

          至少讓其更難抓取)

          這篇文章我翻譯自:https://github.com/JonasCz/How-To-Prevent-Scraping,因?yàn)樽罱诳匆恍┓磁赖馁Y料,無意間在 Github 發(fā)現(xiàn)這篇文章,我覺得寫很全面,所以想要翻譯一下,順便進(jìn)行吸收。另外讓我覺得非常贊的是這個(gè)文章從服務(wù)端和前端的角度都做了分析,我們應(yīng)該從哪些點(diǎn)去做優(yōu)化,而且每個(gè)點(diǎn)都舉了例子,有些還給出了注意點(diǎn)。雖然文中有些提到的一些點(diǎn)很基礎(chǔ),也有很多我們目前在業(yè)務(wù)中也在使用,但是我還是從中吸收到了一些新東西,里面文中外部鏈接有很多,但是公眾號(hào)這里不允許外鏈,所以大家可以點(diǎn)擊文末最后的"閱讀原文"到 Github 去查看,Github Markdown 的排版可能也比這里更好 : )。

          (最后,有些倉(cāng)促,可能有些注意不到的措別字,還請(qǐng)多多包涵)

          提示:這篇文章是我 Stack Overflow 這個(gè)問題回答的擴(kuò)展,我把它整理在 Github 因?yàn)樗鼘?shí)在是太長(zhǎng)了,超過了 Stack Overflow 的字?jǐn)?shù)限制(最多 3 萬個(gè)字,這文章已經(jīng)超過 4 萬字)

          歡迎大家修改、完善還有分享,本文使用 CC-BY-SA 3.0 許可。

          本質(zhì)上說,防抓的目的在于增加腳本或機(jī)器獲取你網(wǎng)站內(nèi)容的難度,而不要影響真實(shí)用戶的使用或搜索引擎的收錄

          不幸的是這挺難的,你需要在防抓和降低真實(shí)用戶以及搜索引擎的可訪問性之間做一下權(quán)衡。

          為了防爬(也稱為網(wǎng)頁(yè)抓取、屏幕抓取、網(wǎng)站數(shù)據(jù)挖掘、網(wǎng)站收割或者網(wǎng)站數(shù)據(jù)獲取),了解他們的工作原理很重要,這能防止他們能高效爬取,這個(gè)就是這篇文章的主要內(nèi)容。

          通常情況下,抓取程序的目的是為了獲取你網(wǎng)站特定的信息,比如文章內(nèi)容、搜索結(jié)果、產(chǎn)品詳情還有網(wǎng)站上藝術(shù)家或者相冊(cè)信息。他們爬取這些內(nèi)容用于維護(hù)他們自己的網(wǎng)站(甚至通過你的內(nèi)容賺錢!),或者制作和你網(wǎng)站不一樣的前端界面(比如去做移動(dòng) APP),還有一些可能作為個(gè)人研究或分析使用。

          實(shí)際上,有特別多的爬蟲類型,而且他們的爬取方式都不太相同:

          • 蜘蛛,比如 Google's bot 或者網(wǎng)站復(fù)制工具 HTtrack,他們?cè)L問你的網(wǎng)站,而且在頁(yè)面中尋找鏈接后遞歸的去爬取以獲取頁(yè)面的數(shù)據(jù)。有時(shí)候他們只用于獲取特定數(shù)據(jù),而不會(huì)全部爬取,通常結(jié)合 HTML 分析器在頁(yè)面中獲取想要的數(shù)據(jù)。
          • Shell 腳本,有時(shí)候,通用的 Unix 工具也被用來爬取:wget 或者 curl 用于下載頁(yè)面,用 Grep (Regex) 去分析獲取想要的數(shù)據(jù),一般都會(huì)寫一個(gè) Shell 腳本。這些都是最簡(jiǎn)單的爬蟲,也是最脆弱的一類爬蟲(Don't ever try parse HTML with regex !),所以是最早發(fā)現(xiàn)和防范的爬蟲。
          • HTML 爬取器和分析器,會(huì)基于 Jsoup、Scrapy 還有其他一些工具。和 shell 腳本基于正則類似,他們呢基于特定模式(pattern)分析你的 HTML 結(jié)構(gòu)從而獲取想要的數(shù)據(jù)。舉個(gè)例子:如果你的網(wǎng)站有搜索功能,那這個(gè)爬蟲可能會(huì)模擬提交一個(gè)搜索的 HTTP 請(qǐng)求,然后從搜索結(jié)果頁(yè)中獲取所有的鏈接和標(biāo)題,有時(shí)候會(huì)構(gòu)造有成千上百不同的請(qǐng)求,只是為了獲取標(biāo)題和鏈接而已。這是最常見的一類爬蟲。
          • 屏幕爬取,比如會(huì)基于 Selenium 或者 PhantomJS,他們實(shí)際上會(huì)通過真實(shí)瀏覽器打開你的網(wǎng)站,因此也會(huì)運(yùn)行你網(wǎng)站的 JavaScript、AJAX 或者其他的,然后他們從你的頁(yè)面獲取自己想要的文本內(nèi)容,通常:基于瀏覽器的爬取很難處理,他們運(yùn)行腳本,渲染 HTML,就像真實(shí)用戶一樣訪問你的網(wǎng)站。
            • 等頁(yè)面加載完畢, JavaScript 也執(zhí)行之后,從瀏覽器獲取 HTML 結(jié)構(gòu),然后用 HTML 分析器去獲取想要的數(shù)據(jù)或者文本。這是常見做法,所以有很多方法可以防止這類 HTML 分析器或爬蟲。
            • 獲取加載完頁(yè)面的屏幕截圖,然后使用 OCR 分析從截屏中獲取想要的數(shù)據(jù)。這類不唱將,而且只有非常想要你網(wǎng)站內(nèi)容的爬蟲才會(huì)使用。
          • Web爬取服務(wù),比如 ScrapingHub 或者 Kimono。實(shí)際上,很多人的工作就是找出如何爬取你的頁(yè)面獲取其中內(nèi)容并給其他人使用。他們又是會(huì)用大量的代理甚至修改 IP 地址來繞過頻率限制和封禁,所以他們反爬的關(guān)鍵對(duì)象。毫無疑問,防止專業(yè)的爬取服務(wù)是非常困難的,但是如果你增加爬取的難度,或者增加他們找出爬取方法的時(shí)間,那這些人(或者付錢讓他們做的人)可能會(huì)放棄爬取你的網(wǎng)站。
          • 把你的網(wǎng)站頁(yè)面通過 frames 嵌入其他站點(diǎn),或者把你的頁(yè)面嵌入移動(dòng) APP。雖然沒有什么技術(shù)含量,但是確實(shí)也是個(gè)問題,比如移動(dòng) APP(Android 和 iOS)可以嵌入你的網(wǎng)站,甚至可以注入一些自定義的 CSS 和 JavaScript,所以可以完全改變你網(wǎng)站的外觀,然后只展示想要的信息,比如只展示文章內(nèi)容或者搜索結(jié)果,然后隱藏你網(wǎng)站的 headers、footers 還有廣告。
          • 人肉復(fù)制粘貼:人肉復(fù)制和粘貼你網(wǎng)站的內(nèi)容到其他地方。很遺憾,這個(gè)沒有好的方法加以防范。

          以上不同的爬蟲類型有很多相同點(diǎn),很多爬蟲的行為也很相似,即使他們使用了不同的技術(shù)或者方案去爬取你的內(nèi)容。

          這些大多數(shù)都是我自己的想法,我在寫爬蟲時(shí)也遇到許多困難,還有一些是來源于網(wǎng)絡(luò)。

          如何反爬

          一些常見的檢測(cè)和防止爬蟲的方法:

          監(jiān)控你的日志和請(qǐng)求;當(dāng)發(fā)現(xiàn)異常行為時(shí)限制訪問

          周期性的檢查你的日志,如果發(fā)現(xiàn)有異常活動(dòng)表明是自動(dòng)爬取(爬蟲),類似某一個(gè)相同的 IP 很多相同的行為,那你就可以阻止或限制訪問。

          一些常用的方法:

          • 頻率限制
          • 只 允許用戶(或爬蟲)在一段時(shí)間內(nèi)訪問特定的次數(shù),舉個(gè)例子,某個(gè) IP 或用戶只允許一分鐘搜索很少的次數(shù)。 這個(gè)會(huì)減慢爬蟲的爬取速度,讓他們變得低效。 如果次數(shù)特別多或者比真實(shí)用戶多很多,那你也可以顯示驗(yàn)證碼頁(yè)面。
          • 檢測(cè)異常行為如果你能看到異常行為,比如同一個(gè) IP 有很多相同的請(qǐng)求,有些會(huì)翻很多頁(yè)或者訪問一些異常的頁(yè)碼,你可以拒絕訪問或者在后續(xù)的請(qǐng)求中展示驗(yàn)證碼。
        1. 不要只通過 IP 檢測(cè)和限制,也要用其他的用戶標(biāo)識(shí)如果你做了訪問限制或頻率限制,不要只簡(jiǎn)單的根據(jù)單個(gè) IP 地址去做;你可以通過其他的標(biāo)識(shí)和方法去識(shí)別一個(gè)用戶或爬蟲。一些可以幫你識(shí)別用戶/爬蟲的標(biāo)識(shí):
          • 用戶填寫表單的速度,還有他們點(diǎn)擊按鈕的位置
          • 你可以通過 JavaScript 獲取很多信息,比如屏幕的大小 / 分辨率,時(shí)區(qū),安裝的字體等等,你可以用這些去識(shí)別用戶
          • 攜帶的 HTTP 頭,特別是 User-Agent

          舉個(gè)例子,如果某個(gè) IP 請(qǐng)求了你網(wǎng)站很多次,所有的訪問都有相同的 UserAgent 、屏幕尺寸(JavaScript 檢測(cè)),還有全都使用同樣的方式和固定的時(shí)間間隔點(diǎn)擊同一個(gè)按鈕,那它大概是一個(gè)屏幕爬蟲;你可以臨時(shí)限制相似的請(qǐng)求(比如 只限制來自那個(gè) IP 特定 User-Agent 和 屏幕尺寸的請(qǐng)求),這樣你不會(huì)誤傷同樣使用這個(gè) IP 的真實(shí)用戶,比如共享網(wǎng)絡(luò)鏈接的用戶。

          更進(jìn)一步,當(dāng)你發(fā)現(xiàn)相似的請(qǐng)求,但是來自不同的 IP 地址,表明是分布式爬蟲(使用僵尸網(wǎng)絡(luò)或網(wǎng)絡(luò)代理的爬蟲)。如果你收到類似大量的請(qǐng)求,但是他們來自不同的 IP 地址,你可以拒絕訪問。再?gòu)?qiáng)調(diào)一下,小心不經(jīng)意限制了真實(shí)用戶。

          這種方法對(duì)那種運(yùn)行 JavaScript 的屏幕爬蟲比較有效,因?yàn)槟憧梢垣@得他們大量的信息。

          Stack Exchange 上關(guān)于 Secruity 的相關(guān)問題:

          How to uniquely identify users with the same external IP address?

          Why do people use IP address bans when IP addresses often change? 關(guān)于僅使用 IP 的其他限制

        2. 使用驗(yàn)證碼,而不是臨時(shí)限制訪問對(duì)于頻率限制,最簡(jiǎn)單的方式就是臨時(shí)限制訪問,然而使用驗(yàn)證碼會(huì)更好,看下面關(guān)于驗(yàn)證碼的部分。
        3. 要求注冊(cè)和登錄

          如果可行,要求創(chuàng)建用戶才可以查看你的內(nèi)容。這個(gè)可以很好遏制爬蟲,但很容易遏制真實(shí)用戶:

          • 如果你要求必須創(chuàng)建賬戶和登錄,你可以精準(zhǔn)跟蹤用戶和爬蟲的行為。這樣的話,你可以很簡(jiǎn)單就能檢測(cè)到有爬取行為的賬戶,然后封禁它。像頻率限制或檢測(cè)濫用(比如段時(shí)間大量搜索)就變得簡(jiǎn)單,你也可以不僅僅通過 IP 去識(shí)別爬蟲。

          為了防止爬蟲創(chuàng)建大量的用戶,你應(yīng)該:

          • 注冊(cè)時(shí)需要提供 email 地址,發(fā)送一個(gè)驗(yàn)證鏈接到郵箱,而且這個(gè)鏈接必須被打開才可以激活這個(gè)賬戶。一個(gè)郵箱只允許一個(gè)賬戶使用。
          • 在注冊(cè)或創(chuàng)建用戶時(shí),必須通過驗(yàn)證碼驗(yàn)證,為了防止創(chuàng)建用戶的自動(dòng)腳本。

          要求注冊(cè)用戶對(duì)用戶和搜索引擎來說不友好;如果你要求必須注冊(cè)才可以看文章,那用戶也可能直接離開。

          阻止來自云服務(wù)商和抓取服務(wù)的 IP

          有時(shí)爬蟲會(huì)被運(yùn)行在云服務(wù)商,比如 Amazon Web Services 或 Google App Engine,或者其他 VPS。限制這些來自云服務(wù)商的 IP 地址訪問你的網(wǎng)站(或出驗(yàn)證碼)。你可以可以直接對(duì)來自爬取服務(wù)的 IP 地址限制訪問。

          類似的,你也可以限制來自代理或 VPN 的 IP 地址,因?yàn)楹芏嗯老x會(huì)使用它們來防止被檢測(cè)到。

          但是要知道限制來自代理服務(wù)器或 VPN 的 IP,也很容易影響到真實(shí)用戶。

          當(dāng)你封禁時(shí)不要展示具體錯(cuò)誤信息

          如果你要封禁或限制訪問,你應(yīng)該確保不要把導(dǎo)致封禁的原因告訴爬蟲,他們會(huì)根據(jù)提示修改自己的爬蟲程序。所以下面的這些錯(cuò)誤最好不要出現(xiàn):

          • 你的 IP 訪問太多次了,請(qǐng)重試
          • 錯(cuò)誤,沒有 User Agent

          想法的,展示一些不包含原因的友好信息會(huì)更好,比如下面的信息會(huì)更好:

          • 對(duì)不起,有些不對(duì)勁。如果問題持續(xù)出現(xiàn),你可以聯(lián)系 helpdesk@example.com 以獲取支持。

          如果真實(shí)用戶看到這個(gè)錯(cuò)誤頁(yè)面,這個(gè)對(duì)真實(shí)用戶來說也十分友好。在后續(xù)訪問中,你也可以考慮展示驗(yàn)證碼而不是直接封禁,如果真實(shí)用戶看到這個(gè)錯(cuò)誤信息,對(duì)于合法用戶也會(huì)聯(lián)系你。

          如果有爬蟲訪問,請(qǐng)使用驗(yàn)證碼

          驗(yàn)證碼(Captcha,“Completely Automated Test to Tell Computers and Humans Apart”)對(duì)于防爬十分有效。不幸的是,它也很容易惹惱用戶。

          因此,如果你發(fā)現(xiàn)疑似爬蟲,而且想要阻止它的爬取行為,而不是封禁它以免它是真實(shí)用戶。你可以考慮顯示驗(yàn)證碼在你再次允許訪問之前。

          使用驗(yàn)證碼的注意事項(xiàng):

          • 不要造輪子,使用類似 Google 的 reCaptcha 的一些服務(wù):比你自己實(shí)現(xiàn)一套驗(yàn)證碼服務(wù)要簡(jiǎn)單太多,對(duì)于用戶來說,也比識(shí)別模糊或扭曲的文字更友好(用戶一般只需要點(diǎn)擊一下),而且相對(duì)于你自己提供的簡(jiǎn)單驗(yàn)證碼圖片,爬蟲也更難去破解
          • 不要在 HTML 結(jié)構(gòu)中包含驗(yàn)證碼答案:我曾經(jīng)看到過一個(gè)網(wǎng)站在它自己頁(yè)面上有驗(yàn)證碼的答案,(雖然隱藏很好)所以讓驗(yàn)證碼根本就沒有用。不要做類似的事情。再?gòu)?qiáng)調(diào)一次,用像 reCaptcha 的服務(wù),你將不會(huì)有類似的問題(如果你正確地使用它)

          將你的文字轉(zhuǎn)為圖片

          你可以在服務(wù)端將文字渲染成圖片顯示,他將防止簡(jiǎn)單的爬蟲去獲取文字內(nèi)容。

          然而,這個(gè)對(duì)于屏幕閱讀器、搜索引擎、性能還有一些其他一些事情都不太好。這個(gè)在某些方面也是不違法的(源于訪問性問題,eg. the Americans with Disabilities Act),而且對(duì)于一些 OCR 爬蟲也能非常簡(jiǎn)單的規(guī)避,所以不要采用這種方式。

          你也可以用 CSS sprites 做類似的事情,但是也有相同的問題。

          不要暴露你完整的數(shù)據(jù)

          如果可以的話,不要讓腳本/爬蟲能獲取你所有的數(shù)據(jù)。舉個(gè)例子:你有一個(gè)新聞?wù)荆写罅康膫€(gè)人文章。你應(yīng)該確保文章只能通過你自己網(wǎng)站的搜索到,如果你網(wǎng)站不是到處都有你的文章還有鏈接,那么確保它們只能被搜索功能訪問到。這意味著如果一個(gè)腳本想要獲取你網(wǎng)站的所有文章,就必須通過你站點(diǎn)文章中所有可能的短語(yǔ)去進(jìn)行搜索,從而獲取所有的文章列表,但是這個(gè)會(huì)非常耗時(shí),而且低效,從而讓爬蟲放棄。

          以下操作會(huì)讓你完全暴露:

          • 爬蟲/腳本并不想/需要獲取所有的數(shù)據(jù)
          • 你站點(diǎn)文章的鏈接看起來是這種方式 example.com/article.php?articleId=12345 ,這樣做(或類似的其他做法)會(huì)讓爬蟲很簡(jiǎn)單的迭代 articleID 就能獲取你所有的文章
          • 還有一些其他方式獲取所有的文章,比如寫一個(gè)腳本去遞歸的爬取你文章中其他文章的鏈接
          • 搜索一些常用的詞比如 "一" 或者 "的" 將會(huì)暴露幾乎所有的內(nèi)容。所以這點(diǎn)是要注意的(你可以通過只返回 top 10 或 top 20 來避免這個(gè)問題)
          • 你的文章需要被搜索引擎收錄

          不要暴露你的 API、節(jié)點(diǎn)或其他類似的東西

          確保你不會(huì)暴露你的任何 API,很多時(shí)候都是無意間暴露。舉個(gè)例子,如果你正在使用 AJAX 或 Adobe Flash 的網(wǎng)絡(luò)請(qǐng)求 或 Java Applet(千萬不要用!)來加載你的數(shù)據(jù),從這些網(wǎng)絡(luò)請(qǐng)求中找到要請(qǐng)求的 API 十分簡(jiǎn)單,比如可以進(jìn)行反編譯然后在爬蟲程序中使用這些接口。確保你混淆了你的 API 并且其他人要用它會(huì)非常難破解。

          阻止 HTML 解析器和爬取器

          由于 HTML 解析器是通過分析頁(yè)面特定結(jié)構(gòu)去獲取內(nèi)容,我們可以故意修改這些結(jié)構(gòu)來阻止這類爬蟲,甚至從根本上他們獲取內(nèi)容。下面大多數(shù)做法對(duì)其他類型爬蟲如搜索引擎蜘蛛、屏幕爬蟲也有效。

          經(jīng)常修改你的 HTML 結(jié)構(gòu)

          處理 HTML 的爬蟲通過分析特定可識(shí)別的部分來處理 HTML。舉個(gè)例子:如果你所有的頁(yè)面都有 id 為 article-contentdiv 結(jié)構(gòu),然后里面有你的文章內(nèi)容,那要獲取你站點(diǎn)所有文章內(nèi)容是十分簡(jiǎn)單的,只要解析那個(gè) article-content 那個(gè) div 就可以了,然后有這個(gè)結(jié)構(gòu)的爬蟲就可以把你的文章隨便用在什么地方。

          如果你常常修改 HTML 還有你頁(yè)面的結(jié)構(gòu), 那這類爬蟲就不能一直使用。

          • 你可以經(jīng)常修改你 HTML 的 idclass ,甚至讓他能自動(dòng)改變。所以,如果你的 div.article-content 變成 div.a4c36dda13eaf0 ,而且每周都會(huì)變化,那么爬蟲一開始可能能正常工作,但是一周之后就不能使用了。同時(shí)也確保修改你 id/class的長(zhǎng)度,這樣也可以避免爬蟲使用類似 div.[any-14-characters] 來找到想要的 div
          • 如果無法從標(biāo)記中找到所需的內(nèi)容,則抓取工具將通過HTML的結(jié)構(gòu)方式進(jìn)行查找。所以,如果你的所有文章都有類似的結(jié)構(gòu),比如每個(gè) div ,并且里面通過 h1 放文章的標(biāo)題,爬蟲將基于這個(gè)結(jié)構(gòu)獲取文章內(nèi)容。同樣的,為了防止這個(gè),你可以在你的 HTML 添加/刪除 額外的標(biāo)記,周期并且隨機(jī)做,eg. 添加額外的 divspan 。對(duì)于服務(wù)端渲染的程序,這應(yīng)該不會(huì)很難。

          注意事項(xiàng):

          • 它的實(shí)現(xiàn)、維護(hù)和調(diào)試都是很復(fù)雜困難的
          • 你要注意緩存。特別是你修改你 HTML 元素的 id 或 class 時(shí),也要去修改相應(yīng)的 CSS 和 JavaScript 文件,這意味著每次修改都要修改這些,而瀏覽器每次都要重新下載他們。這將導(dǎo)致頁(yè)面打開慢也會(huì)導(dǎo)致服務(wù)端負(fù)載升高。不過這也不是一個(gè)大問題,如果你只是一個(gè)星期改變一次。
          • 聰明的爬蟲仍然能推斷出你文章的位置,比如,頁(yè)面上大塊的文本大概率是文章內(nèi)容。這個(gè)讓爬蟲從頁(yè)面找到、獲取想要的數(shù)據(jù)。Boilerpipe 就是這樣做的。

          本質(zhì)上來說,就是確保爬蟲從相似頁(yè)面獲取想要的內(nèi)容變得不那么容易。

          可以參考這個(gè) PHP 的實(shí)現(xiàn):How to prevent crawlers depending on XPath from getting page contents

          基于用戶地理位置修改 HTML

          這個(gè)和前一個(gè)類似。如果你根據(jù)不同用戶的位置/國(guó)家(根據(jù) IP 獲取)來提供不同的 HTML,這個(gè)可能會(huì)破壞將站點(diǎn) HTML 給用戶的爬蟲。比如,如果有人寫了一個(gè)移動(dòng) APP 來抓取你的站點(diǎn),一開始可以用,但是對(duì)于不同地區(qū)的用戶就不起作用了,因?yàn)樗麄儠?huì)獲取到不同的 HTML 結(jié)構(gòu),嵌入式的 HTML 將不不能正常使用。

          經(jīng)常改變 HTML,并與爬蟲斗智斗勇!

          舉個(gè)例子:你有一個(gè)包含搜索功能的網(wǎng)站, example.com/search?query=somesearchquery 的搜索結(jié)果是下面的 HTML 結(jié)構(gòu):

          <div class="search-result">
          
            <h3 class="search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>
          
            <p class="search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>
          
            <a class"search-result-link" href="/stories/stack-overflow-has-become-the-most-popular">Read more</a>
          
          </div>
          
          (And so on, lots more identically structured divs with search results)
          

          你可以猜到這個(gè)非常容易爬取:一個(gè)爬蟲需要做的就只是訪問搜索鏈接,然后從返回的 HTML 分析想要的數(shù)據(jù)。除了定期修改上面 HTML 的內(nèi)容,你也可以 保留舊結(jié)構(gòu)的 id 和 class,然后使用 CSS 進(jìn)行隱藏,并使用假數(shù)據(jù)進(jìn)行填充,從而給爬蟲投毒 。比如像下面這樣:

          <div class="the-real-search-result">
          
            <h3 class="the-real-search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>
          
            <p class="the-real-search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>
          
            <a class"the-real-search-result-link" href="/stories/stack-overflow-has-become-the-most-popular">Read more</a>
          
          </div>
          
          
          
          
          <div class="search-result" style="display:none">
          
            <h3 class="search-result-title">Visit example.com now, for all the latest Stack Overflow related news !</h3>
          
            <p class="search-result-excerpt">EXAMPLE.COM IS SO AWESOME, VISIT NOW! (Real users of your site will never see this, only the scrapers will.)</p>
          
            <a class"search-result-link" href="http://example.com/">Visit Now !</a>
          
          </div>
          
          (More real search results follow)
          

          這意味著基于 id 或 class 獲取特定數(shù)據(jù)的爬蟲仍然能繼續(xù)工作,但是他們將會(huì)獲取假數(shù)據(jù)甚至廣告,而這些數(shù)據(jù)真實(shí)用戶是看不到的,因?yàn)樗麄儽?CSS 隱藏了。

          與爬蟲斗智斗勇:在頁(yè)面插入假的、不可見的蜜罐數(shù)據(jù)

          對(duì)上個(gè)例子進(jìn)行補(bǔ)充,你可以在你的 HTML 里面增加不可見的蜜罐數(shù)據(jù)來抓住爬蟲。下面的例子來補(bǔ)充之前說的搜索結(jié)果:

          <div class="search-result" style="display:none">
          
            <h3 class="search-result-title">This search result is here to prevent scraping</h3>
          
            <p class="search-result-excerpt">If you're a human and see this, please ignore it. If you're a scraper, please click the link below :-)
          
            Note that clicking the link below will block access to this site for 24 hours.</p>
          
            <a class"search-result-link" href="/scrapertrap/scrapertrap.php">I'm a scraper !</a>
          
          </div>
          
          (The actual, real, search results follow.)
          

          一個(gè)來獲取所有內(nèi)容的爬蟲將會(huì)被找到,就像獲取其他結(jié)果一樣,訪問鏈接,查找想要的內(nèi)容。一個(gè)真人將不會(huì)看到(因?yàn)槭褂?CSS 隱藏),而且更不會(huì)訪問這個(gè)鏈接。而正規(guī)或者期望的蜘蛛比如谷歌的蜘蛛將不會(huì)訪問這個(gè)鏈接,因?yàn)槟憧梢詫?/scrapertrap/ 加入你的 robots.txt 中(不要忘記增加)

          你可以讓你的 scrapertrap.php 做一些比如限制這個(gè) IP 訪問的事情,或者強(qiáng)制這個(gè) IP 之后的請(qǐng)求出驗(yàn)證碼。

          • 不要忘記在你的 robots.txt 中添加禁止訪問 /scrapertrap/ 的規(guī)則避免所有的搜索引擎不會(huì)中招
          • 你可以/應(yīng)該和上個(gè)經(jīng)常更換 HTML 結(jié)構(gòu)的例子一起使用
          • 也要經(jīng)常修改它,因?yàn)榕老x可能會(huì)周期性的了解并不去訪問它。修改蜜罐 URL 和文本。同時(shí)要考慮使用 id 屬性或外部的 CSS 來取代內(nèi)聯(lián)的 CSS,要不然爬蟲將會(huì)學(xué)會(huì)防止爬取所有包含隱藏屬性 style 的節(jié)點(diǎn)。并且只是偶爾啟用它, 這樣爬蟲一開始正常工作,但是過段時(shí)間就不起作用。這個(gè)同樣也適用于上個(gè)例子。
          • 要注意可能會(huì)有惡意的人在論壇發(fā)布像 [img]http://yoursite.com/scrapertrap/scrapertrap.php[img] ,然后當(dāng)正常用戶訪問然后點(diǎn)擊到你的蜜罐鏈接。所以上個(gè)注意事項(xiàng)中經(jīng)常更換你的蜜罐鏈接是非常重要的,當(dāng)然你也可以檢查 Referer。

          當(dāng)識(shí)別為爬蟲時(shí),提供假的或無用的數(shù)據(jù)

          如果你確定某個(gè)訪問是爬蟲,你可以提供假的或者無用的數(shù)據(jù);這將破壞爬蟲從你網(wǎng)站獲取的數(shù)據(jù)。你還應(yīng)該把它和真實(shí)數(shù)據(jù)進(jìn)行混淆,這樣爬蟲就不知道他們獲取的到底是真的還是假的數(shù)據(jù)。

          舉個(gè)例子:如果你有一個(gè)新聞?wù)荆銠z測(cè)到了一個(gè)爬蟲,不要去直接封禁它,而是提供假的或者隨機(jī)生成的文章,那爬蟲獲取的數(shù)據(jù)將會(huì)被破壞。如果你將假數(shù)據(jù)和真實(shí)的數(shù)據(jù)進(jìn)行混淆,那爬蟲很難獲取到他們想要的真實(shí)文章。

          不要接受沒有 UserAgent 的請(qǐng)求

          很多懶惰的程序員不會(huì)在他們的爬蟲發(fā)請(qǐng)求時(shí)帶上 UserAgent,而所有的瀏覽器包括搜索引擎蜘蛛都會(huì)攜帶。

          如果請(qǐng)求你時(shí)沒有攜帶 UserAgent header 頭,你可以展示驗(yàn)證碼,或者直接封禁或者限制訪問(或者像上面說的提供假數(shù)據(jù)或者其他的)

          這個(gè)非常簡(jiǎn)單去避免,但是作為一種針對(duì)書寫不當(dāng)?shù)呐老x,是值得去做的。

          不要接受 UserAgent 是通用爬蟲或在爬蟲黑名單的請(qǐng)求

          很多情況下,爬蟲將會(huì)使用真實(shí)瀏覽器或搜索引擎爬蟲絕對(duì)不會(huì)使用的 UserAgent,比如:

          • "Mozilla" (就只有這個(gè),我曾經(jīng)看到過一些爬蟲的問題用這個(gè),但真實(shí)瀏覽器絕對(duì)不會(huì)用)
          • "Java 1.7.43_u43" (Java 的 HttpUrlConnection 的默認(rèn) UserAgent)
          • "BIZCO EasyScraping Studio 2.0"
          • "wget", "curl", "libcurl",.. (基礎(chǔ)爬蟲有時(shí)候會(huì)用 Wget 和 cURL)

          如果你發(fā)現(xiàn)一些爬蟲使用真實(shí)瀏覽器或合法蜘蛛絕對(duì)不會(huì)使用的 UserAgent,你可以將其添加到你的黑名單中。

          檢查 Referer header 頭

          對(duì)上一章節(jié)的補(bǔ)充,你也可以檢查 [Referer] (https://en.wikipedia.org/wiki/HTTP_referer header) (是的,它是 Referer,而不是 Referrer),一些懶惰的爬蟲可能不會(huì)攜帶的這個(gè),或者只是每次都攜帶一樣的(有時(shí)候是 “google.com”)。舉個(gè)例子,如果用戶是從站內(nèi)搜索結(jié)果頁(yè)點(diǎn)擊進(jìn)入文章詳情的,那要檢查 Referer 這個(gè) header 頭是否存在還要看搜索結(jié)果頁(yè)的打點(diǎn)。

          注意:

          • 真實(shí)瀏覽器并不總是攜帶 Referer;
          • 很容易被避免

          還是,作為一種防止簡(jiǎn)單爬蟲的方法,也值得去實(shí)現(xiàn)。

          如果不請(qǐng)求資源(CSS,images),它可能不是真實(shí)瀏覽器

          一個(gè)真實(shí)瀏覽器(通常)會(huì)請(qǐng)求和下載資源比如 CSS 和 圖片。HTML 解析器和爬取器可能只關(guān)心特定的頁(yè)面和內(nèi)容。

          你可以基于訪問你資源的日志,如果你看到很多請(qǐng)求只請(qǐng)求 HTML,那它可能就是爬蟲。

          注意搜索引擎蜘蛛、舊的移動(dòng)設(shè)備、屏幕閱讀器和設(shè)置錯(cuò)誤的設(shè)備可能也不會(huì)請(qǐng)求資源。

          要求使用 Cookie;使用它們來跟蹤用戶和爬蟲行為

          訪問你網(wǎng)站時(shí),你可以要求 cookie 必須開啟。這個(gè)能識(shí)別沒有經(jīng)驗(yàn)和爬蟲新手,然而爬蟲要攜帶 Cookie 也十分簡(jiǎn)單。如果你要求開啟 Cookie,你能使用它們來追蹤用戶和爬蟲的行為,然后基于此來實(shí)現(xiàn)頻率限制、封禁、或者顯示驗(yàn)證碼而不僅僅依賴 IP 地址。

          舉個(gè)例子:當(dāng)用戶進(jìn)行搜索時(shí),設(shè)置一個(gè)唯一的 Cookie。當(dāng)搜索結(jié)果加載出來之后,驗(yàn)證這個(gè) Cookie。如果一個(gè)用戶打開了所有的搜索結(jié)果(可以從 Cookie 中得知),那很可能就是爬蟲

          使用 Cookie 可能是低效的,因?yàn)榕老x也可以攜帶 Cookie 發(fā)送請(qǐng)求,也可以根據(jù)需要丟棄。如果你的網(wǎng)站只能在開啟 Cookie 時(shí)使用,你也不能關(guān)閉 Cookie 的用戶提供服務(wù)。

          要注意如果你使用 JavaScript 去設(shè)置和檢測(cè) Cookie,你能封禁那些沒有運(yùn)行 JavaScript 的爬蟲,因?yàn)樗鼈儧]辦法獲取和發(fā)送 Cookie。

          使用 JavaScript 和 AJAX 加載內(nèi)容

          你可以在頁(yè)面加載完成之后,使用 JavaScript + AJAX 來加載你的內(nèi)容。這個(gè)對(duì)于那些沒有運(yùn)行 JavaScript 的 HTML 分析器來說將無法取得數(shù)據(jù)。這個(gè)對(duì)于沒有經(jīng)驗(yàn)或者新手程序員寫的爬蟲非常有效。

          注意:

          • 使用 JavaScript 加載內(nèi)容將會(huì)降低用戶體驗(yàn)和性能;
          • 搜索引擎也不會(huì)運(yùn)行 JavaScript,因此不會(huì)對(duì)你的內(nèi)容進(jìn)行收錄。這對(duì)于搜索結(jié)果來說可能不是問題,但是要注意其他頁(yè)面,比如文章頁(yè)面;
          • 寫爬蟲的程序員獲取到加載內(nèi)容的 API 后可以直接使用它

          混淆你的數(shù)據(jù)和網(wǎng)絡(luò)請(qǐng)求,不要讓其直接通過腳本就能獲取

          如果你用 Ajax 和 JavaScript 加載你的數(shù)據(jù),在傳輸?shù)臅r(shí)候要混淆一下。比如,你可以在服務(wù)器端 encode 你的數(shù)據(jù)(比如簡(jiǎn)單的使用 base64 或 負(fù)載一些的多次混淆、位偏移或者是進(jìn)行加密),然后在客戶端在 Ajax 獲取數(shù)據(jù)之后再進(jìn)行 decode。這意味著如果有人要抓包獲取你的請(qǐng)求就不能直接看到你頁(yè)面如何加載數(shù)據(jù),而且那些人也不能直接通過 API 獲得你的數(shù)據(jù),如果想要獲取數(shù)據(jù),就必須要去解密你的算法。

          • 如果你用 Ajax 加載數(shù)據(jù),那你應(yīng)該強(qiáng)制在頁(yè)面加載之后才可以獲取,比如要求獲取數(shù)據(jù)必須包含 session 信息,這些你可以在頁(yè)面加載的時(shí)候嵌入到 JavaScript 或 HTML 中
          • 你也可以直接把混淆的數(shù)據(jù)嵌入到 HTML 中,然后用 JavaScript 去解密然后再顯示它們,這樣的話,你就不需要再使用 Ajax 去做額外的請(qǐng)求。這樣做可以讓那些不運(yùn)行 JavaScript 的 HTML 解析器更難獲取你的數(shù)據(jù),他們必須要反解你的 JavaScript(沒錯(cuò),JavaScript 也要做混淆)
          • 你應(yīng)該經(jīng)常更換混淆方法以免爬蟲找出方法揭秘它

          下面是一些這個(gè)方式的缺點(diǎn):

          • 實(shí)現(xiàn)、維護(hù)和調(diào)試都非常麻煩
          • 雖然讓爬蟲變得不容易抓取,但是對(duì)于截屏類的爬蟲來說,它們實(shí)際上會(huì)運(yùn)行 JavaScript,所以能獲取到數(shù)據(jù)(不過很多簡(jiǎn)單的 HTML 解釋器不會(huì)運(yùn)行 JavaScript)
          • 如果真實(shí)用戶禁用了 JavaScript,那你的網(wǎng)站將不能正常顯示
          • 性能和頁(yè)面加載速度會(huì)受到影響

          其他非技術(shù)做法

          你的服務(wù)器供應(yīng)商可能提供搜索引擎蜘蛛或爬蟲的防御:

          比如,CloudFlare 提供反蜘蛛和反爬蟲的防御,你只需要直接啟用它就可以了,另外 AWS 也提供類似服務(wù)。而且 Apache 的 mod_evasive 模塊也能讓你很輕松地實(shí)現(xiàn)頻率限制。

          直接告訴別人不要抓取,會(huì)有人尊重而且停止抓取

          你應(yīng)該直接告訴人們不要抓取你的網(wǎng)站,比如,在你的服務(wù)條款中表明。有些人確實(shí)會(huì)尊重它,而且不在你允許的情況下不會(huì)再去抓取數(shù)據(jù)。

          尋求律師的援助

          律師們知道如何處理侵犯版權(quán)的事情,而且他們可以發(fā)送律師函。DMCA(譯者注:Digital Millennium Copyright Act,數(shù)字千年版權(quán)法案,是一個(gè)美國(guó)版權(quán)法律) 也能提供援助。

          直接提供 API 獲取你的數(shù)據(jù)

          這看起來適得其反,但是你可以要求標(biāo)明來源并包含返回你站點(diǎn)的鏈接。甚至也可以售賣你的 API 而賺取費(fèi)用。

          還有就是,Stack Exchange 提供了 API,但是必須要標(biāo)明來源。

          其他補(bǔ)充

          • 要在用戶體驗(yàn)和反爬之間做權(quán)衡:你做的每個(gè)舉措都有可能在某種程度上影響用戶體驗(yàn),所以你必須要權(quán)衡和妥協(xié);
          • 不要忘你的移動(dòng)站點(diǎn)和 APP:如果你的站點(diǎn)有移動(dòng)版,要小心爬蟲也可以通過它爬取你的數(shù)據(jù)。或者說你有移動(dòng) APP,他們也可以截屏分析,或者可以抓取你的網(wǎng)絡(luò)請(qǐng)求去直接找到你的 RESTful 的 API 直接使用;
          • 如果你對(duì)一些特定瀏覽器提供了特定的版本,比如對(duì)很老的 IE 版本提供網(wǎng)站的閹割版,不要忘記爬蟲也可以直接爬取它;
          • 選出集中最適合你的策略結(jié)合起來使用,而不是只用一種;
          • 爬蟲可以抓取其他爬蟲:如果有個(gè)網(wǎng)站顯示的內(nèi)容都是從你網(wǎng)站爬取的,那另外一個(gè)爬蟲也可以直接爬取那個(gè)網(wǎng)站。

          有哪些最有效的方法 ?

          以我自己寫和幫忙別人寫爬蟲的經(jīng)驗(yàn),我認(rèn)為最有效的方法是:

          • 經(jīng)常修改 HTML 的結(jié)構(gòu)
          • 蜜罐和假數(shù)據(jù)
          • 使用混淆的 JavaScript、Ajax 還有 Cookie
          • 頻率限制、爬蟲檢測(cè)和請(qǐng)求封禁

          擴(kuò)展閱讀:

          • 維基百科關(guān)于 Web 爬蟲的文章,其中提到了很多 Web 爬蟲的相關(guān)技術(shù)和爬蟲類型,看完如何進(jìn)行 web 爬取的一些信息,也不要忘記看一看爬取的合法性。

          最后祝你在保護(hù)你網(wǎng)站的內(nèi)容坎坷路上一路順風(fēng)...

          作者:h1z3y3

          來源:微信公眾號(hào): 360搜索技術(shù)團(tuán)隊(duì)

          出處:https://mp.weixin.qq.com/s?__biz=MzA5ODIxODE2Ng==&mid=2651137205&idx=1&sn=664a46d66f132c96780750d4e9b206eb

          防火墻”可以阻擋“黑客”的進(jìn)攻嗎?

          "防火墻"這個(gè)詞大家應(yīng)該都聽說過或者應(yīng)用過,每個(gè)人的電腦、手機(jī)幾乎都會(huì)安裝一些的主流的防火墻軟件,工作的企事業(yè)單位網(wǎng)絡(luò)里都會(huì)安裝硬件防火墻。那么這些防火墻能阻擋住黑客的攻擊嗎?今天我就和大家分享一下這個(gè)話題!

          一、首先我們需要知道防火墻的原理或者說主要功能

          1、什么是防火墻?

          官方定義:防火墻也被稱為防護(hù)墻,它是一種位于內(nèi)部網(wǎng)絡(luò)與外部網(wǎng)絡(luò)之間的網(wǎng)絡(luò)安全系統(tǒng),可以將內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)隔離。通常,防火墻可以保護(hù)內(nèi)部/私有局域網(wǎng)免受外部攻擊,并防止重要數(shù)據(jù)泄露。在沒有防火墻的情況下,路由器會(huì)在內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)之間盲目傳遞流量且沒有過濾機(jī)制,而防火墻不僅能夠監(jiān)控流量,還能夠阻止未經(jīng)授權(quán)的流量。

          簡(jiǎn)單理解:防火墻是由軟件或者軟件和硬件組成的系統(tǒng),它處于安全的網(wǎng)絡(luò)(通常是內(nèi)部局域網(wǎng))和不安全的網(wǎng)絡(luò)之間,根據(jù)由系統(tǒng)管理員設(shè)置的訪問控制規(guī)則,對(duì)數(shù)據(jù)流進(jìn)行過濾。

          2、防火墻基本分類和工作原理

          1) 包過濾防火墻

          這是第一代防火墻,又稱為網(wǎng)絡(luò)層防火墻,在每一個(gè)數(shù)據(jù)包傳送到源主機(jī)時(shí)都會(huì)在網(wǎng)絡(luò)層進(jìn)行過濾,對(duì)于不合法的數(shù)據(jù)訪問,防火墻會(huì)選擇阻攔以及丟棄。這 種防火墻的連接可以通過一個(gè)網(wǎng)卡即一張網(wǎng)卡由內(nèi)網(wǎng)的IP地址,又有公網(wǎng)的IP地址和兩個(gè)網(wǎng)卡一個(gè)網(wǎng)卡上有私有網(wǎng)絡(luò)的IP地址,另一個(gè)網(wǎng)卡有外部網(wǎng)絡(luò)的IP 地址。

          第一代防火墻和最基本形式防火墻檢查每一個(gè)通過的網(wǎng)絡(luò)包,或者丟棄,或者放行,取決于所建立的一套規(guī)則。這稱為包過濾防火墻。

          本質(zhì)上,包過濾防火墻是多址的,表明它有兩個(gè)或兩個(gè)以上網(wǎng)絡(luò)適配器或接口。例如,作為防火墻的設(shè)備可能有兩塊網(wǎng)卡(NIC),一塊連到內(nèi)部網(wǎng)絡(luò),一塊連到公共的Internet。防火墻的任務(wù),就是作為"通信警察",指引包和截住那些有危害的包。

          包過濾防火墻檢查每一個(gè)傳入包,查看包中可用的基本信息(源地址和目的地址、端口號(hào)、協(xié)議等)。然后,將這些信息與設(shè)立的規(guī)則相比較。如果已經(jīng)設(shè)立了阻斷telnet連接,而包的目的端口是23的話,那么該包就會(huì)被丟棄。如果允許傳入Web連接,而目的端口為80,則包就會(huì)被放行。

          多個(gè)復(fù)雜規(guī)則的組合也是可行的。如果允許Web連接,但只針對(duì)特定的服務(wù)器,目的端口和目的地址二者必須與規(guī)則相匹配,才可以讓該包通過。

          最后,可以確定當(dāng)一個(gè)包到達(dá)時(shí),如果對(duì)該包沒有規(guī)則被定義,接下來將會(huì)發(fā)生什么事情了。通常,為了安全起見,與傳入規(guī)則不匹配的包就被丟棄了。如果有理由讓該包通過,就要建立規(guī)則來處理它。

          建立包過濾防火墻規(guī)則的例子如下:

          對(duì)來自專用網(wǎng)絡(luò)的包,只允許來自內(nèi)部地址的包通過,因?yàn)槠渌徽_的包頭部信息。這條規(guī)則可以防止網(wǎng)絡(luò)內(nèi)部的任何人通過欺騙性的源地址發(fā)起攻擊。而且,如果黑客對(duì)專用網(wǎng)絡(luò)內(nèi)部的機(jī)器具有了不知從何得來的訪問權(quán),這種過濾方式可以阻止黑客從網(wǎng)絡(luò)內(nèi)部發(fā)起攻擊。

          在公共網(wǎng)絡(luò),只允許目的地址為80端口的包通過。這條規(guī)則只允許傳入的連接為Web連接。這條規(guī)則也允許與Web連接使用相同端口的連接,所以它并不是十分安全。

          丟棄從公共網(wǎng)絡(luò)傳入的包,而這些包都有你的網(wǎng)絡(luò)內(nèi)的源地址,從而減少IP欺騙性的攻擊。

          丟棄包含源路由信息的包,以減少源路由攻擊。要記住,在源路由攻擊中,傳入的包包含路由信息,它覆蓋了包通過網(wǎng)絡(luò)應(yīng)采取得正常路由,可能會(huì)繞過已有的安全程序。

          2) 狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻

          狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻,試圖跟蹤通過防火墻的網(wǎng)絡(luò)連接和包,這樣防火墻就可以使用一組附加的標(biāo)準(zhǔn),以確定是否允許和拒絕通信。它是在使用了基本包過濾防火墻的通信上應(yīng)用一些技術(shù)來做到這點(diǎn)的。

          當(dāng)包過濾防火墻見到一個(gè)網(wǎng)絡(luò)包,包是孤立存在的。它沒有防火墻所關(guān)心的歷史或未來。允許和拒絕包的決定完全取決于包自身所包含的信息,如源地址、目的地址、端口號(hào)等。包中沒有包含任何描述它在信息流中的位置的信息,則該包被認(rèn)為是無狀態(tài)的;它僅是存在而已。

          一個(gè)有狀態(tài)包檢查防火墻跟蹤的不僅是包中包含的信息。為了跟蹤包的狀態(tài),防火墻還記錄有用的信息以幫助識(shí)別包,例如已有的網(wǎng)絡(luò)連接、數(shù)據(jù)的傳出請(qǐng)求等。

          例如,如果傳入的包包含視頻數(shù)據(jù)流,而防火墻可能已經(jīng)記錄了有關(guān)信息,是關(guān)于位于特定IP地址的應(yīng)用程序最近向發(fā)出包的源地址請(qǐng)求視頻信號(hào)的信息。如果傳入的包是要傳給發(fā)出請(qǐng)求的相同系統(tǒng),防火墻進(jìn)行匹配,包就可以被允許通過。

          一個(gè)狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻可截?cái)嗨袀魅氲耐ㄐ牛试S所有傳出的通信。因?yàn)榉阑饓Ω檭?nèi)部出去的請(qǐng)求,所有按要求傳入的數(shù)據(jù)被允許通過,直到連接被關(guān)閉為止。只有未被請(qǐng)求的傳入通信被截?cái)唷?/p>

          如果在防火墻內(nèi)正運(yùn)行一臺(tái)服務(wù)器,配置就會(huì)變得稍微復(fù)雜一些,但狀態(tài)包檢查是很有力和適應(yīng)性的技術(shù)。例如,可以將防火墻配置成只允許從特定端口進(jìn)入的通信,只可傳到特定服務(wù)器。如果正在運(yùn)行Web服務(wù)器,防火墻只將80端口傳入的通信發(fā)到指定的Web服務(wù)器。

          狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻可提供的其他一些額外的服務(wù)有:

          將某些類型的連接重定向到審核服務(wù)中去。例如,到專用Web服務(wù)器的連接,在Web服務(wù)器連接被允許之前,可能被發(fā)到SecutID服務(wù)器(用一次性口令來使用)。

          拒絕攜帶某些數(shù)據(jù)的網(wǎng)絡(luò)通信,如帶有附加可執(zhí)行程序的傳入電子消息,或包含ActiveX程序的Web頁(yè)面。

          跟蹤連接狀態(tài)的方式取決于包通過防火墻的類型:

          TCP包。當(dāng)建立起一個(gè)TCP連接時(shí),通過的第一個(gè)包被標(biāo)有包的SYN標(biāo)志。通常情況下,防火墻丟棄所有外部的連接企圖,除非已經(jīng)建立起某條特定規(guī)則來處理它們。對(duì)內(nèi)部的連接試圖連到外部主機(jī),防火墻注明連接包,允許響應(yīng)及隨后再兩個(gè)系統(tǒng)之間的包,直到連接結(jié)束為止。在這種方式下,傳入的包只有在它是響應(yīng)一個(gè)已建立的連接時(shí),才會(huì)被允許通過。

          UDP包。UDP包比TCP包簡(jiǎn)單,因?yàn)樗鼈儾话魏芜B接或序列信息。它們只包含源地址、目的地址、校驗(yàn)和攜帶的數(shù)據(jù)。這種信息的缺乏使得防火墻確定包的合法性很困難,因?yàn)闆]有打開的連接可利用,以測(cè)試傳入的包是否應(yīng)被允許通過。可是,如果防火墻跟蹤包的狀態(tài),就可以確定。對(duì)傳入的包,若它所使用的地址和UDP包攜帶的協(xié)議與傳出的連接請(qǐng)求匹配,該包就被允許通過。和TCP包一樣,沒有傳入的UDP包會(huì)被允許通過,除非它是響應(yīng)傳出的請(qǐng)求或已經(jīng)建立了指定的規(guī)則來處理它。對(duì)其他種類的包,情況和UDP包類似。防火墻仔細(xì)地跟蹤傳出的請(qǐng)求,記錄下所使用的地址、協(xié)議和包的類型,然后對(duì)照保存過的信息核對(duì)傳入的包,以確保這些包是被請(qǐng)求的。

          3) 應(yīng)用程序代理防火墻

          應(yīng)用程序代理防火墻實(shí)際上并不允許在它連接的網(wǎng)絡(luò)之間直接通信。相反,它是接受來自內(nèi)部網(wǎng)絡(luò)特定用戶應(yīng)用程序的通信,然后建立于公共網(wǎng)絡(luò)服務(wù)器單獨(dú)的連接。網(wǎng)絡(luò)內(nèi)部的用戶不直接與外部的服務(wù)器通信,所以服務(wù)器不能直接訪問內(nèi)部網(wǎng)的任何一部分。

          另外,如果不為特定的應(yīng)用程序安裝代理程序代碼,這種服務(wù)是不會(huì)被支持的,不能建立任何連接。這種建立方式拒絕任何沒有明確配置的連接,從而提供了額外的安全性和控制性。

          例如,一個(gè)用戶的Web瀏覽器可能在80端口,但也經(jīng)常可能是在1080端口,連接到了內(nèi)部網(wǎng)絡(luò)的HTTP代理防火墻。防火墻然后會(huì)接受這個(gè)連接請(qǐng)求,并把它轉(zhuǎn)到所請(qǐng)求的Web服務(wù)器。

          這種連接和轉(zhuǎn)移對(duì)該用戶來說是透明的,因?yàn)樗耆怯纱矸阑饓ψ詣?dòng)處理的。

          代理防火墻通常支持的一些常見的應(yīng)用程序協(xié)議有:

          HTTP

          HTTPS/SSL

          SMTP

          POP3

          IMAP

          NNTP

          TELNET

          FTP

          IRC

          應(yīng)用程序代理防火墻可以配置成允許來自內(nèi)部網(wǎng)絡(luò)的任何連接,它也可以配置成要求用戶認(rèn)證后才建立連接。要求認(rèn)證的方式由只為已知的用戶建立連接的這種限制,為安全性提供了額外的保證。如果網(wǎng)絡(luò)受到危害,這個(gè)特征使得從內(nèi)部發(fā)動(dòng)攻擊的可能性大大減少。

          4) NAT

          討論到防火墻的主題,就一定要提到有一種路由器,盡管從技術(shù)上講它根本不是防火墻。網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)協(xié)議將內(nèi)部網(wǎng)絡(luò)的多個(gè)IP地址轉(zhuǎn)換到一個(gè)公共地址發(fā)到Internet上。

          NAT經(jīng)常用于小型辦公室、家庭等網(wǎng)絡(luò),多個(gè)用戶分享單一的IP地址,并為Internet連接提供一些安全機(jī)制。

          當(dāng)內(nèi)部用戶與一個(gè)公共主機(jī)通信時(shí),NAT追蹤是哪一個(gè)用戶作的請(qǐng)求,修改傳出的包,這樣包就像是來自單一的公共IP地址,然后再打開連接。一旦建立了連接,在內(nèi)部計(jì)算機(jī)和Web站點(diǎn)之間來回流動(dòng)的通信就都是透明的了。

          當(dāng)從公共網(wǎng)絡(luò)傳來一個(gè)未經(jīng)請(qǐng)求的傳入連接時(shí),NAT有一套規(guī)則來決定如何處理它。如果沒有事先定義好的規(guī)則,NAT只是簡(jiǎn)單的丟棄所有未經(jīng)請(qǐng)求的傳入連接,就像包過濾防火墻所做的那樣。

          可是,就像對(duì)包過濾防火墻一樣,你可以將NAT配置為接受某些特定端口傳來的傳入連接,并將它們送到一個(gè)特定的主機(jī)地址。

          5) 個(gè)人主機(jī)防火墻

          現(xiàn)在網(wǎng)絡(luò)上流傳著很多的個(gè)人防火墻軟件,它是應(yīng)用程序級(jí)的。主機(jī)防火墻是一種能夠保護(hù)個(gè)人計(jì)算機(jī)系統(tǒng)安全的軟件,它可以直接在用戶的計(jì)算機(jī)上運(yùn)行,使用與狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻相同的方式,保護(hù)一臺(tái)計(jì)算機(jī)免受攻擊。通常,這些防火墻是安裝在計(jì)算機(jī)網(wǎng)絡(luò)接口的較低級(jí)別上,使得它們可以監(jiān)視傳入傳出網(wǎng)卡的所有網(wǎng)絡(luò)通信。

          一旦安裝上個(gè)人防火墻,就可以把它設(shè)置成"學(xué)習(xí)模式",這樣的話,對(duì)遇到的每一種新的網(wǎng)絡(luò)通信,個(gè)人防火墻都會(huì)提示用戶一次,詢問如何處理那種通信。然后個(gè)人防火墻便記住響應(yīng)方式,并應(yīng)用于以后遇到的相同那種網(wǎng)絡(luò)通信。

          例如,如果用戶已經(jīng)安裝了一臺(tái)個(gè)人Web服務(wù)器,個(gè)人防火墻可能將第一個(gè)傳入的Web連接作上標(biāo)志,并詢問用戶是否允許它通過。用戶可能允許所有的Web連接、來自某些特定IP地址范圍的連接等,個(gè)人防火墻然后把這條規(guī)則應(yīng)用于所有傳入的Web連接。

          基本上,你可以將個(gè)人防火墻想象成在用戶計(jì)算機(jī)上建立了一個(gè)虛擬網(wǎng)絡(luò)接口。不再是計(jì)算機(jī)的操作系統(tǒng)直接通過網(wǎng)卡進(jìn)行通信,而是以操作系統(tǒng)通過和個(gè)人防火墻對(duì)話,仔細(xì)檢查網(wǎng)絡(luò)通信,然后再通過網(wǎng)卡通信。

          6) Web應(yīng)用防火墻

          Web應(yīng)用防火墻是通過執(zhí)行一系列針對(duì)HTTP/HTTPS的來專門為Web應(yīng)用提供保護(hù)的一款產(chǎn)品,當(dāng)WEB應(yīng)用越來越為豐富的同時(shí),WEB 服務(wù)器以其強(qiáng)大的計(jì)算能力、處理性能及蘊(yùn)含的較高價(jià)值逐漸成為主要攻擊目標(biāo)。SQL注入、網(wǎng)頁(yè)篡改、網(wǎng)頁(yè)掛馬等安全事件,頻繁發(fā)生。因此誕生了針對(duì)這一些安全隱患的防火墻,與上述防火墻不同,WAF工作在應(yīng)用層,因此對(duì)Web應(yīng)用防護(hù)具有先天的技術(shù)優(yōu)勢(shì)。基于對(duì)Web應(yīng)用業(yè)務(wù)和邏輯的深刻理解,WAF對(duì)來自Web應(yīng)用程序客戶端的各類請(qǐng)求進(jìn)行內(nèi)容檢測(cè)和驗(yàn)證,確保其安全性與合法性,對(duì)非法的請(qǐng)求予以實(shí)時(shí)阻斷,從而對(duì)各類網(wǎng)站站點(diǎn)進(jìn)行有效防護(hù)。

          主要特點(diǎn):

          WAF不僅僅只是防御Web的http訪問,可以對(duì)Web應(yīng)用做到全方位的立體防護(hù)。可以防范:

          · 常見的命令注入攻擊,利用網(wǎng)頁(yè)漏洞將含有操作系統(tǒng)或軟件平臺(tái)命令注入到網(wǎng)頁(yè)訪問語(yǔ)句中以盜取數(shù)據(jù)或后端服務(wù)器的控制權(quán)

          · SQL 注入,找到數(shù)據(jù)查詢語(yǔ)句漏洞,通過數(shù)據(jù)庫(kù)查詢代碼竊取或修改數(shù)據(jù)庫(kù)中的數(shù)據(jù)

          · 跨站腳本攻擊,利用網(wǎng)站漏洞攻擊訪問該站點(diǎn)的用戶,用戶登陸或認(rèn)證信息;

          · 各種HTTP 協(xié)議攻擊,利用http的協(xié)議漏洞進(jìn)行攻擊;

          · 機(jī)器人、 爬蟲和掃描,通過機(jī)器人,爬蟲,和掃描工具自動(dòng)抓取網(wǎng)站數(shù)據(jù)以及對(duì)網(wǎng)站進(jìn)行自動(dòng)攻擊;

          · 常見的應(yīng)用程序配置錯(cuò)誤 (如 Apache、 IIS 等),利用Web發(fā)布程序的配置漏洞或者已知bug進(jìn)行攻擊

          主要功能:

          ①防攻擊:功能主要關(guān)注Web應(yīng)用并試圖入侵網(wǎng)絡(luò)服務(wù)器的攻擊事件過程。可以覆蓋OWASP TOP 10、WASC、PCI DSS等標(biāo)準(zhǔn),包括、、攻擊等。

          ②防漏洞:可對(duì)網(wǎng)站中的敏感信息、服務(wù)器信息進(jìn)行屏蔽或偽裝,達(dá)到避免數(shù)據(jù)泄露的隱患。成功的攻擊往往需要利用服務(wù)器的IP、操作系統(tǒng)信息、應(yīng)用信息、服務(wù)器出錯(cuò)信息、數(shù)據(jù)庫(kù)出錯(cuò)信息,KS-WAF接管所有返回給客戶端的信息,并可中止會(huì)話,避免黑客利用敏感信息及服務(wù)器信息發(fā)動(dòng)攻擊、各類黑客入侵攻擊。

          ③防掛馬:隨著監(jiān)管部門的打擊力度逐漸加強(qiáng),掛馬攻擊的數(shù)量越來越少,與此同時(shí),地下逐漸轉(zhuǎn)向了。為了應(yīng)對(duì)這個(gè)情況,KS-WAF系統(tǒng)內(nèi)置了針對(duì)當(dāng)前流行的暗鏈攻擊建立的惡意指紋庫(kù),在服務(wù)器端已被植入暗鏈的情況下可準(zhǔn)確識(shí)別并進(jìn)行報(bào)警,協(xié)助管理員清除暗鏈代碼。

          ④URL檢測(cè):通過實(shí)現(xiàn)URL級(jí)別的,對(duì)客戶端請(qǐng)求進(jìn)行檢測(cè),如果發(fā)現(xiàn)圖片、文件等資源信息的來自于其它網(wǎng)站,則阻止請(qǐng)求,節(jié)省因盜用資源鏈接而消耗的帶寬和性能。

          ⑤防爬蟲:將爬蟲行為分為搜索引擎爬蟲及掃描程序爬蟲,可屏蔽特定的搜索引擎爬蟲節(jié)省帶寬和性能,也可屏蔽掃描程序爬蟲,避免網(wǎng)站被惡意抓取頁(yè)面。

          ⑥防掛馬:通過檢查HTML頁(yè)面中特征、用戶提交數(shù)據(jù),查看是否出現(xiàn)、Javascript引用掛馬源URL及其他掛馬特征以決定是否攔截請(qǐng)求。

          ⑦抗DDos:支持TCP Flood和HTTP Flood類型的拒絕服務(wù)攻擊,通過簡(jiǎn)單有效的方式緩解拒絕服務(wù)攻擊。

          ⑨攻擊源定位:通過記錄攻擊者的源IP,進(jìn)行分析和定位后,通過進(jìn)行定位展現(xiàn),幫助運(yùn)維攻擊來源。

          7) 下一代防火墻

          上面所述的幾乎都是傳統(tǒng)意義的防火墻,下一代是一款可以全面應(yīng)對(duì)應(yīng)用層威脅的高性能。通過深入洞察網(wǎng)絡(luò)流量中的用戶、應(yīng)用和內(nèi)容,并借助全新的高性能單路徑異構(gòu)并行處理,能夠?yàn)橛脩籼峁┯行У膽?yīng)用層一體化安全防護(hù),幫助用戶安全地開展業(yè)務(wù)并簡(jiǎn)化用戶的架構(gòu)。

          下一代防火墻和傳統(tǒng)防火墻的區(qū)別:

          下一代防火墻是一款可以全面應(yīng)對(duì)應(yīng)用層威脅的高性能防火墻。通過深入洞察網(wǎng)絡(luò)流量中的用戶、應(yīng)用和內(nèi)容,并借助全新的高性能單路徑異構(gòu)并行處理引擎,能夠?yàn)橛脩籼峁┯行У膽?yīng)用層一體化安全防護(hù),幫助用戶安全地開展業(yè)務(wù)并簡(jiǎn)化用戶的網(wǎng)絡(luò)安全架構(gòu)。

          傳統(tǒng)防火墻功能:具有數(shù)據(jù)包過濾、網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)、協(xié)議狀態(tài)檢查以及VPN功能等功能。相對(duì)而言,下一代防火墻檢測(cè)更加細(xì)。

          下一代防火墻自身屬性:

          (1) 標(biāo)準(zhǔn)的第一代防火墻功能:具有、(NAT)、協(xié)議狀態(tài)檢查以及VPN功能等。

          (2) 集成式而非托管式網(wǎng)絡(luò)入侵防御:支持基于漏洞的簽名與基于威脅的簽名。IPS與防火墻間的協(xié)作所獲得的性能要遠(yuǎn)高于部件的疊加,如:提供推薦防火墻規(guī)則,以阻止持續(xù)某一載入IPS及有害流量的地址。這就證明,在下一代防火墻中,互相關(guān)聯(lián)作用的是防火墻而非由操作人員在控制臺(tái)制定與執(zhí)行各種解決方案。高質(zhì)量的集成式IPS引擎與簽名也是下一代防火墻的主要特性。所謂集成可將諸多特性集合在一起,如:根據(jù)針對(duì)注入惡意軟件網(wǎng)站的IPS檢測(cè)向防火墻提供推薦阻止的地址。

          (3) 業(yè)務(wù)識(shí)別與全棧可視性:采用非端口與協(xié)議vs僅端口、協(xié)議與服務(wù)的方式,識(shí)別應(yīng)用程序并在執(zhí)行網(wǎng)絡(luò)安全策略。

          (4) 超級(jí)智能的防火墻: 可收集防火墻外的各類信息,用于改進(jìn)阻止決策,或作為優(yōu)化阻止規(guī)則的基礎(chǔ)。范例中還包括利用目錄集成來強(qiáng)化根據(jù)用戶身份實(shí)施的阻止或根據(jù)地址編制黑名單與白名單。

          (5) 支持新信息流與新技術(shù)的集成路徑升級(jí),以應(yīng)對(duì)未來出現(xiàn)的各種威脅。

          下一代防火墻工作流程:

          數(shù)據(jù)包入站處理階段

          入站主要完成數(shù)據(jù)包的接收及L2-L4層的數(shù)據(jù)包解析過程,并且根據(jù)解析結(jié)果決定是否需要進(jìn)入處理流程,否則該數(shù)據(jù)包就會(huì)被丟棄。在這個(gè)過程中還會(huì)判斷是否經(jīng)過VPN,如果是,則會(huì)先進(jìn)行解密后再做進(jìn)一步解析。

          主引擎處理階段

          主引擎處理大致會(huì)經(jīng)歷三個(gè)過程:策略匹配及創(chuàng)建會(huì)話、應(yīng)用識(shí)別、內(nèi)容檢測(cè)。 創(chuàng)建會(huì)話信息。當(dāng)數(shù)據(jù)包進(jìn)入主引擎后,首先會(huì)進(jìn)行會(huì)話查找,看是否存在該數(shù)據(jù)包相關(guān)的會(huì)話。如果存在,則會(huì)依據(jù)已經(jīng)設(shè)定的策略進(jìn)行匹配和對(duì)應(yīng)。否則就需要?jiǎng)?chuàng)建會(huì)話。具體步驟簡(jiǎn)述為:進(jìn)行轉(zhuǎn)發(fā)相關(guān)的信息查找;而后進(jìn)行NAT相關(guān)的查找;最后進(jìn)行防火墻的策略查找,檢查策略是否允許。如果允許則按照之前的建立對(duì)應(yīng)的會(huì)話,如果不允許則丟棄該數(shù)據(jù)包。

          應(yīng)用識(shí)別

          數(shù)據(jù)包進(jìn)行完初始的防火墻匹配并創(chuàng)建對(duì)應(yīng)會(huì)話信息后,會(huì)進(jìn)行應(yīng)用識(shí)別檢測(cè)和處理,如果該應(yīng)用為已經(jīng)可識(shí)別的應(yīng)用,則對(duì)此應(yīng)用進(jìn)行識(shí)別和標(biāo)記并直接進(jìn)入下一個(gè)處理流程。如果該應(yīng)用為未識(shí)別應(yīng)用,則需要進(jìn)行應(yīng)用識(shí)別子流程,對(duì)應(yīng)用進(jìn)行特征匹配,協(xié)議解碼,行為分析等處理從而標(biāo)記該應(yīng)用。應(yīng)用標(biāo)記完成后,會(huì)查找對(duì)應(yīng)的應(yīng)用,如果策略允許則準(zhǔn)備下一階段流程;如果策略不允許,則直接丟棄。

          內(nèi)容檢測(cè)

          主引擎工作的最后一個(gè)流程為內(nèi)容檢測(cè)流程,主要是需要對(duì)數(shù)據(jù)包進(jìn)行深層次的協(xié)議解碼、內(nèi)容解析、等操作,實(shí)現(xiàn)對(duì)數(shù)據(jù)包內(nèi)容的完全解析;然后通過查找相對(duì)應(yīng)的內(nèi)容安全策略進(jìn)行匹配,最后依據(jù)安全策略執(zhí)行諸如:丟棄、報(bào)警、記錄日志等動(dòng)作。

          數(shù)據(jù)包出站處理階段

          當(dāng)數(shù)據(jù)包經(jīng)過內(nèi)容檢測(cè)模塊后,會(huì)進(jìn)入出站處理流程。首先系統(tǒng)會(huì)路由等信息查找,然后執(zhí)行QOS,IP數(shù)據(jù)包分片的操作,如果該數(shù)據(jù)走VPN通道的話,還需要通過VPN加密,最后進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā)。

          與統(tǒng)一策略的關(guān)系

          統(tǒng)一策略實(shí)際上是通過同一套安全策略將處于不同層級(jí)的安全模塊有效地整合在一起,在策略匹配順序及層次上實(shí)現(xiàn)系統(tǒng)智能匹配,其主要的目的是為了提供更好的。舉個(gè)例子:有些產(chǎn)品HTTP的檢測(cè),URL過濾是通過代理模塊做的,而其他協(xié)議的是用另外的引擎。 用戶必須明白這些模塊間的依賴關(guān)系,分別做出正確的購(gòu)置才能達(dá)到需要的功能,而統(tǒng)一策略可以有效的解決上述問題。

          二、防火墻是否能阻擋住黑客攻擊?

          答案:是否定的

          下面我就說說原由!!!

          首先傳統(tǒng)防火墻的缺陷:

          1.傳統(tǒng)防火墻的并發(fā)連接數(shù)限制容易導(dǎo)致?lián)砣蛘咭绯?

          由于要判斷、處理流經(jīng)防火墻的每一個(gè)包,因此防火墻在某些流量大、并發(fā)請(qǐng)求多的情況下,很容易導(dǎo)致?lián)砣蔀檎麄€(gè)網(wǎng)絡(luò)的瓶頸影響性能。而當(dāng)防火墻溢出的時(shí)候,整個(gè)防線就如同虛設(shè),原本被禁止的連接也能從容通過了。

          2.傳統(tǒng)防火墻對(duì)服務(wù)器合法開放的端口的攻擊大多無法阻止

          某些情況下,攻擊者利用服務(wù)器提供的服務(wù)進(jìn)行缺陷攻擊。例如利用開放了3389端口取得沒打過sp補(bǔ)丁的win2k的超級(jí)權(quán)限、利用asp程序進(jìn)行腳本攻擊等。由于其行為在防火墻一級(jí)看來是"合理"和"合法"的,因此就被簡(jiǎn)單地放行了。

          3.傳統(tǒng)防火墻對(duì)待內(nèi)部主動(dòng)發(fā)起連接的攻擊一般無法阻止

          "外緊內(nèi)松"是一般局域網(wǎng)絡(luò)的特點(diǎn)。或許一道嚴(yán)密防守的防火墻內(nèi)部的網(wǎng)絡(luò)是一片混亂也有可能。通過社會(huì)工程學(xué)發(fā)送帶木馬的郵件、帶木馬的URL等方式,然后由中木馬的機(jī)器主動(dòng)對(duì)攻擊者連接,將鐵壁一樣的防火墻瞬間破壞掉。另外,防火墻內(nèi)部各主機(jī)間的攻擊行為,防火墻也只有如旁觀者一樣冷視而愛莫能助。

          4.傳統(tǒng)防火墻不處理病毒

          不管是funlove病毒也好,還是CIH也好。在內(nèi)部網(wǎng)絡(luò)用戶下載外網(wǎng)的帶毒文件的時(shí)候,防火墻是不為所動(dòng)的(這里的防火墻不是指單機(jī)/企業(yè)級(jí)的殺毒軟件中的實(shí)時(shí)監(jiān)控功能,雖然它們不少都叫"病毒防火墻")。

          下一代防火墻:

          1.可以阻斷網(wǎng)絡(luò)攻擊,但不能消滅攻擊源。

          防火墻能夠阻擋一定的網(wǎng)絡(luò)攻擊,但是無法清除攻擊源。即使防火墻進(jìn)行了良好的設(shè)置,使得攻擊無法穿透防火墻,但各種攻擊仍然會(huì)源源不斷地向防火墻發(fā)出嘗試。例如接主干網(wǎng)10M網(wǎng)絡(luò)帶寬的某站點(diǎn),其日常流量中平均有512K左右是攻擊行為。那么,即使成功設(shè)置了防火墻后,這512K的攻擊流量依然不會(huì)有絲毫減少。

          2.不能抵抗最新的未設(shè)置策略的攻擊漏洞

          就如殺毒軟件與病毒一樣,總是先出現(xiàn)病毒,殺毒軟件經(jīng)過分析出特征碼后加入到病毒庫(kù)內(nèi)才能查殺。防火墻的各種策略,也是在該攻擊方式經(jīng)過專家分析后給出其特征進(jìn)而設(shè)置的。如果世界上新發(fā)現(xiàn)某個(gè)主機(jī)漏洞的cracker的把第一個(gè)攻擊對(duì)象選中了您的網(wǎng)絡(luò),那么防火墻也沒有辦法幫到您的。

          3.本身也會(huì)出現(xiàn)問題和受到攻擊

          防火墻也是一個(gè)os,也有著其硬件系統(tǒng)和軟件,因此依然有著漏洞和bug。所以其本身也可能受到攻擊和出現(xiàn)軟/硬件方面的故障。

          4.同樣對(duì)待內(nèi)網(wǎng)攻擊也是無法完全抵御

          介紹了這么多,我相信大家應(yīng)該也理解了,防火墻是入侵者進(jìn)入的第一道安全防線,主要解決了經(jīng)過防火墻的網(wǎng)絡(luò)傳播途徑的部分入侵攻擊問題,而通過物理傳播途徑,內(nèi)網(wǎng)傳播途徑的攻擊就會(huì)很難解決,因此本篇文章希望通過我的介紹讓大家多了解防火墻這門安全技術(shù)和安全知識(shí),提高咱們自身的信息安全意識(shí),任何技術(shù)都有漏洞,有了漏洞必然就有機(jī)會(huì)攻克。所以我們需要擁有掌握技術(shù)的同時(shí),更應(yīng)該提高自身信息安全意識(shí)。

          比Python,JavaScript才是更適合寫爬蟲的語(yǔ)言。原因有如下三個(gè)方面:

          • JavaScript異步IO機(jī)制適用于爬蟲這種IO密集型任務(wù)。JavaScript中的回調(diào)非常自然,使用異步網(wǎng)絡(luò)請(qǐng)求能夠充分利用CPU。
          • JavaScript中的jQuery毫無疑問是最強(qiáng)悍的HTML解析工具,使用JavaScript寫爬蟲能夠減少學(xué)習(xí)負(fù)擔(dān)和記憶負(fù)擔(dān)。雖然Python中有PyQuery,但終究還是比不上jQuery自然。
          • 爬取結(jié)果多為JSON,JavaScript是最適合處理JSON的語(yǔ)言。

          一、任務(wù):爬取用戶在Github上的repo信息

          通過實(shí)例的方式學(xué)習(xí)爬蟲是最好的方法,先定一個(gè)小目標(biāo):爬取github repo信息。入口URL如下,我們只需要一直點(diǎn)擊next按鈕就能夠遍歷到用戶的所有repo。

          https://github.com/{{username}}?tab=repositories

          獲取repo之后,可以做什么?

          • 統(tǒng)計(jì)用戶最常使用的語(yǔ)言,統(tǒng)計(jì)用戶語(yǔ)言使用分布情況統(tǒng)計(jì)用戶所獲取的star數(shù),fork數(shù)

          二、爬蟲雙股劍:axios和jQuery

          axios是JavaScript中很常用的異步網(wǎng)絡(luò)請(qǐng)求庫(kù),相比jQuery,它更輕量、更專業(yè)。既能夠用于瀏覽器端,也可以用于Node。它的語(yǔ)法風(fēng)格是promise形式的。在本任務(wù)中,只需要了解如下用法就足夠了:

          axios.get(url).then((resp) => {
           請(qǐng)求成功,處理resp.data中的html數(shù)據(jù)
          }).catch((err) => {
           請(qǐng)求失敗,錯(cuò)誤處理
          })
          

          請(qǐng)求之后需要處理回復(fù)結(jié)果,處理回復(fù)結(jié)果的庫(kù)當(dāng)然是用jQuery。實(shí)際上,我們有更好的選擇:cheerio。

          在node下,使用jQuery,需要使用jsdom庫(kù)模擬一個(gè)window對(duì)象,這種方法效率較低,四個(gè)字形容就是:笨重穩(wěn)妥。

          如下代碼使用jQuery解析haha.html文件

          fs = require("fs")
          jquery=require('jquery')
          jsdom=require('jsdom') //fs.readFileSync()返回結(jié)果是一個(gè)buffer,相當(dāng)于byte[] 
          html = fs.readFileSync('haha.html').toString('utf8') 
          dom= new jsdom.JSDOM(html) 
          $=jquery(dom.window) console.log($('h1'))
          

          cheerio只實(shí)現(xiàn)了jQuery中的DOM部分,相當(dāng)于jQuery的一個(gè)子集。cheerio的語(yǔ)法和jQuery完全一致,在使用cheerio時(shí),幾乎感覺不到它和jQuery的差異。在解析HTML方面,毫無疑問,cheerio是更好的選擇。如下代碼使用cheerio解析haha.html文件。

          cheerio=require('cheerio')
          html=require('fs').readFileSync("haha.html").toString('utf8')
          $=cheerio.load(html)
          console.log($('h1'))
          

          只需20余行,便可實(shí)現(xiàn)簡(jiǎn)單的github爬蟲,此爬蟲只爬取了一頁(yè)repo列表。

          var axios = require("axios")
          var cheerio = require("cheerio")
          axios.get("https://github.com/weiyinfu?tab=repositories").then(resp => {
           var $ = cheerio.load(resp.data)
           var lis = $("#user-repositories-list li")
           var repos = []
           for (var i = 0; i < lis.length; i++) {
           var li = lis.eq(i)
           var repo = {
           repoName: li.find("h3").text().trim(),
           repoUrl: li.find("h3 a").attr("href").trim(),
           repoDesc: li.find("p").text().trim(),
           language: li.find("[itemprop=programmingLanguage]").text().trim(),
           star: li.find(".muted-link.mr-3").eq(0).text().trim(),
           fork: li.find(".muted-link.mr-3").eq(1).text().trim(),
           forkedFrom: li.find(".f6.text-gray.mb-1 a").text().trim()
           }
           repos.push(repo)
           }
           console.log(repos)
          })
          

          三、更豐富的功能

          爬蟲不是目的,而是達(dá)成目的的一種手段。獲取數(shù)據(jù)也不是目的,從數(shù)據(jù)中提取統(tǒng)計(jì)信息并呈現(xiàn)給人才是最終目的。

          在github爬蟲的基礎(chǔ)上,我們可以擴(kuò)展出更加豐富的功能:使用echarts等圖表展示結(jié)果。

          要想讓更多人使用此爬蟲工具獲取自己的github統(tǒng)計(jì)信息,就需要將做成一個(gè)網(wǎng)站的形式,通過搜索頁(yè)面輸入用戶名,啟動(dòng)爬蟲立即爬取github信息,然后使用echarts進(jìn)行統(tǒng)計(jì)展示。網(wǎng)站肯定也要用js作為后端,這樣才能和js爬蟲無縫銜接,不然還要考慮跨語(yǔ)言調(diào)用。js后端有兩大web框架express和koa,二者API非常相似,并無優(yōu)劣之分,但express更加流行。

          如上設(shè)計(jì)有一處用戶體驗(yàn)不佳的地方:當(dāng)啟動(dòng)爬蟲爬取github信息時(shí),用戶可能需要等待好幾秒,這個(gè)過程不能讓用戶干等著。一種解決思路是:讓用戶看到爬蟲爬取的進(jìn)度或者爬取過程。可以通過websocket向用戶推送爬取過程信息并在前端進(jìn)行展示。展示時(shí),使用類似控制臺(tái)的界面進(jìn)行展示。

          如何存儲(chǔ)爬取到的數(shù)據(jù)呢?使用MongoDB或者文件都可以,最好實(shí)現(xiàn)兩種存儲(chǔ)方式,讓系統(tǒng)的存儲(chǔ)方式變得可配置。使用MongoDB時(shí),用到j(luò)s中的連接池框架generic-pool。

          整個(gè)項(xiàng)目用到的庫(kù)包括:

          • express:后端框架
          • cheerio+axios:爬蟲
          • ws:websocket展示爬取過程
          • webpack:打包工具
          • less:樣式語(yǔ)言
          • echarts:圖表展示
          • vue:模板渲染
          • jquery:DOM操作
          • mongodb:存儲(chǔ)數(shù)據(jù)
          • generic-pool:數(shù)據(jù)庫(kù)連接池

          試用地址:

          https://weiyinfu.cn/githubstatistic/search.html?

          案例地址:https://github.com/weiyinfu/GithubStatistic

          原文鏈接:https://zhuanlan.zhihu.com/p/53763115


          主站蜘蛛池模板: 国产精品一区二区三区99| 亚洲国产专区一区| 精品国产AⅤ一区二区三区4区| 日本韩国一区二区三区| 一区二区三区精品高清视频免费在线播放 | 激情啪啪精品一区二区| 美女一区二区三区| 国产嫖妓一区二区三区无码| 国产精品熟女一区二区| av无码一区二区三区| 亚洲制服丝袜一区二区三区| V一区无码内射国产| 无码毛片一区二区三区视频免费播放| 伊人色综合视频一区二区三区| 一区二区三区日韩| 中文字幕久久亚洲一区 | 精品亚洲一区二区| 亚洲A∨精品一区二区三区| 精品人妻无码一区二区三区蜜桃一 | 少妇无码AV无码一区| 国产伦精品一区二区三区在线观看| 亚洲av成人一区二区三区观看在线 | 国产精品一区二区久久| 国产乱码一区二区三区四| 国产精品福利一区二区| 国产一区二区好的精华液| 无码国产精品一区二区免费式影视| 在线观看国产一区二三区| 精品国产一区二区三区av片| 无码日韩精品一区二区免费| 97se色综合一区二区二区| 一本一道波多野结衣AV一区| 精品一区精品二区| 国产在线观看一区二区三区精品| 免费无码一区二区三区蜜桃| 国产成人久久精品一区二区三区| 日产亚洲一区二区三区| 国产成人一区二区三区免费视频 | 无码人妻少妇色欲AV一区二区 | 无码人妻一区二区三区免费看 | 亚洲A∨精品一区二区三区|