這篇文章我翻譯自:https://github.com/JonasCz/How-To-Prevent-Scraping,因?yàn)樽罱诳匆恍┓磁赖馁Y料,無意間在 Github 發(fā)現(xiàn)這篇文章,我覺得寫的很全面,所以想要翻譯一下,順便進(jìn)行吸收。另外讓我覺得非常贊的是這個(gè)文章從服務(wù)端和前端的角度都做了分析,我們應(yīng)該從哪些點(diǎn)去做優(yōu)化,而且每個(gè)點(diǎn)都舉了例子,有些還給出了注意點(diǎn)。雖然文中有些提到的一些點(diǎn)很基礎(chǔ),也有很多我們目前在業(yè)務(wù)中也在使用,但是我還是從中吸收到了一些新東西,里面文中外部鏈接有很多,但是公眾號(hào)這里不允許外鏈,所以大家可以點(diǎn)擊文末最后的"閱讀原文"到 Github 去查看,Github Markdown 的排版可能也比這里更好 : )。
(最后,有些倉(cāng)促,可能有些注意不到的措別字,還請(qǐng)多多包涵)
提示:這篇文章是我 Stack Overflow 這個(gè)問題回答的擴(kuò)展,我把它整理在 Github 因?yàn)樗鼘?shí)在是太長(zhǎng)了,超過了 Stack Overflow 的字?jǐn)?shù)限制(最多 3 萬個(gè)字,這文章已經(jīng)超過 4 萬字)
歡迎大家修改、完善還有分享,本文使用 CC-BY-SA 3.0 許可。
不幸的是這挺難的,你需要在防抓和降低真實(shí)用戶以及搜索引擎的可訪問性之間做一下權(quán)衡。
為了防爬(也稱為網(wǎng)頁(yè)抓取、屏幕抓取、網(wǎng)站數(shù)據(jù)挖掘、網(wǎng)站收割或者網(wǎng)站數(shù)據(jù)獲取),了解他們的工作原理很重要,這能防止他們能高效爬取,這個(gè)就是這篇文章的主要內(nèi)容。
通常情況下,抓取程序的目的是為了獲取你網(wǎng)站特定的信息,比如文章內(nèi)容、搜索結(jié)果、產(chǎn)品詳情還有網(wǎng)站上藝術(shù)家或者相冊(cè)信息。他們爬取這些內(nèi)容用于維護(hù)他們自己的網(wǎng)站(甚至通過你的內(nèi)容賺錢!),或者制作和你網(wǎng)站不一樣的前端界面(比如去做移動(dòng) APP),還有一些可能作為個(gè)人研究或分析使用。
實(shí)際上,有特別多的爬蟲類型,而且他們的爬取方式都不太相同:
以上不同的爬蟲類型有很多相同點(diǎn),很多爬蟲的行為也很相似,即使他們使用了不同的技術(shù)或者方案去爬取你的內(nèi)容。
這些大多數(shù)都是我自己的想法,我在寫爬蟲時(shí)也遇到許多困難,還有一些是來源于網(wǎng)絡(luò)。
一些常見的檢測(cè)和防止爬蟲的方法:
周期性的檢查你的日志,如果發(fā)現(xiàn)有異常活動(dòng)表明是自動(dòng)爬取(爬蟲),類似某一個(gè)相同的 IP 很多相同的行為,那你就可以阻止或限制訪問。
一些常用的方法:
舉個(gè)例子,如果某個(gè) IP 請(qǐng)求了你網(wǎng)站很多次,所有的訪問都有相同的 UserAgent 、屏幕尺寸(JavaScript 檢測(cè)),還有全都使用同樣的方式和固定的時(shí)間間隔點(diǎn)擊同一個(gè)按鈕,那它大概是一個(gè)屏幕爬蟲;你可以臨時(shí)限制相似的請(qǐng)求(比如 只限制來自那個(gè) IP 特定 User-Agent 和 屏幕尺寸的請(qǐng)求),這樣你不會(huì)誤傷同樣使用這個(gè) IP 的真實(shí)用戶,比如共享網(wǎng)絡(luò)鏈接的用戶。
更進(jìn)一步,當(dāng)你發(fā)現(xiàn)相似的請(qǐng)求,但是來自不同的 IP 地址,表明是分布式爬蟲(使用僵尸網(wǎng)絡(luò)或網(wǎng)絡(luò)代理的爬蟲)。如果你收到類似大量的請(qǐng)求,但是他們來自不同的 IP 地址,你可以拒絕訪問。再?gòu)?qiáng)調(diào)一下,小心不經(jīng)意限制了真實(shí)用戶。
這種方法對(duì)那種運(yùn)行 JavaScript 的屏幕爬蟲比較有效,因?yàn)槟憧梢垣@得他們大量的信息。
Stack Exchange 上關(guān)于 Secruity 的相關(guān)問題:
How to uniquely identify users with the same external IP address?
Why do people use IP address bans when IP addresses often change? 關(guān)于僅使用 IP 的其他限制
如果可行,要求創(chuàng)建用戶才可以查看你的內(nèi)容。這個(gè)可以很好的遏制爬蟲,但很容易遏制真實(shí)用戶:
為了防止爬蟲創(chuàng)建大量的用戶,你應(yīng)該:
要求注冊(cè)用戶對(duì)用戶和搜索引擎來說不友好;如果你要求必須注冊(cè)才可以看文章,那用戶也可能直接離開。
有時(shí)爬蟲會(huì)被運(yùn)行在云服務(wù)商,比如 Amazon Web Services 或 Google App Engine,或者其他 VPS。限制這些來自云服務(wù)商的 IP 地址訪問你的網(wǎng)站(或出驗(yàn)證碼)。你可以可以直接對(duì)來自爬取服務(wù)的 IP 地址限制訪問。
類似的,你也可以限制來自代理或 VPN 的 IP 地址,因?yàn)楹芏嗯老x會(huì)使用它們來防止被檢測(cè)到。
但是要知道限制來自代理服務(wù)器或 VPN 的 IP,也很容易影響到真實(shí)用戶。
如果你要封禁或限制訪問,你應(yīng)該確保不要把導(dǎo)致封禁的原因告訴爬蟲,他們會(huì)根據(jù)提示修改自己的爬蟲程序。所以下面的這些錯(cuò)誤最好不要出現(xiàn):
想法的,展示一些不包含原因的友好信息會(huì)更好,比如下面的信息會(huì)更好:
如果真實(shí)用戶看到這個(gè)錯(cuò)誤頁(yè)面,這個(gè)對(duì)真實(shí)用戶來說也十分友好。在后續(xù)訪問中,你也可以考慮展示驗(yàn)證碼而不是直接封禁,如果真實(shí)用戶看到這個(gè)錯(cuò)誤信息,對(duì)于合法用戶也會(huì)聯(lián)系你。
驗(yàn)證碼(Captcha,“Completely Automated Test to Tell Computers and Humans Apart”)對(duì)于防爬十分有效。不幸的是,它也很容易惹惱用戶。
因此,如果你發(fā)現(xiàn)疑似爬蟲,而且想要阻止它的爬取行為,而不是封禁它以免它是真實(shí)用戶。你可以考慮顯示驗(yàn)證碼在你再次允許訪問之前。
使用驗(yàn)證碼的注意事項(xiàng):
你可以在服務(wù)端將文字渲染成圖片顯示,他將防止簡(jiǎn)單的爬蟲去獲取文字內(nèi)容。
然而,這個(gè)對(duì)于屏幕閱讀器、搜索引擎、性能還有一些其他一些事情都不太好。這個(gè)在某些方面也是不違法的(源于訪問性問題,eg. the Americans with Disabilities Act),而且對(duì)于一些 OCR 爬蟲也能非常簡(jiǎn)單的規(guī)避,所以不要采用這種方式。
你也可以用 CSS sprites 做類似的事情,但是也有相同的問題。
如果可以的話,不要讓腳本/爬蟲能獲取你所有的數(shù)據(jù)。舉個(gè)例子:你有一個(gè)新聞?wù)荆写罅康膫€(gè)人文章。你應(yīng)該確保文章只能通過你自己網(wǎng)站的搜索到,如果你網(wǎng)站不是到處都有你的文章還有鏈接,那么確保它們只能被搜索功能訪問到。這意味著如果一個(gè)腳本想要獲取你網(wǎng)站的所有文章,就必須通過你站點(diǎn)文章中所有可能的短語(yǔ)去進(jìn)行搜索,從而獲取所有的文章列表,但是這個(gè)會(huì)非常耗時(shí),而且低效,從而讓爬蟲放棄。
以下操作會(huì)讓你完全暴露:
確保你不會(huì)暴露你的任何 API,很多時(shí)候都是無意間暴露。舉個(gè)例子,如果你正在使用 AJAX 或 Adobe Flash 的網(wǎng)絡(luò)請(qǐng)求 或 Java Applet(千萬不要用!)來加載你的數(shù)據(jù),從這些網(wǎng)絡(luò)請(qǐng)求中找到要請(qǐng)求的 API 十分簡(jiǎn)單,比如可以進(jìn)行反編譯然后在爬蟲程序中使用這些接口。確保你混淆了你的 API 并且其他人要用它會(huì)非常難破解。
由于 HTML 解析器是通過分析頁(yè)面特定結(jié)構(gòu)去獲取內(nèi)容,我們可以故意修改這些結(jié)構(gòu)來阻止這類爬蟲,甚至從根本上他們獲取內(nèi)容。下面大多數(shù)做法對(duì)其他類型爬蟲如搜索引擎蜘蛛、屏幕爬蟲也有效。
處理 HTML 的爬蟲通過分析特定可識(shí)別的部分來處理 HTML。舉個(gè)例子:如果你所有的頁(yè)面都有 id 為 article-content 的 div 結(jié)構(gòu),然后里面有你的文章內(nèi)容,那要獲取你站點(diǎn)所有文章內(nèi)容是十分簡(jiǎn)單的,只要解析那個(gè) article-content 那個(gè) div 就可以了,然后有這個(gè)結(jié)構(gòu)的爬蟲就可以把你的文章隨便用在什么地方。
如果你常常修改 HTML 還有你頁(yè)面的結(jié)構(gòu), 那這類爬蟲就不能一直使用。
本質(zhì)上來說,就是確保爬蟲從相似頁(yè)面獲取想要的內(nèi)容變得不那么容易。
可以參考這個(gè) PHP 的實(shí)現(xiàn):How to prevent crawlers depending on XPath from getting page contents
這個(gè)和前一個(gè)類似。如果你根據(jù)不同用戶的位置/國(guó)家(根據(jù) IP 獲取)來提供不同的 HTML,這個(gè)可能會(huì)破壞將站點(diǎn) HTML 給用戶的爬蟲。比如,如果有人寫了一個(gè)移動(dòng) APP 來抓取你的站點(diǎn),一開始可以用,但是對(duì)于不同地區(qū)的用戶就不起作用了,因?yàn)樗麄儠?huì)獲取到不同的 HTML 結(jié)構(gòu),嵌入式的 HTML 將不不能正常使用。
舉個(gè)例子:你有一個(gè)包含搜索功能的網(wǎng)站, example.com/search?query=somesearchquery 的搜索結(jié)果是下面的 HTML 結(jié)構(gòu):
<div class="search-result">
<h3 class="search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>
<p class="search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>
<a class"search-result-link" href="/stories/stack-overflow-has-become-the-most-popular">Read more</a>
</div>
(And so on, lots more identically structured divs with search results)
你可以猜到這個(gè)非常容易爬取:一個(gè)爬蟲需要做的就只是訪問搜索鏈接,然后從返回的 HTML 分析想要的數(shù)據(jù)。除了定期修改上面 HTML 的內(nèi)容,你也可以 保留舊結(jié)構(gòu)的 id 和 class,然后使用 CSS 進(jìn)行隱藏,并使用假數(shù)據(jù)進(jìn)行填充,從而給爬蟲投毒 。比如像下面這樣:
<div class="the-real-search-result">
<h3 class="the-real-search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>
<p class="the-real-search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>
<a class"the-real-search-result-link" href="/stories/stack-overflow-has-become-the-most-popular">Read more</a>
</div>
<div class="search-result" style="display:none">
<h3 class="search-result-title">Visit example.com now, for all the latest Stack Overflow related news !</h3>
<p class="search-result-excerpt">EXAMPLE.COM IS SO AWESOME, VISIT NOW! (Real users of your site will never see this, only the scrapers will.)</p>
<a class"search-result-link" href="http://example.com/">Visit Now !</a>
</div>
(More real search results follow)
這意味著基于 id 或 class 獲取特定數(shù)據(jù)的爬蟲仍然能繼續(xù)工作,但是他們將會(huì)獲取假數(shù)據(jù)甚至廣告,而這些數(shù)據(jù)真實(shí)用戶是看不到的,因?yàn)樗麄儽?CSS 隱藏了。
對(duì)上個(gè)例子進(jìn)行補(bǔ)充,你可以在你的 HTML 里面增加不可見的蜜罐數(shù)據(jù)來抓住爬蟲。下面的例子來補(bǔ)充之前說的搜索結(jié)果:
<div class="search-result" style="display:none">
<h3 class="search-result-title">This search result is here to prevent scraping</h3>
<p class="search-result-excerpt">If you're a human and see this, please ignore it. If you're a scraper, please click the link below :-)
Note that clicking the link below will block access to this site for 24 hours.</p>
<a class"search-result-link" href="/scrapertrap/scrapertrap.php">I'm a scraper !</a>
</div>
(The actual, real, search results follow.)
一個(gè)來獲取所有內(nèi)容的爬蟲將會(huì)被找到,就像獲取其他結(jié)果一樣,訪問鏈接,查找想要的內(nèi)容。一個(gè)真人將不會(huì)看到(因?yàn)槭褂?CSS 隱藏),而且更不會(huì)訪問這個(gè)鏈接。而正規(guī)或者期望的蜘蛛比如谷歌的蜘蛛將不會(huì)訪問這個(gè)鏈接,因?yàn)槟憧梢詫?/scrapertrap/ 加入你的 robots.txt 中(不要忘記增加)
你可以讓你的 scrapertrap.php 做一些比如限制這個(gè) IP 訪問的事情,或者強(qiáng)制這個(gè) IP 之后的請(qǐng)求出驗(yàn)證碼。
如果你確定某個(gè)訪問是爬蟲,你可以提供假的或者無用的數(shù)據(jù);這將破壞爬蟲從你網(wǎng)站獲取的數(shù)據(jù)。你還應(yīng)該把它和真實(shí)數(shù)據(jù)進(jìn)行混淆,這樣爬蟲就不知道他們獲取的到底是真的還是假的數(shù)據(jù)。
舉個(gè)例子:如果你有一個(gè)新聞?wù)荆銠z測(cè)到了一個(gè)爬蟲,不要去直接封禁它,而是提供假的或者隨機(jī)生成的文章,那爬蟲獲取的數(shù)據(jù)將會(huì)被破壞。如果你將假數(shù)據(jù)和真實(shí)的數(shù)據(jù)進(jìn)行混淆,那爬蟲很難獲取到他們想要的真實(shí)文章。
很多懶惰的程序員不會(huì)在他們的爬蟲發(fā)請(qǐng)求時(shí)帶上 UserAgent,而所有的瀏覽器包括搜索引擎蜘蛛都會(huì)攜帶。
如果請(qǐng)求你時(shí)沒有攜帶 UserAgent header 頭,你可以展示驗(yàn)證碼,或者直接封禁或者限制訪問(或者像上面說的提供假數(shù)據(jù)或者其他的)
這個(gè)非常簡(jiǎn)單去避免,但是作為一種針對(duì)書寫不當(dāng)?shù)呐老x,是值得去做的。
很多情況下,爬蟲將會(huì)使用真實(shí)瀏覽器或搜索引擎爬蟲絕對(duì)不會(huì)使用的 UserAgent,比如:
如果你發(fā)現(xiàn)一些爬蟲使用真實(shí)瀏覽器或合法蜘蛛絕對(duì)不會(huì)使用的 UserAgent,你可以將其添加到你的黑名單中。
對(duì)上一章節(jié)的補(bǔ)充,你也可以檢查 [Referer] (https://en.wikipedia.org/wiki/HTTP_referer header) (是的,它是 Referer,而不是 Referrer),一些懶惰的爬蟲可能不會(huì)攜帶的這個(gè),或者只是每次都攜帶一樣的(有時(shí)候是 “google.com”)。舉個(gè)例子,如果用戶是從站內(nèi)搜索結(jié)果頁(yè)點(diǎn)擊進(jìn)入文章詳情的,那要檢查 Referer 這個(gè) header 頭是否存在還要看搜索結(jié)果頁(yè)的打點(diǎn)。
注意:
還是,作為一種防止簡(jiǎn)單爬蟲的方法,也值得去實(shí)現(xiàn)。
一個(gè)真實(shí)瀏覽器(通常)會(huì)請(qǐng)求和下載資源比如 CSS 和 圖片。HTML 解析器和爬取器可能只關(guān)心特定的頁(yè)面和內(nèi)容。
你可以基于訪問你資源的日志,如果你看到很多請(qǐng)求只請(qǐng)求 HTML,那它可能就是爬蟲。
注意搜索引擎蜘蛛、舊的移動(dòng)設(shè)備、屏幕閱讀器和設(shè)置錯(cuò)誤的設(shè)備可能也不會(huì)請(qǐng)求資源。
訪問你網(wǎng)站時(shí),你可以要求 cookie 必須開啟。這個(gè)能識(shí)別沒有經(jīng)驗(yàn)和爬蟲新手,然而爬蟲要攜帶 Cookie 也十分簡(jiǎn)單。如果你要求開啟 Cookie,你能使用它們來追蹤用戶和爬蟲的行為,然后基于此來實(shí)現(xiàn)頻率限制、封禁、或者顯示驗(yàn)證碼而不僅僅依賴 IP 地址。
舉個(gè)例子:當(dāng)用戶進(jìn)行搜索時(shí),設(shè)置一個(gè)唯一的 Cookie。當(dāng)搜索結(jié)果加載出來之后,驗(yàn)證這個(gè) Cookie。如果一個(gè)用戶打開了所有的搜索結(jié)果(可以從 Cookie 中得知),那很可能就是爬蟲
使用 Cookie 可能是低效的,因?yàn)榕老x也可以攜帶 Cookie 發(fā)送請(qǐng)求,也可以根據(jù)需要丟棄。如果你的網(wǎng)站只能在開啟 Cookie 時(shí)使用,你也不能給關(guān)閉 Cookie 的用戶提供服務(wù)。
要注意如果你使用 JavaScript 去設(shè)置和檢測(cè) Cookie,你能封禁那些沒有運(yùn)行 JavaScript 的爬蟲,因?yàn)樗鼈儧]辦法獲取和發(fā)送 Cookie。
你可以在頁(yè)面加載完成之后,使用 JavaScript + AJAX 來加載你的內(nèi)容。這個(gè)對(duì)于那些沒有運(yùn)行 JavaScript 的 HTML 分析器來說將無法取得數(shù)據(jù)。這個(gè)對(duì)于沒有經(jīng)驗(yàn)或者新手程序員寫的爬蟲非常有效。
注意:
如果你用 Ajax 和 JavaScript 加載你的數(shù)據(jù),在傳輸?shù)臅r(shí)候要混淆一下。比如,你可以在服務(wù)器端 encode 你的數(shù)據(jù)(比如簡(jiǎn)單的使用 base64 或 負(fù)載一些的多次混淆、位偏移或者是進(jìn)行加密),然后在客戶端在 Ajax 獲取數(shù)據(jù)之后再進(jìn)行 decode。這意味著如果有人要抓包獲取你的請(qǐng)求就不能直接看到你頁(yè)面如何加載數(shù)據(jù),而且那些人也不能直接通過 API 獲得你的數(shù)據(jù),如果想要獲取數(shù)據(jù),就必須要去解密你的算法。
下面是一些這個(gè)方式的缺點(diǎn):
比如,CloudFlare 提供反蜘蛛和反爬蟲的防御,你只需要直接啟用它就可以了,另外 AWS 也提供類似服務(wù)。而且 Apache 的 mod_evasive 模塊也能讓你很輕松地實(shí)現(xiàn)頻率限制。
你應(yīng)該直接告訴人們不要抓取你的網(wǎng)站,比如,在你的服務(wù)條款中表明。有些人確實(shí)會(huì)尊重它,而且不在你允許的情況下不會(huì)再去抓取數(shù)據(jù)。
律師們知道如何處理侵犯版權(quán)的事情,而且他們可以發(fā)送律師函。DMCA(譯者注:Digital Millennium Copyright Act,數(shù)字千年版權(quán)法案,是一個(gè)美國(guó)版權(quán)法律) 也能提供援助。
這看起來適得其反,但是你可以要求標(biāo)明來源并包含返回你站點(diǎn)的鏈接。甚至也可以售賣你的 API 而賺取費(fèi)用。
還有就是,Stack Exchange 提供了 API,但是必須要標(biāo)明來源。
以我自己寫和幫忙別人寫爬蟲的經(jīng)驗(yàn),我認(rèn)為最有效的方法是:
擴(kuò)展閱讀:
作者:h1z3y3
來源:微信公眾號(hào): 360搜索技術(shù)團(tuán)隊(duì)
出處:https://mp.weixin.qq.com/s?__biz=MzA5ODIxODE2Ng==&mid=2651137205&idx=1&sn=664a46d66f132c96780750d4e9b206eb
"防火墻"這個(gè)詞大家應(yīng)該都聽說過或者應(yīng)用過,每個(gè)人的電腦、手機(jī)幾乎都會(huì)安裝一些的主流的防火墻軟件,工作的企事業(yè)單位網(wǎng)絡(luò)里都會(huì)安裝硬件防火墻。那么這些防火墻能阻擋住黑客的攻擊嗎?今天我就和大家分享一下這個(gè)話題!
一、首先我們需要知道防火墻的原理或者說主要功能
1、什么是防火墻?
官方定義:防火墻也被稱為防護(hù)墻,它是一種位于內(nèi)部網(wǎng)絡(luò)與外部網(wǎng)絡(luò)之間的網(wǎng)絡(luò)安全系統(tǒng),可以將內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)隔離。通常,防火墻可以保護(hù)內(nèi)部/私有局域網(wǎng)免受外部攻擊,并防止重要數(shù)據(jù)泄露。在沒有防火墻的情況下,路由器會(huì)在內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)之間盲目傳遞流量且沒有過濾機(jī)制,而防火墻不僅能夠監(jiān)控流量,還能夠阻止未經(jīng)授權(quán)的流量。
簡(jiǎn)單理解:防火墻是由軟件或者軟件和硬件組成的系統(tǒng),它處于安全的網(wǎng)絡(luò)(通常是內(nèi)部局域網(wǎng))和不安全的網(wǎng)絡(luò)之間,根據(jù)由系統(tǒng)管理員設(shè)置的訪問控制規(guī)則,對(duì)數(shù)據(jù)流進(jìn)行過濾。
2、防火墻基本分類和工作原理
1) 包過濾防火墻
這是第一代防火墻,又稱為網(wǎng)絡(luò)層防火墻,在每一個(gè)數(shù)據(jù)包傳送到源主機(jī)時(shí)都會(huì)在網(wǎng)絡(luò)層進(jìn)行過濾,對(duì)于不合法的數(shù)據(jù)訪問,防火墻會(huì)選擇阻攔以及丟棄。這 種防火墻的連接可以通過一個(gè)網(wǎng)卡即一張網(wǎng)卡由內(nèi)網(wǎng)的IP地址,又有公網(wǎng)的IP地址和兩個(gè)網(wǎng)卡一個(gè)網(wǎng)卡上有私有網(wǎng)絡(luò)的IP地址,另一個(gè)網(wǎng)卡有外部網(wǎng)絡(luò)的IP 地址。
第一代防火墻和最基本形式防火墻檢查每一個(gè)通過的網(wǎng)絡(luò)包,或者丟棄,或者放行,取決于所建立的一套規(guī)則。這稱為包過濾防火墻。
本質(zhì)上,包過濾防火墻是多址的,表明它有兩個(gè)或兩個(gè)以上網(wǎng)絡(luò)適配器或接口。例如,作為防火墻的設(shè)備可能有兩塊網(wǎng)卡(NIC),一塊連到內(nèi)部網(wǎng)絡(luò),一塊連到公共的Internet。防火墻的任務(wù),就是作為"通信警察",指引包和截住那些有危害的包。
包過濾防火墻檢查每一個(gè)傳入包,查看包中可用的基本信息(源地址和目的地址、端口號(hào)、協(xié)議等)。然后,將這些信息與設(shè)立的規(guī)則相比較。如果已經(jīng)設(shè)立了阻斷telnet連接,而包的目的端口是23的話,那么該包就會(huì)被丟棄。如果允許傳入Web連接,而目的端口為80,則包就會(huì)被放行。
多個(gè)復(fù)雜規(guī)則的組合也是可行的。如果允許Web連接,但只針對(duì)特定的服務(wù)器,目的端口和目的地址二者必須與規(guī)則相匹配,才可以讓該包通過。
最后,可以確定當(dāng)一個(gè)包到達(dá)時(shí),如果對(duì)該包沒有規(guī)則被定義,接下來將會(huì)發(fā)生什么事情了。通常,為了安全起見,與傳入規(guī)則不匹配的包就被丟棄了。如果有理由讓該包通過,就要建立規(guī)則來處理它。
建立包過濾防火墻規(guī)則的例子如下:
對(duì)來自專用網(wǎng)絡(luò)的包,只允許來自內(nèi)部地址的包通過,因?yàn)槠渌徽_的包頭部信息。這條規(guī)則可以防止網(wǎng)絡(luò)內(nèi)部的任何人通過欺騙性的源地址發(fā)起攻擊。而且,如果黑客對(duì)專用網(wǎng)絡(luò)內(nèi)部的機(jī)器具有了不知從何得來的訪問權(quán),這種過濾方式可以阻止黑客從網(wǎng)絡(luò)內(nèi)部發(fā)起攻擊。
在公共網(wǎng)絡(luò),只允許目的地址為80端口的包通過。這條規(guī)則只允許傳入的連接為Web連接。這條規(guī)則也允許與Web連接使用相同端口的連接,所以它并不是十分安全。
丟棄從公共網(wǎng)絡(luò)傳入的包,而這些包都有你的網(wǎng)絡(luò)內(nèi)的源地址,從而減少IP欺騙性的攻擊。
丟棄包含源路由信息的包,以減少源路由攻擊。要記住,在源路由攻擊中,傳入的包包含路由信息,它覆蓋了包通過網(wǎng)絡(luò)應(yīng)采取得正常路由,可能會(huì)繞過已有的安全程序。
2) 狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻
狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻,試圖跟蹤通過防火墻的網(wǎng)絡(luò)連接和包,這樣防火墻就可以使用一組附加的標(biāo)準(zhǔn),以確定是否允許和拒絕通信。它是在使用了基本包過濾防火墻的通信上應(yīng)用一些技術(shù)來做到這點(diǎn)的。
當(dāng)包過濾防火墻見到一個(gè)網(wǎng)絡(luò)包,包是孤立存在的。它沒有防火墻所關(guān)心的歷史或未來。允許和拒絕包的決定完全取決于包自身所包含的信息,如源地址、目的地址、端口號(hào)等。包中沒有包含任何描述它在信息流中的位置的信息,則該包被認(rèn)為是無狀態(tài)的;它僅是存在而已。
一個(gè)有狀態(tài)包檢查防火墻跟蹤的不僅是包中包含的信息。為了跟蹤包的狀態(tài),防火墻還記錄有用的信息以幫助識(shí)別包,例如已有的網(wǎng)絡(luò)連接、數(shù)據(jù)的傳出請(qǐng)求等。
例如,如果傳入的包包含視頻數(shù)據(jù)流,而防火墻可能已經(jīng)記錄了有關(guān)信息,是關(guān)于位于特定IP地址的應(yīng)用程序最近向發(fā)出包的源地址請(qǐng)求視頻信號(hào)的信息。如果傳入的包是要傳給發(fā)出請(qǐng)求的相同系統(tǒng),防火墻進(jìn)行匹配,包就可以被允許通過。
一個(gè)狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻可截?cái)嗨袀魅氲耐ㄐ牛试S所有傳出的通信。因?yàn)榉阑饓Ω檭?nèi)部出去的請(qǐng)求,所有按要求傳入的數(shù)據(jù)被允許通過,直到連接被關(guān)閉為止。只有未被請(qǐng)求的傳入通信被截?cái)唷?/p>
如果在防火墻內(nèi)正運(yùn)行一臺(tái)服務(wù)器,配置就會(huì)變得稍微復(fù)雜一些,但狀態(tài)包檢查是很有力和適應(yīng)性的技術(shù)。例如,可以將防火墻配置成只允許從特定端口進(jìn)入的通信,只可傳到特定服務(wù)器。如果正在運(yùn)行Web服務(wù)器,防火墻只將80端口傳入的通信發(fā)到指定的Web服務(wù)器。
狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻可提供的其他一些額外的服務(wù)有:
將某些類型的連接重定向到審核服務(wù)中去。例如,到專用Web服務(wù)器的連接,在Web服務(wù)器連接被允許之前,可能被發(fā)到SecutID服務(wù)器(用一次性口令來使用)。
拒絕攜帶某些數(shù)據(jù)的網(wǎng)絡(luò)通信,如帶有附加可執(zhí)行程序的傳入電子消息,或包含ActiveX程序的Web頁(yè)面。
跟蹤連接狀態(tài)的方式取決于包通過防火墻的類型:
TCP包。當(dāng)建立起一個(gè)TCP連接時(shí),通過的第一個(gè)包被標(biāo)有包的SYN標(biāo)志。通常情況下,防火墻丟棄所有外部的連接企圖,除非已經(jīng)建立起某條特定規(guī)則來處理它們。對(duì)內(nèi)部的連接試圖連到外部主機(jī),防火墻注明連接包,允許響應(yīng)及隨后再兩個(gè)系統(tǒng)之間的包,直到連接結(jié)束為止。在這種方式下,傳入的包只有在它是響應(yīng)一個(gè)已建立的連接時(shí),才會(huì)被允許通過。
UDP包。UDP包比TCP包簡(jiǎn)單,因?yàn)樗鼈儾话魏芜B接或序列信息。它們只包含源地址、目的地址、校驗(yàn)和攜帶的數(shù)據(jù)。這種信息的缺乏使得防火墻確定包的合法性很困難,因?yàn)闆]有打開的連接可利用,以測(cè)試傳入的包是否應(yīng)被允許通過。可是,如果防火墻跟蹤包的狀態(tài),就可以確定。對(duì)傳入的包,若它所使用的地址和UDP包攜帶的協(xié)議與傳出的連接請(qǐng)求匹配,該包就被允許通過。和TCP包一樣,沒有傳入的UDP包會(huì)被允許通過,除非它是響應(yīng)傳出的請(qǐng)求或已經(jīng)建立了指定的規(guī)則來處理它。對(duì)其他種類的包,情況和UDP包類似。防火墻仔細(xì)地跟蹤傳出的請(qǐng)求,記錄下所使用的地址、協(xié)議和包的類型,然后對(duì)照保存過的信息核對(duì)傳入的包,以確保這些包是被請(qǐng)求的。
3) 應(yīng)用程序代理防火墻
應(yīng)用程序代理防火墻實(shí)際上并不允許在它連接的網(wǎng)絡(luò)之間直接通信。相反,它是接受來自內(nèi)部網(wǎng)絡(luò)特定用戶應(yīng)用程序的通信,然后建立于公共網(wǎng)絡(luò)服務(wù)器單獨(dú)的連接。網(wǎng)絡(luò)內(nèi)部的用戶不直接與外部的服務(wù)器通信,所以服務(wù)器不能直接訪問內(nèi)部網(wǎng)的任何一部分。
另外,如果不為特定的應(yīng)用程序安裝代理程序代碼,這種服務(wù)是不會(huì)被支持的,不能建立任何連接。這種建立方式拒絕任何沒有明確配置的連接,從而提供了額外的安全性和控制性。
例如,一個(gè)用戶的Web瀏覽器可能在80端口,但也經(jīng)常可能是在1080端口,連接到了內(nèi)部網(wǎng)絡(luò)的HTTP代理防火墻。防火墻然后會(huì)接受這個(gè)連接請(qǐng)求,并把它轉(zhuǎn)到所請(qǐng)求的Web服務(wù)器。
這種連接和轉(zhuǎn)移對(duì)該用戶來說是透明的,因?yàn)樗耆怯纱矸阑饓ψ詣?dòng)處理的。
代理防火墻通常支持的一些常見的應(yīng)用程序協(xié)議有:
HTTP
HTTPS/SSL
SMTP
POP3
IMAP
NNTP
TELNET
FTP
IRC
應(yīng)用程序代理防火墻可以配置成允許來自內(nèi)部網(wǎng)絡(luò)的任何連接,它也可以配置成要求用戶認(rèn)證后才建立連接。要求認(rèn)證的方式由只為已知的用戶建立連接的這種限制,為安全性提供了額外的保證。如果網(wǎng)絡(luò)受到危害,這個(gè)特征使得從內(nèi)部發(fā)動(dòng)攻擊的可能性大大減少。
4) NAT
討論到防火墻的主題,就一定要提到有一種路由器,盡管從技術(shù)上講它根本不是防火墻。網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)協(xié)議將內(nèi)部網(wǎng)絡(luò)的多個(gè)IP地址轉(zhuǎn)換到一個(gè)公共地址發(fā)到Internet上。
NAT經(jīng)常用于小型辦公室、家庭等網(wǎng)絡(luò),多個(gè)用戶分享單一的IP地址,并為Internet連接提供一些安全機(jī)制。
當(dāng)內(nèi)部用戶與一個(gè)公共主機(jī)通信時(shí),NAT追蹤是哪一個(gè)用戶作的請(qǐng)求,修改傳出的包,這樣包就像是來自單一的公共IP地址,然后再打開連接。一旦建立了連接,在內(nèi)部計(jì)算機(jī)和Web站點(diǎn)之間來回流動(dòng)的通信就都是透明的了。
當(dāng)從公共網(wǎng)絡(luò)傳來一個(gè)未經(jīng)請(qǐng)求的傳入連接時(shí),NAT有一套規(guī)則來決定如何處理它。如果沒有事先定義好的規(guī)則,NAT只是簡(jiǎn)單的丟棄所有未經(jīng)請(qǐng)求的傳入連接,就像包過濾防火墻所做的那樣。
可是,就像對(duì)包過濾防火墻一樣,你可以將NAT配置為接受某些特定端口傳來的傳入連接,并將它們送到一個(gè)特定的主機(jī)地址。
5) 個(gè)人主機(jī)防火墻
現(xiàn)在網(wǎng)絡(luò)上流傳著很多的個(gè)人防火墻軟件,它是應(yīng)用程序級(jí)的。主機(jī)防火墻是一種能夠保護(hù)個(gè)人計(jì)算機(jī)系統(tǒng)安全的軟件,它可以直接在用戶的計(jì)算機(jī)上運(yùn)行,使用與狀態(tài)/動(dòng)態(tài)檢測(cè)防火墻相同的方式,保護(hù)一臺(tái)計(jì)算機(jī)免受攻擊。通常,這些防火墻是安裝在計(jì)算機(jī)網(wǎng)絡(luò)接口的較低級(jí)別上,使得它們可以監(jiān)視傳入傳出網(wǎng)卡的所有網(wǎng)絡(luò)通信。
一旦安裝上個(gè)人防火墻,就可以把它設(shè)置成"學(xué)習(xí)模式",這樣的話,對(duì)遇到的每一種新的網(wǎng)絡(luò)通信,個(gè)人防火墻都會(huì)提示用戶一次,詢問如何處理那種通信。然后個(gè)人防火墻便記住響應(yīng)方式,并應(yīng)用于以后遇到的相同那種網(wǎng)絡(luò)通信。
例如,如果用戶已經(jīng)安裝了一臺(tái)個(gè)人Web服務(wù)器,個(gè)人防火墻可能將第一個(gè)傳入的Web連接作上標(biāo)志,并詢問用戶是否允許它通過。用戶可能允許所有的Web連接、來自某些特定IP地址范圍的連接等,個(gè)人防火墻然后把這條規(guī)則應(yīng)用于所有傳入的Web連接。
基本上,你可以將個(gè)人防火墻想象成在用戶計(jì)算機(jī)上建立了一個(gè)虛擬網(wǎng)絡(luò)接口。不再是計(jì)算機(jī)的操作系統(tǒng)直接通過網(wǎng)卡進(jìn)行通信,而是以操作系統(tǒng)通過和個(gè)人防火墻對(duì)話,仔細(xì)檢查網(wǎng)絡(luò)通信,然后再通過網(wǎng)卡通信。
6) Web應(yīng)用防火墻
Web應(yīng)用防火墻是通過執(zhí)行一系列針對(duì)HTTP/HTTPS的來專門為Web應(yīng)用提供保護(hù)的一款產(chǎn)品,當(dāng)WEB應(yīng)用越來越為豐富的同時(shí),WEB 服務(wù)器以其強(qiáng)大的計(jì)算能力、處理性能及蘊(yùn)含的較高價(jià)值逐漸成為主要攻擊目標(biāo)。SQL注入、網(wǎng)頁(yè)篡改、網(wǎng)頁(yè)掛馬等安全事件,頻繁發(fā)生。因此誕生了針對(duì)這一些安全隱患的防火墻,與上述防火墻不同,WAF工作在應(yīng)用層,因此對(duì)Web應(yīng)用防護(hù)具有先天的技術(shù)優(yōu)勢(shì)。基于對(duì)Web應(yīng)用業(yè)務(wù)和邏輯的深刻理解,WAF對(duì)來自Web應(yīng)用程序客戶端的各類請(qǐng)求進(jìn)行內(nèi)容檢測(cè)和驗(yàn)證,確保其安全性與合法性,對(duì)非法的請(qǐng)求予以實(shí)時(shí)阻斷,從而對(duì)各類網(wǎng)站站點(diǎn)進(jìn)行有效防護(hù)。
主要特點(diǎn):
WAF不僅僅只是防御Web的http訪問,可以對(duì)Web應(yīng)用做到全方位的立體防護(hù)。可以防范:
· 常見的命令注入攻擊,利用網(wǎng)頁(yè)漏洞將含有操作系統(tǒng)或軟件平臺(tái)命令注入到網(wǎng)頁(yè)訪問語(yǔ)句中以盜取數(shù)據(jù)或后端服務(wù)器的控制權(quán)
· SQL 注入,找到數(shù)據(jù)查詢語(yǔ)句漏洞,通過數(shù)據(jù)庫(kù)查詢代碼竊取或修改數(shù)據(jù)庫(kù)中的數(shù)據(jù)
· 跨站腳本攻擊,利用網(wǎng)站漏洞攻擊訪問該站點(diǎn)的用戶,用戶登陸或認(rèn)證信息;
· 各種HTTP 協(xié)議攻擊,利用http的協(xié)議漏洞進(jìn)行攻擊;
· 機(jī)器人、 爬蟲和掃描,通過機(jī)器人,爬蟲,和掃描工具自動(dòng)抓取網(wǎng)站數(shù)據(jù)以及對(duì)網(wǎng)站進(jìn)行自動(dòng)攻擊;
· 常見的應(yīng)用程序配置錯(cuò)誤 (如 Apache、 IIS 等),利用Web發(fā)布程序的配置漏洞或者已知bug進(jìn)行攻擊
主要功能:
①防攻擊:功能主要關(guān)注Web應(yīng)用并試圖入侵網(wǎng)絡(luò)服務(wù)器的攻擊事件過程。可以覆蓋OWASP TOP 10、WASC、PCI DSS等標(biāo)準(zhǔn),包括、、攻擊等。
②防漏洞:可對(duì)網(wǎng)站中的敏感信息、服務(wù)器信息進(jìn)行屏蔽或偽裝,達(dá)到避免數(shù)據(jù)泄露的隱患。成功的攻擊往往需要利用服務(wù)器的IP、操作系統(tǒng)信息、應(yīng)用信息、服務(wù)器出錯(cuò)信息、數(shù)據(jù)庫(kù)出錯(cuò)信息,KS-WAF接管所有返回給客戶端的信息,并可中止會(huì)話,避免黑客利用敏感信息及服務(wù)器信息發(fā)動(dòng)攻擊、各類黑客入侵攻擊。
③防掛馬:隨著監(jiān)管部門的打擊力度逐漸加強(qiáng),掛馬攻擊的數(shù)量越來越少,與此同時(shí),地下逐漸轉(zhuǎn)向了。為了應(yīng)對(duì)這個(gè)情況,KS-WAF系統(tǒng)內(nèi)置了針對(duì)當(dāng)前流行的暗鏈攻擊建立的惡意指紋庫(kù),在服務(wù)器端已被植入暗鏈的情況下可準(zhǔn)確識(shí)別并進(jìn)行報(bào)警,協(xié)助管理員清除暗鏈代碼。
④URL檢測(cè):通過實(shí)現(xiàn)URL級(jí)別的,對(duì)客戶端請(qǐng)求進(jìn)行檢測(cè),如果發(fā)現(xiàn)圖片、文件等資源信息的來自于其它網(wǎng)站,則阻止請(qǐng)求,節(jié)省因盜用資源鏈接而消耗的帶寬和性能。
⑤防爬蟲:將爬蟲行為分為搜索引擎爬蟲及掃描程序爬蟲,可屏蔽特定的搜索引擎爬蟲節(jié)省帶寬和性能,也可屏蔽掃描程序爬蟲,避免網(wǎng)站被惡意抓取頁(yè)面。
⑥防掛馬:通過檢查HTML頁(yè)面中特征、用戶提交數(shù)據(jù),查看是否出現(xiàn)、Javascript引用掛馬源URL及其他掛馬特征以決定是否攔截請(qǐng)求。
⑦抗DDos:支持TCP Flood和HTTP Flood類型的拒絕服務(wù)攻擊,通過簡(jiǎn)單有效的方式緩解拒絕服務(wù)攻擊。
⑨攻擊源定位:通過記錄攻擊者的源IP,進(jìn)行分析和定位后,通過進(jìn)行定位展現(xiàn),幫助運(yùn)維攻擊來源。
7) 下一代防火墻
上面所述的幾乎都是傳統(tǒng)意義的防火墻,下一代是一款可以全面應(yīng)對(duì)應(yīng)用層威脅的高性能。通過深入洞察網(wǎng)絡(luò)流量中的用戶、應(yīng)用和內(nèi)容,并借助全新的高性能單路徑異構(gòu)并行處理,能夠?yàn)橛脩籼峁┯行У膽?yīng)用層一體化安全防護(hù),幫助用戶安全地開展業(yè)務(wù)并簡(jiǎn)化用戶的架構(gòu)。
下一代防火墻和傳統(tǒng)防火墻的區(qū)別:
下一代防火墻是一款可以全面應(yīng)對(duì)應(yīng)用層威脅的高性能防火墻。通過深入洞察網(wǎng)絡(luò)流量中的用戶、應(yīng)用和內(nèi)容,并借助全新的高性能單路徑異構(gòu)并行處理引擎,能夠?yàn)橛脩籼峁┯行У膽?yīng)用層一體化安全防護(hù),幫助用戶安全地開展業(yè)務(wù)并簡(jiǎn)化用戶的網(wǎng)絡(luò)安全架構(gòu)。
傳統(tǒng)防火墻功能:具有數(shù)據(jù)包過濾、網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)、協(xié)議狀態(tài)檢查以及VPN功能等功能。相對(duì)而言,下一代防火墻檢測(cè)更加細(xì)。
下一代防火墻自身屬性:
(1) 標(biāo)準(zhǔn)的第一代防火墻功能:具有、(NAT)、協(xié)議狀態(tài)檢查以及VPN功能等。
(2) 集成式而非托管式網(wǎng)絡(luò)入侵防御:支持基于漏洞的簽名與基于威脅的簽名。IPS與防火墻間的協(xié)作所獲得的性能要遠(yuǎn)高于部件的疊加,如:提供推薦防火墻規(guī)則,以阻止持續(xù)某一載入IPS及有害流量的地址。這就證明,在下一代防火墻中,互相關(guān)聯(lián)作用的是防火墻而非由操作人員在控制臺(tái)制定與執(zhí)行各種解決方案。高質(zhì)量的集成式IPS引擎與簽名也是下一代防火墻的主要特性。所謂集成可將諸多特性集合在一起,如:根據(jù)針對(duì)注入惡意軟件網(wǎng)站的IPS檢測(cè)向防火墻提供推薦阻止的地址。
(3) 業(yè)務(wù)識(shí)別與全棧可視性:采用非端口與協(xié)議vs僅端口、協(xié)議與服務(wù)的方式,識(shí)別應(yīng)用程序并在執(zhí)行網(wǎng)絡(luò)安全策略。
(4) 超級(jí)智能的防火墻: 可收集防火墻外的各類信息,用于改進(jìn)阻止決策,或作為優(yōu)化阻止規(guī)則的基礎(chǔ)。范例中還包括利用目錄集成來強(qiáng)化根據(jù)用戶身份實(shí)施的阻止或根據(jù)地址編制黑名單與白名單。
(5) 支持新信息流與新技術(shù)的集成路徑升級(jí),以應(yīng)對(duì)未來出現(xiàn)的各種威脅。
下一代防火墻工作流程:
數(shù)據(jù)包入站處理階段
入站主要完成數(shù)據(jù)包的接收及L2-L4層的數(shù)據(jù)包解析過程,并且根據(jù)解析結(jié)果決定是否需要進(jìn)入處理流程,否則該數(shù)據(jù)包就會(huì)被丟棄。在這個(gè)過程中還會(huì)判斷是否經(jīng)過VPN,如果是,則會(huì)先進(jìn)行解密后再做進(jìn)一步解析。
主引擎處理階段
主引擎處理大致會(huì)經(jīng)歷三個(gè)過程:策略匹配及創(chuàng)建會(huì)話、應(yīng)用識(shí)別、內(nèi)容檢測(cè)。 創(chuàng)建會(huì)話信息。當(dāng)數(shù)據(jù)包進(jìn)入主引擎后,首先會(huì)進(jìn)行會(huì)話查找,看是否存在該數(shù)據(jù)包相關(guān)的會(huì)話。如果存在,則會(huì)依據(jù)已經(jīng)設(shè)定的策略進(jìn)行匹配和對(duì)應(yīng)。否則就需要?jiǎng)?chuàng)建會(huì)話。具體步驟簡(jiǎn)述為:進(jìn)行轉(zhuǎn)發(fā)相關(guān)的信息查找;而后進(jìn)行NAT相關(guān)的查找;最后進(jìn)行防火墻的策略查找,檢查策略是否允許。如果允許則按照之前的建立對(duì)應(yīng)的會(huì)話,如果不允許則丟棄該數(shù)據(jù)包。
應(yīng)用識(shí)別
數(shù)據(jù)包進(jìn)行完初始的防火墻匹配并創(chuàng)建對(duì)應(yīng)會(huì)話信息后,會(huì)進(jìn)行應(yīng)用識(shí)別檢測(cè)和處理,如果該應(yīng)用為已經(jīng)可識(shí)別的應(yīng)用,則對(duì)此應(yīng)用進(jìn)行識(shí)別和標(biāo)記并直接進(jìn)入下一個(gè)處理流程。如果該應(yīng)用為未識(shí)別應(yīng)用,則需要進(jìn)行應(yīng)用識(shí)別子流程,對(duì)應(yīng)用進(jìn)行特征匹配,協(xié)議解碼,行為分析等處理從而標(biāo)記該應(yīng)用。應(yīng)用標(biāo)記完成后,會(huì)查找對(duì)應(yīng)的應(yīng)用,如果策略允許則準(zhǔn)備下一階段流程;如果策略不允許,則直接丟棄。
內(nèi)容檢測(cè)
主引擎工作的最后一個(gè)流程為內(nèi)容檢測(cè)流程,主要是需要對(duì)數(shù)據(jù)包進(jìn)行深層次的協(xié)議解碼、內(nèi)容解析、等操作,實(shí)現(xiàn)對(duì)數(shù)據(jù)包內(nèi)容的完全解析;然后通過查找相對(duì)應(yīng)的內(nèi)容安全策略進(jìn)行匹配,最后依據(jù)安全策略執(zhí)行諸如:丟棄、報(bào)警、記錄日志等動(dòng)作。
數(shù)據(jù)包出站處理階段
當(dāng)數(shù)據(jù)包經(jīng)過內(nèi)容檢測(cè)模塊后,會(huì)進(jìn)入出站處理流程。首先系統(tǒng)會(huì)路由等信息查找,然后執(zhí)行QOS,IP數(shù)據(jù)包分片的操作,如果該數(shù)據(jù)走VPN通道的話,還需要通過VPN加密,最后進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā)。
與統(tǒng)一策略的關(guān)系
統(tǒng)一策略實(shí)際上是通過同一套安全策略將處于不同層級(jí)的安全模塊有效地整合在一起,在策略匹配順序及層次上實(shí)現(xiàn)系統(tǒng)智能匹配,其主要的目的是為了提供更好的。舉個(gè)例子:有些產(chǎn)品HTTP的檢測(cè),URL過濾是通過代理模塊做的,而其他協(xié)議的是用另外的引擎。 用戶必須明白這些模塊間的依賴關(guān)系,分別做出正確的購(gòu)置才能達(dá)到需要的功能,而統(tǒng)一策略可以有效的解決上述問題。
二、防火墻是否能阻擋住黑客攻擊?
答案:是否定的
下面我就說說原由!!!
首先傳統(tǒng)防火墻的缺陷:
1.傳統(tǒng)防火墻的并發(fā)連接數(shù)限制容易導(dǎo)致?lián)砣蛘咭绯?
由于要判斷、處理流經(jīng)防火墻的每一個(gè)包,因此防火墻在某些流量大、并發(fā)請(qǐng)求多的情況下,很容易導(dǎo)致?lián)砣蔀檎麄€(gè)網(wǎng)絡(luò)的瓶頸影響性能。而當(dāng)防火墻溢出的時(shí)候,整個(gè)防線就如同虛設(shè),原本被禁止的連接也能從容通過了。
2.傳統(tǒng)防火墻對(duì)服務(wù)器合法開放的端口的攻擊大多無法阻止
某些情況下,攻擊者利用服務(wù)器提供的服務(wù)進(jìn)行缺陷攻擊。例如利用開放了3389端口取得沒打過sp補(bǔ)丁的win2k的超級(jí)權(quán)限、利用asp程序進(jìn)行腳本攻擊等。由于其行為在防火墻一級(jí)看來是"合理"和"合法"的,因此就被簡(jiǎn)單地放行了。
3.傳統(tǒng)防火墻對(duì)待內(nèi)部主動(dòng)發(fā)起連接的攻擊一般無法阻止
"外緊內(nèi)松"是一般局域網(wǎng)絡(luò)的特點(diǎn)。或許一道嚴(yán)密防守的防火墻內(nèi)部的網(wǎng)絡(luò)是一片混亂也有可能。通過社會(huì)工程學(xué)發(fā)送帶木馬的郵件、帶木馬的URL等方式,然后由中木馬的機(jī)器主動(dòng)對(duì)攻擊者連接,將鐵壁一樣的防火墻瞬間破壞掉。另外,防火墻內(nèi)部各主機(jī)間的攻擊行為,防火墻也只有如旁觀者一樣冷視而愛莫能助。
4.傳統(tǒng)防火墻不處理病毒
不管是funlove病毒也好,還是CIH也好。在內(nèi)部網(wǎng)絡(luò)用戶下載外網(wǎng)的帶毒文件的時(shí)候,防火墻是不為所動(dòng)的(這里的防火墻不是指單機(jī)/企業(yè)級(jí)的殺毒軟件中的實(shí)時(shí)監(jiān)控功能,雖然它們不少都叫"病毒防火墻")。
下一代防火墻:
1.可以阻斷網(wǎng)絡(luò)攻擊,但不能消滅攻擊源。
防火墻能夠阻擋一定的網(wǎng)絡(luò)攻擊,但是無法清除攻擊源。即使防火墻進(jìn)行了良好的設(shè)置,使得攻擊無法穿透防火墻,但各種攻擊仍然會(huì)源源不斷地向防火墻發(fā)出嘗試。例如接主干網(wǎng)10M網(wǎng)絡(luò)帶寬的某站點(diǎn),其日常流量中平均有512K左右是攻擊行為。那么,即使成功設(shè)置了防火墻后,這512K的攻擊流量依然不會(huì)有絲毫減少。
2.不能抵抗最新的未設(shè)置策略的攻擊漏洞
就如殺毒軟件與病毒一樣,總是先出現(xiàn)病毒,殺毒軟件經(jīng)過分析出特征碼后加入到病毒庫(kù)內(nèi)才能查殺。防火墻的各種策略,也是在該攻擊方式經(jīng)過專家分析后給出其特征進(jìn)而設(shè)置的。如果世界上新發(fā)現(xiàn)某個(gè)主機(jī)漏洞的cracker的把第一個(gè)攻擊對(duì)象選中了您的網(wǎng)絡(luò),那么防火墻也沒有辦法幫到您的。
3.本身也會(huì)出現(xiàn)問題和受到攻擊
防火墻也是一個(gè)os,也有著其硬件系統(tǒng)和軟件,因此依然有著漏洞和bug。所以其本身也可能受到攻擊和出現(xiàn)軟/硬件方面的故障。
4.同樣對(duì)待內(nèi)網(wǎng)攻擊也是無法完全抵御
介紹了這么多,我相信大家應(yīng)該也理解了,防火墻是入侵者進(jìn)入的第一道安全防線,主要解決了經(jīng)過防火墻的網(wǎng)絡(luò)傳播途徑的部分入侵攻擊問題,而通過物理傳播途徑,內(nèi)網(wǎng)傳播途徑的攻擊就會(huì)很難解決,因此本篇文章希望通過我的介紹讓大家多了解防火墻這門安全技術(shù)和安全知識(shí),提高咱們自身的信息安全意識(shí),任何技術(shù)都有漏洞,有了漏洞必然就有機(jī)會(huì)攻克。所以我們需要擁有掌握技術(shù)的同時(shí),更應(yīng)該提高自身信息安全意識(shí)。
比Python,JavaScript才是更適合寫爬蟲的語(yǔ)言。原因有如下三個(gè)方面:
一、任務(wù):爬取用戶在Github上的repo信息
通過實(shí)例的方式學(xué)習(xí)爬蟲是最好的方法,先定一個(gè)小目標(biāo):爬取github repo信息。入口URL如下,我們只需要一直點(diǎn)擊next按鈕就能夠遍歷到用戶的所有repo。
https://github.com/{{username}}?tab=repositories
獲取repo之后,可以做什么?
二、爬蟲雙股劍:axios和jQuery
axios是JavaScript中很常用的異步網(wǎng)絡(luò)請(qǐng)求庫(kù),相比jQuery,它更輕量、更專業(yè)。既能夠用于瀏覽器端,也可以用于Node。它的語(yǔ)法風(fēng)格是promise形式的。在本任務(wù)中,只需要了解如下用法就足夠了:
axios.get(url).then((resp) => { 請(qǐng)求成功,處理resp.data中的html數(shù)據(jù) }).catch((err) => { 請(qǐng)求失敗,錯(cuò)誤處理 })
請(qǐng)求之后需要處理回復(fù)結(jié)果,處理回復(fù)結(jié)果的庫(kù)當(dāng)然是用jQuery。實(shí)際上,我們有更好的選擇:cheerio。
在node下,使用jQuery,需要使用jsdom庫(kù)模擬一個(gè)window對(duì)象,這種方法效率較低,四個(gè)字形容就是:笨重穩(wěn)妥。
如下代碼使用jQuery解析haha.html文件
fs = require("fs") jquery=require('jquery') jsdom=require('jsdom') //fs.readFileSync()返回結(jié)果是一個(gè)buffer,相當(dāng)于byte[] html = fs.readFileSync('haha.html').toString('utf8') dom= new jsdom.JSDOM(html) $=jquery(dom.window) console.log($('h1'))
cheerio只實(shí)現(xiàn)了jQuery中的DOM部分,相當(dāng)于jQuery的一個(gè)子集。cheerio的語(yǔ)法和jQuery完全一致,在使用cheerio時(shí),幾乎感覺不到它和jQuery的差異。在解析HTML方面,毫無疑問,cheerio是更好的選擇。如下代碼使用cheerio解析haha.html文件。
cheerio=require('cheerio') html=require('fs').readFileSync("haha.html").toString('utf8') $=cheerio.load(html) console.log($('h1'))
只需20余行,便可實(shí)現(xiàn)簡(jiǎn)單的github爬蟲,此爬蟲只爬取了一頁(yè)repo列表。
var axios = require("axios") var cheerio = require("cheerio") axios.get("https://github.com/weiyinfu?tab=repositories").then(resp => { var $ = cheerio.load(resp.data) var lis = $("#user-repositories-list li") var repos = [] for (var i = 0; i < lis.length; i++) { var li = lis.eq(i) var repo = { repoName: li.find("h3").text().trim(), repoUrl: li.find("h3 a").attr("href").trim(), repoDesc: li.find("p").text().trim(), language: li.find("[itemprop=programmingLanguage]").text().trim(), star: li.find(".muted-link.mr-3").eq(0).text().trim(), fork: li.find(".muted-link.mr-3").eq(1).text().trim(), forkedFrom: li.find(".f6.text-gray.mb-1 a").text().trim() } repos.push(repo) } console.log(repos) })
三、更豐富的功能
爬蟲不是目的,而是達(dá)成目的的一種手段。獲取數(shù)據(jù)也不是目的,從數(shù)據(jù)中提取統(tǒng)計(jì)信息并呈現(xiàn)給人才是最終目的。
在github爬蟲的基礎(chǔ)上,我們可以擴(kuò)展出更加豐富的功能:使用echarts等圖表展示結(jié)果。
要想讓更多人使用此爬蟲工具獲取自己的github統(tǒng)計(jì)信息,就需要將做成一個(gè)網(wǎng)站的形式,通過搜索頁(yè)面輸入用戶名,啟動(dòng)爬蟲立即爬取github信息,然后使用echarts進(jìn)行統(tǒng)計(jì)展示。網(wǎng)站肯定也要用js作為后端,這樣才能和js爬蟲無縫銜接,不然還要考慮跨語(yǔ)言調(diào)用。js后端有兩大web框架express和koa,二者API非常相似,并無優(yōu)劣之分,但express更加流行。
如上設(shè)計(jì)有一處用戶體驗(yàn)不佳的地方:當(dāng)啟動(dòng)爬蟲爬取github信息時(shí),用戶可能需要等待好幾秒,這個(gè)過程不能讓用戶干等著。一種解決思路是:讓用戶看到爬蟲爬取的進(jìn)度或者爬取過程。可以通過websocket向用戶推送爬取過程信息并在前端進(jìn)行展示。展示時(shí),使用類似控制臺(tái)的界面進(jìn)行展示。
如何存儲(chǔ)爬取到的數(shù)據(jù)呢?使用MongoDB或者文件都可以,最好實(shí)現(xiàn)兩種存儲(chǔ)方式,讓系統(tǒng)的存儲(chǔ)方式變得可配置。使用MongoDB時(shí),用到j(luò)s中的連接池框架generic-pool。
整個(gè)項(xiàng)目用到的庫(kù)包括:
試用地址:
https://weiyinfu.cn/githubstatistic/search.html?
案例地址:https://github.com/weiyinfu/GithubStatistic
原文鏈接:https://zhuanlan.zhihu.com/p/53763115
*請(qǐng)認(rèn)真填寫需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。