學習爬蟲前,我們需要先掌握網(wǎng)站類型,才能根據(jù)網(wǎng)站類型,使用適用的方法來編寫爬蟲獲取數(shù)據(jù)。
今天小編就以國內(nèi)知名的ForeSpider爬蟲軟件能夠采集的網(wǎng)站類型為例,來為大家盤點一下數(shù)據(jù)采集常見的幾種網(wǎng)站類型。
l常見網(wǎng)站類型
1.js頁面
JavaScript是一種屬于網(wǎng)絡(luò)的腳本語言,被廣泛用于Web應(yīng)用開發(fā),常用來為網(wǎng)頁添加各式各樣的動態(tài)功能,為用戶提供更流暢美觀的瀏覽效果。通常JavaScript腳本是通過嵌入在HTML中來實現(xiàn)自身的功能的。
ForeSpider數(shù)據(jù)抓取工具可自動解析JS,采集基于js頁面中的數(shù)據(jù),即可采集頁面中包含JS的數(shù)據(jù)。
Ajax即異步的JavaScript和XML,它不是一門編程語言,而是利用JavaScript在保證頁面不被刷新、頁面鏈接不改變的情況下與服務(wù)器交換數(shù)據(jù)并更新部分網(wǎng)頁的技術(shù)。
我們?yōu)g覽網(wǎng)頁的時候,經(jīng)常會遇到這樣的情況,瀏覽某頁面時,往后拉頁面,頁面鏈接并沒有變化,但是網(wǎng)頁中卻多了新內(nèi)容,這就是通過Ajax獲取新數(shù)據(jù)并呈現(xiàn)出來的過程。
ForeSpider數(shù)據(jù)采集系統(tǒng)支持Ajax技術(shù),可采集Ajax網(wǎng)頁中的內(nèi)容。
2.post/get請求
在html語言中,有兩種方式給服務(wù)器發(fā)送表單(你在網(wǎng)頁中填寫的一些數(shù)據(jù))。一種是POST一種是GET。POST把表單打包后隱藏在后臺發(fā)送給服務(wù)器;GET把表單打包發(fā)送前,附加到URL(網(wǎng)址)的后面。
ForeSpider采集器可采集數(shù)據(jù)在post/get請求中的網(wǎng)頁內(nèi)容,即采集post/get請求中的數(shù)據(jù)。
3.需要Cookie的網(wǎng)站
Cookie指某些網(wǎng)站為了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數(shù)據(jù)。Cookie基于 Internet的各種服務(wù)系統(tǒng)應(yīng)運而生,是由 Web 服務(wù)器保存在用戶瀏覽器上的小文本文件,它可以包含有關(guān)用戶的信息,是用戶獲取、交流、傳遞信息的主要場所之一,無論何時用戶鏈接到服務(wù)器,Web 站點都可以訪問 Cookie 信息。
一般用戶的賬號信息記錄在cookie中,爬蟲爬取數(shù)據(jù)的時候,可以使用cookie模擬登錄狀態(tài),從而獲取到數(shù)據(jù)。
ForeSpider數(shù)據(jù)采集分析引擎可設(shè)置cookie來模擬登陸,從而采集需要用到cookie的網(wǎng)站內(nèi)容。
4. 采集需要OAuth認證的網(wǎng)頁數(shù)據(jù)
OAUTH協(xié)議為用戶資源的授權(quán)提供了一個安全的、開放而又簡易的標準。同時,任何第三方都可以使用OAUTH認證服務(wù),任何服務(wù)提供商都可以實現(xiàn)自身的OAUTH認證服務(wù),因而OAUTH是開放的。
業(yè)界提供了OAUTH的多種實現(xiàn)如PHP、Java Script,Java,Ruby等各種語言開發(fā)包,大大節(jié)約了程序員的時間,因而OAUTH是簡易的。互聯(lián)網(wǎng)很多服務(wù)如Open API,很多大公司如Google,Yahoo,Microsoft等都提供了OAUTH認證服務(wù),這些都足以說明OAUTH標準逐漸成為開放資源授權(quán)的標準。
ForeSpider爬蟲軟件支持OAuth認證,可以采集需要OAuth認證的頁面中的數(shù)據(jù)。
l 前嗅簡介
前嗅大數(shù)據(jù),國內(nèi)領(lǐng)先的研發(fā)型大數(shù)據(jù)專家,多年來致力于為大數(shù)據(jù)技術(shù)的研究與開發(fā),自主研發(fā)了一整套從數(shù)據(jù)采集、分析、處理、管理到應(yīng)用、營銷的大數(shù)據(jù)產(chǎn)品。前嗅致力于打造國內(nèi)第一家深度大數(shù)據(jù)平臺!
生 CSS 嵌套(Native CSS nesting)已經(jīng)被所有現(xiàn)代桌面瀏覽器所支持!,但是請注意,移動端瀏覽器支持的還很有限。
原生 CSS 嵌套可以像 SASS、LESS 預(yù)處理器一樣,將相關(guān)的選擇器組合在一起,從而減少需要編寫的規(guī)則數(shù)量,它可以節(jié)省打字時間,并使語法更易于閱讀和維護。您可以將選擇器嵌套到任意深度,但要小心不要超過兩層或三層。嵌套深度沒有技術(shù)限制,但它會使代碼更難以閱讀,并且生成的 CSS 可能會變得不必要的冗長。
.button {
background-color: red;
&.warning {
background-color: blue;
}
& .icon {
width: 1rem;
height: 1rem;
}
}
雖然原生 CSS 嵌套語法在過去幾年中不斷發(fā)展,使大多數(shù) Web 開發(fā)人員感到滿意,但不要指望所有 SCSS 代碼都能像您期望的那樣直接工作。
您可以將任何選擇器嵌套在另一個選擇器中,但它必須以符號開頭,例如 &, .(類選擇器)、#(ID選擇器)、@(對于媒體查詢)、:、::、+、 ~、 > 或 [。換句話說,它不能是對 HTML 元素的直接引用。下面的代碼是無效的,不會對 input 元素選擇器進行解析:
.parent {
color: red;
input {
margin: 1em;
}
}
/* Invalid, because "input" is an identifier. */
解決此問題的最簡單方法是使用與號 ( &),它以與 Sass 相同的方式引用當前選擇器。
.parent {
color: red;
& input {
margin: 1em;
}
/* use pseudo-elements and pseudo-classes */
&::after {}
&:hover {}
&:target {}
}
/* valid, no longer starts with an identifier */
或者,您可以使用其中之一:
它們都可以在這個簡單的示例中工作,但是稍后您可能會遇到更復雜的樣式表的特異性問題。
它還&允許您在父選擇器上定位偽元素和偽類。例如:
p.my-element {
&::after {}
&:hover {}
&:target {}
}
請注意,& 可以在選擇器中的任何位置使用。例如:
.child1 {
.parent3 & {
color: red;
}
}
這將轉(zhuǎn)換為以下非嵌套語法:
.parent3 .child1 { color: red; }
您甚至可以在選擇器中使用多個 & 符號:
ul {
& li & {
color: blue;
}
}
這將以嵌套 <ul> 元素 ( ul li ul) 為目標,但如果您想保持理智,我建議不要使用它!
嵌套媒體查詢示例:
p {
color: cyan;
@media (min-width: 800px) {
color: purple;
}
}
原生 CSS 嵌套將父選擇器包裝在 :is() 中,這可能會導致與 Sass 輸出的差異,比如以下嵌套代碼:
.parent1, #parent2 {
.child1 {
}
}
當它在瀏覽器中解析時,它實際上變成以下內(nèi)容:
:is(.parent1, #parent2) .child1 {
}
Sass 將相同的代碼編譯為:
.parent1 .child1,
#parent2 .child1 {
}
您可能還會遇到一個更微妙的問題。考慮一下:
.parent .child {
.grandparent & {}
}
原生 CSS 等效項是:
.grandparent :is(.parent .child) {}
這與以下錯誤排序的 HTML 元素匹配:
<div class="parent">
<div class="grandparent">
<div class="child">MATCH</div>
</div>
</div>
MATCH變得有樣式是因為 CSS 解析器執(zhí)行以下操作:
它會查找所有元素,其所屬類的child祖先也parent為DOM 層次結(jié)構(gòu)中的任何點。
找到包含MATCH的元素后,解析器會grandparent在 DOM 層次結(jié)構(gòu)中的任何位置再次檢查它是否具有 — 的祖先。它找到一個并相應(yīng)地設(shè)置該元素的樣式。
Sass 中的情況并非如此,它編譯為:
.grandparent .parent .child {} 上面的 HTML 沒有樣式化,因為元素類不遵循嚴格的grandparent、parent、 和child順序。
Sass 使用字符串替換,因此如下所示的聲明是有效的,并且與類的任何元素相匹配 .btn-primary:
.btn {
&-primary {
color: blue;
}
}
但是原生 CSS 嵌套會忽略&-space選擇器。
從短期來看,現(xiàn)有的 CSS 預(yù)處理器仍然至關(guān)重要。Sass 開發(fā)團隊宣布,他們將支持 .css 文件中的原生 CSS 嵌套,并按原樣輸出代碼。他們將一如既往地編譯嵌套 SCSS 代碼,以避免破壞現(xiàn)有代碼庫,但當全球瀏覽器支持率達到 98% 時,他們將開始輸出 :is() 選擇器。
我猜想,PostCSS 插件等預(yù)處理器目前會擴展嵌套代碼,但隨著瀏覽器支持的普及,就會取消這一功能。當然,使用預(yù)處理器還有其他很好的理由,比如將部分代碼捆綁到一個文件中,以及對代碼進行精簡。但如果嵌套是你唯一需要的功能,你當然可以考慮在較小的項目中使用原生 CSS。
CSS 嵌套是最有用、最實用的預(yù)處理器功能之一。瀏覽器供應(yīng)商努力創(chuàng)造了一個與 CSS 非常相似的原生 CSS 版本,以滿足網(wǎng)絡(luò)開發(fā)人員的需求。雖然兩者之間存在細微差別,而且在使用(過于)復雜的選擇器時可能會遇到不尋常的特殊性問題,但很少有代碼庫需要進行徹底修改。
原生嵌套可能會讓你重新考慮是否需要 CSS 預(yù)處理器,但它們?nèi)阅芴峁┢渌锰帯ass 和類似工具仍然是大多數(shù)開發(fā)者工具包的重要組成部分。
業(yè)級信息化系統(tǒng)絕大部分采用BS架構(gòu)實現(xiàn),如門戶網(wǎng)站、OA系統(tǒng)、電商網(wǎng)站等,通過瀏覽器輸入Web網(wǎng)址即可訪問,對于使用者來說非常便捷,對于開發(fā)維護者來說也非常方便,程序維護只需更新服務(wù)器即可,使用者無感知。但是CS架構(gòu)的WinForm客戶端程序仍然具有很實用的價值,如WPS、IT類的集成開發(fā)環(huán)境(數(shù)據(jù)庫、圖形處理軟件)、PC端的小工具。本地程序處理性能更優(yōu)秀,但是頻繁更新帶來不友好的客戶端體驗。還有一種非常常見且實用的業(yè)務(wù)場景, Web網(wǎng)頁與WinForm程序互相集成應(yīng)用。
在百度網(wǎng)盤的網(wǎng)頁中,點擊【下載】按鈕,首先會檢查本地是否已經(jīng)啟動客戶端網(wǎng)盤。如果未啟動,則彈出提示信息告知用戶需要打開客戶端程序進行下載。這就是一個典型的Web網(wǎng)頁中啟動客戶端程序的場景。更形象的應(yīng)用場景是,WinForn/WPF客戶端程序嵌入Web程序,Web程序的網(wǎng)頁中js調(diào)用WinForm/WPF窗體以及業(yè)務(wù)方法。后面會詳細的介紹。
WinForm程序中集成網(wǎng)頁的基本原理就是通過一個包含類似瀏覽器功能的控件,將Web網(wǎng)頁載入并解析渲染出來。下面主要介紹 WinForm 集成 Web 網(wǎng)頁的幾種實現(xiàn)方式。
談?wù)摷傻膯栴}之前,先了解一下瀏覽器的內(nèi)核。
瀏覽器最重要或者說核心的部分是“Rendering Engine”,可大概譯為“渲染引擎”,不過我們一般習慣將之稱為“瀏覽器內(nèi)核”。負責對網(wǎng)頁語法的解釋(如標準通用標記語言下的一個應(yīng)用HTML、JavaScript)并渲染(顯示)網(wǎng)頁。 所以,通常所謂的瀏覽器內(nèi)核也就是瀏覽器所采用的渲染引擎,渲染引擎決定了瀏覽器如何顯示網(wǎng)頁的內(nèi)容以及頁面的格式信息。不同的瀏覽器內(nèi)核對網(wǎng)頁編寫語法的解釋也有不同,因此同一網(wǎng)頁在不同的內(nèi)核的瀏覽器里的渲染(顯示)效果也可能不同,這也是網(wǎng)頁編寫者需要在不同內(nèi)核的瀏覽器中測試網(wǎng)頁顯示效果的原因。
內(nèi)核分類
內(nèi)核被包含在全世界最高的使用率的操作系統(tǒng)中,即為Windows操作系統(tǒng),所以我們又經(jīng)常把它稱之為IE內(nèi)核。
Trident內(nèi)核的常見瀏覽器有:
其中部分瀏覽器的新版本是“雙核”甚至是“多核”,其中一個內(nèi)核是Trident,然后再增加一個其他內(nèi)核。國內(nèi)的廠商一般把其他內(nèi)核叫做“高速瀏覽模式”,而Trident則是“兼容瀏覽模式”,用戶可以來回切換。
Gecko內(nèi)核常見的瀏覽器:Mozilla Firefox、Mozilla SeaMonkey、waterfox(Firefox的64位開源版)、Iceweasel、Epiphany(早期版本)、Flock(早期版本)、K-Meleon。
WebKit內(nèi)核常見的瀏覽器:Chrome、傲游瀏覽器3、Apple Safari (Win/Mac/iPhone/iPad)、Symbian手機瀏覽器、Android 默認瀏覽器。
參考網(wǎng)站:https://liulanmi.com/labs/core.html
Blink是一個由Google和Opera Software開發(fā)的瀏覽器排版引擎,Google計劃將這個渲染引擎作為Chromium計劃的一部分,并且在2013年4月的時候公布了這一消息。這一渲染引擎是開源引擎WebKit中WebCore組件的一個分支,并且在Chrome(28及往后版本)、Opera(15及往后版本)和Yandex瀏覽器中使用。
瀏覽器內(nèi)核檢測
https://ie.icoa.cn 可檢測 PC 或手機瀏覽器內(nèi)核和操作系統(tǒng)類型,包括Google Chrome的WebKit、IE的Trident、ME的Edge、Firefox的Gecko/Servo,以及Windows/MacOS/Linux/iOS/Android等的判斷。
WinForm Browser 控件
微軟WinForm開發(fā)框架中老牌控件。
CefSharp是一種將功能齊全的符合標準的web瀏覽器嵌入C#或VB.NET應(yīng)用程序的簡單方法。CefSharp擁有WinForms和WPF應(yīng)用程序的瀏覽器控件,以及自動化項目的OffScreen版本。CefSharp基于Chromium Embedded Framework,這是Google Chrome的開源版本。
實際項目應(yīng)用效果如下:
Miniblink是一個追求極致小巧的瀏覽器內(nèi)核項目,全世界第三大流行的瀏覽器內(nèi)核控件。其基于chromium最新版內(nèi)核,去除了chromium所有多余的部件,只保留最基本的排版引擎blink。Miniblink保持了10M左右的極簡大小,是所有同類產(chǎn)品最小的體積,同時支持windows xp、npapi。
GeckoFX是skybound工作室開發(fā)的一個開源的用于方便將gecko引擎(最主要的瀏覽器是firefox)鏈接到.net 窗體應(yīng)用的一個組件。它是用C#寫成的,里面有大量的C#的注釋,geckofx是最完美的默認的iE核心webbrowse控件的替代控件。
DotNetBrowser能嵌入一個基于Chromium的WPF或WinForms組件到你的.NET應(yīng)用中,用來顯示使用HTML5、CSS3、JavaScript、Silverlight等技術(shù)構(gòu)建的現(xiàn)代網(wǎng)頁。
Microsoft Edge WebView2 控件允許在本機應(yīng)用中嵌入 web 技術(shù)(HTML、CSS 以及 JavaScript)。 WebView2 控件使用 Microsoft Edge(Chromium) 作為繪制引擎,以在本機應(yīng)用中顯示 web 內(nèi)容。 使用 WebView2,可以在本機應(yīng)用的不同部分嵌入 Web 代碼,或在單個 WebView 實例中生成所有本機應(yīng)用。
所以在客戶端程序中嵌入網(wǎng)頁程序,首選CefSharp。
歡迎關(guān)注、點贊、評論、轉(zhuǎn)發(fā),每天都能獲取IT優(yōu)質(zhì)內(nèi)容。
#人民網(wǎng)評錢楓被指性侵#
*請認真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。