整合營銷服務(wù)商

          電腦端+手機端+微信端=數(shù)據(jù)同步管理

          免費咨詢熱線:

          爬蟲入門必學-常見的幾種網(wǎng)站類型

          學習爬蟲前,我們需要先掌握網(wǎng)站類型,才能根據(jù)網(wǎng)站類型,使用適用的方法來編寫爬蟲獲取數(shù)據(jù)。

          今天小編就以國內(nèi)知名的ForeSpider爬蟲軟件能夠采集的網(wǎng)站類型為例,來為大家盤點一下數(shù)據(jù)采集常見的幾種網(wǎng)站類型。

          l常見網(wǎng)站類型

          1.js頁面

          JavaScript是一種屬于網(wǎng)絡(luò)的腳本語言,被廣泛用于Web應(yīng)用開發(fā),常用來為網(wǎng)頁添加各式各樣的動態(tài)功能,為用戶提供更流暢美觀的瀏覽效果。通常JavaScript腳本是通過嵌入在HTML中來實現(xiàn)自身的功能的。

          ForeSpider數(shù)據(jù)抓取工具可自動解析JS,采集基于js頁面中的數(shù)據(jù),即可采集頁面中包含JS的數(shù)據(jù)。

          Ajax即異步的JavaScript和XML,它不是一門編程語言,而是利用JavaScript在保證頁面不被刷新、頁面鏈接不改變的情況下與服務(wù)器交換數(shù)據(jù)并更新部分網(wǎng)頁的技術(shù)。

          我們?yōu)g覽網(wǎng)頁的時候,經(jīng)常會遇到這樣的情況,瀏覽某頁面時,往后拉頁面,頁面鏈接并沒有變化,但是網(wǎng)頁中卻多了新內(nèi)容,這就是通過Ajax獲取新數(shù)據(jù)并呈現(xiàn)出來的過程。

          ForeSpider數(shù)據(jù)采集系統(tǒng)支持Ajax技術(shù),可采集Ajax網(wǎng)頁中的內(nèi)容。

          2.post/get請求

          在html語言中,有兩種方式給服務(wù)器發(fā)送表單(你在網(wǎng)頁中填寫的一些數(shù)據(jù))。一種是POST一種是GET。POST把表單打包后隱藏在后臺發(fā)送給服務(wù)器;GET把表單打包發(fā)送前,附加到URL(網(wǎng)址)的后面。

          ForeSpider采集器可采集數(shù)據(jù)在post/get請求中的網(wǎng)頁內(nèi)容,即采集post/get請求中的數(shù)據(jù)。

          3.需要Cookie的網(wǎng)站

          Cookie指某些網(wǎng)站為了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數(shù)據(jù)。Cookie基于 Internet的各種服務(wù)系統(tǒng)應(yīng)運而生,是由 Web 服務(wù)器保存在用戶瀏覽器上的小文本文件,它可以包含有關(guān)用戶的信息,是用戶獲取、交流、傳遞信息的主要場所之一,無論何時用戶鏈接到服務(wù)器,Web 站點都可以訪問 Cookie 信息。

          一般用戶的賬號信息記錄在cookie中,爬蟲爬取數(shù)據(jù)的時候,可以使用cookie模擬登錄狀態(tài),從而獲取到數(shù)據(jù)。

          ForeSpider數(shù)據(jù)采集分析引擎可設(shè)置cookie來模擬登陸,從而采集需要用到cookie的網(wǎng)站內(nèi)容。

          4. 采集需要OAuth認證的網(wǎng)頁數(shù)據(jù)

          OAUTH協(xié)議為用戶資源的授權(quán)提供了一個安全的、開放而又簡易的標準。同時,任何第三方都可以使用OAUTH認證服務(wù),任何服務(wù)提供商都可以實現(xiàn)自身的OAUTH認證服務(wù),因而OAUTH是開放的。

          業(yè)界提供了OAUTH的多種實現(xiàn)如PHP、Java Script,Java,Ruby等各種語言開發(fā)包,大大節(jié)約了程序員的時間,因而OAUTH是簡易的。互聯(lián)網(wǎng)很多服務(wù)如Open API,很多大公司如Google,Yahoo,Microsoft等都提供了OAUTH認證服務(wù),這些都足以說明OAUTH標準逐漸成為開放資源授權(quán)的標準。

          ForeSpider爬蟲軟件支持OAuth認證,可以采集需要OAuth認證的頁面中的數(shù)據(jù)。

          l 前嗅簡介

          前嗅大數(shù)據(jù),國內(nèi)領(lǐng)先的研發(fā)型大數(shù)據(jù)專家,多年來致力于為大數(shù)據(jù)技術(shù)的研究與開發(fā),自主研發(fā)了一整套從數(shù)據(jù)采集、分析、處理、管理到應(yīng)用、營銷的大數(shù)據(jù)產(chǎn)品。前嗅致力于打造國內(nèi)第一家深度大數(shù)據(jù)平臺!

          生 CSS 嵌套(Native CSS nesting)已經(jīng)被所有現(xiàn)代桌面瀏覽器所支持!,但是請注意,移動端瀏覽器支持的還很有限。

          1.原生 CSS 嵌套

          原生 CSS 嵌套可以像 SASS、LESS 預(yù)處理器一樣,將相關(guān)的選擇器組合在一起,從而減少需要編寫的規(guī)則數(shù)量,它可以節(jié)省打字時間,并使語法更易于閱讀和維護。您可以將選擇器嵌套到任意深度,但要小心不要超過兩層或三層。嵌套深度沒有技術(shù)限制,但它會使代碼更難以閱讀,并且生成的 CSS 可能會變得不必要的冗長。

          .button {
             background-color: red;
          
             &.warning {
               background-color: blue;
             }
          
             & .icon {
                width: 1rem;
                height: 1rem;
             }
          }
          

          雖然原生 CSS 嵌套語法在過去幾年中不斷發(fā)展,使大多數(shù) Web 開發(fā)人員感到滿意,但不要指望所有 SCSS 代碼都能像您期望的那樣直接工作。

          2.原生 CSS 嵌套規(guī)則

          您可以將任何選擇器嵌套在另一個選擇器中,但它必須以符號開頭,例如 &, .(類選擇器)、#(ID選擇器)、@(對于媒體查詢)、:::+~>[。換句話說,它不能是對 HTML 元素的直接引用。下面的代碼是無效的,不會對 input 元素選擇器進行解析:

          .parent {
            color: red;
          
            input {
              margin: 1em;
            }
          }
          /* Invalid, because "input" is an identifier. */
          

          解決此問題的最簡單方法是使用與號 ( &),它以與 Sass 相同的方式引用當前選擇器。

          2.1.& 符號的使用

          .parent {
            color: red;
          
            & input {
              margin: 1em;
            }
          
            /* use pseudo-elements and pseudo-classes */
            &::after {}
          
            &:hover {}
          
            &:target {}
          }
          /* valid, no longer starts with an identifier */
          

          或者,您可以使用其中之一:

          • > input:只對子元素生效
          • :is(input): 將選擇器列表作為參數(shù),并選擇該列表中任意一個選擇器可以選擇的元素
          • :where(input):優(yōu)先級總是為 0

          它們都可以在這個簡單的示例中工作,但是稍后您可能會遇到更復雜的樣式表的特異性問題。

          它還&允許您在父選擇器上定位偽元素和偽類。例如:

          p.my-element {
          
            &::after {}
          
            &:hover {}
          
            &:target {}
          }
          

          請注意,& 可以在選擇器中的任何位置使用。例如:

          .child1 {
            .parent3 & {
              color: red;
            }
          }
          

          這將轉(zhuǎn)換為以下非嵌套語法:

          .parent3 .child1 { color: red; }
          

          您甚至可以在選擇器中使用多個 & 符號:

          ul {
            & li & {
              color: blue;
            }
          }
          

          這將以嵌套 <ul> 元素 ( ul li ul) 為目標,但如果您想保持理智,我建議不要使用它!

          2.2.@ 符號的使用

          嵌套媒體查詢示例:

          p {
            color: cyan;
            @media (min-width: 800px) {
              color: purple;
            }
          }
          

          3.原生 CSS 嵌套陷阱

          3.1.場景一:父選擇器包裝在 :is() 中

          原生 CSS 嵌套將父選擇器包裝在 :is() 中,這可能會導致與 Sass 輸出的差異,比如以下嵌套代碼:

          .parent1, #parent2 {
            .child1 {
          
            }
          }
          

          當它在瀏覽器中解析時,它實際上變成以下內(nèi)容:

          :is(.parent1, #parent2) .child1 {
          
          }
          

          Sass 將相同的代碼編譯為:

          .parent1 .child1,
          #parent2 .child1 {
          
          }
          

          3.2.場景二:& 符號后置

          您可能還會遇到一個更微妙的問題。考慮一下:

          .parent .child {
            .grandparent & {}
          }
          

          原生 CSS 等效項是:

          .grandparent :is(.parent .child) {}
          

          這與以下錯誤排序的 HTML 元素匹配:

          <div class="parent">
            <div class="grandparent">
              <div class="child">MATCH</div>
            </div>
          </div>
          
          

          MATCH變得有樣式是因為 CSS 解析器執(zhí)行以下操作:

          它會查找所有元素,其所屬類的child祖先也parent為DOM 層次結(jié)構(gòu)中的任何點。

          找到包含MATCH的元素后,解析器會grandparent在 DOM 層次結(jié)構(gòu)中的任何位置再次檢查它是否具有 — 的祖先。它找到一個并相應(yīng)地設(shè)置該元素的樣式。

          Sass 中的情況并非如此,它編譯為:

          .grandparent .parent .child {} 上面的 HTML 沒有樣式化,因為元素類不遵循嚴格的grandparent、parent、 和child順序。

          3.3.場景三:字符串替換

          Sass 使用字符串替換,因此如下所示的聲明是有效的,并且與類的任何元素相匹配 .btn-primary

          .btn {
            &-primary {
              color: blue;
            }
          }
          

          但是原生 CSS 嵌套會忽略&-space選擇器。

          4.CSS 預(yù)處理器還需要嗎?

          從短期來看,現(xiàn)有的 CSS 預(yù)處理器仍然至關(guān)重要。Sass 開發(fā)團隊宣布,他們將支持 .css 文件中的原生 CSS 嵌套,并按原樣輸出代碼。他們將一如既往地編譯嵌套 SCSS 代碼,以避免破壞現(xiàn)有代碼庫,但當全球瀏覽器支持率達到 98% 時,他們將開始輸出 :is() 選擇器。

          我猜想,PostCSS 插件等預(yù)處理器目前會擴展嵌套代碼,但隨著瀏覽器支持的普及,就會取消這一功能。當然,使用預(yù)處理器還有其他很好的理由,比如將部分代碼捆綁到一個文件中,以及對代碼進行精簡。但如果嵌套是你唯一需要的功能,你當然可以考慮在較小的項目中使用原生 CSS。

          總結(jié)

          CSS 嵌套是最有用、最實用的預(yù)處理器功能之一。瀏覽器供應(yīng)商努力創(chuàng)造了一個與 CSS 非常相似的原生 CSS 版本,以滿足網(wǎng)絡(luò)開發(fā)人員的需求。雖然兩者之間存在細微差別,而且在使用(過于)復雜的選擇器時可能會遇到不尋常的特殊性問題,但很少有代碼庫需要進行徹底修改。

          原生嵌套可能會讓你重新考慮是否需要 CSS 預(yù)處理器,但它們?nèi)阅芴峁┢渌锰帯ass 和類似工具仍然是大多數(shù)開發(fā)者工具包的重要組成部分。

          業(yè)級信息化系統(tǒng)絕大部分采用BS架構(gòu)實現(xiàn),如門戶網(wǎng)站、OA系統(tǒng)、電商網(wǎng)站等,通過瀏覽器輸入Web網(wǎng)址即可訪問,對于使用者來說非常便捷,對于開發(fā)維護者來說也非常方便,程序維護只需更新服務(wù)器即可,使用者無感知。但是CS架構(gòu)的WinForm客戶端程序仍然具有很實用的價值,如WPS、IT類的集成開發(fā)環(huán)境(數(shù)據(jù)庫、圖形處理軟件)、PC端的小工具。本地程序處理性能更優(yōu)秀,但是頻繁更新帶來不友好的客戶端體驗。還有一種非常常見且實用的業(yè)務(wù)場景, Web網(wǎng)頁與WinForm程序互相集成應(yīng)用。

            在百度網(wǎng)盤的網(wǎng)頁中,點擊【下載】按鈕,首先會檢查本地是否已經(jīng)啟動客戶端網(wǎng)盤。如果未啟動,則彈出提示信息告知用戶需要打開客戶端程序進行下載。這就是一個典型的Web網(wǎng)頁中啟動客戶端程序的場景。更形象的應(yīng)用場景是,WinForn/WPF客戶端程序嵌入Web程序,Web程序的網(wǎng)頁中js調(diào)用WinForm/WPF窗體以及業(yè)務(wù)方法。后面會詳細的介紹。

            WinForm程序中集成網(wǎng)頁的基本原理就是通過一個包含類似瀏覽器功能的控件,將Web網(wǎng)頁載入并解析渲染出來。下面主要介紹 WinForm 集成 Web 網(wǎng)頁的幾種實現(xiàn)方式。

            談?wù)摷傻膯栴}之前,先了解一下瀏覽器的內(nèi)核。

            瀏覽器最重要或者說核心的部分是“Rendering Engine”,可大概譯為“渲染引擎”,不過我們一般習慣將之稱為“瀏覽器內(nèi)核”。負責對網(wǎng)頁語法的解釋(如標準通用標記語言下的一個應(yīng)用HTML、JavaScript)并渲染(顯示)網(wǎng)頁。 所以,通常所謂的瀏覽器內(nèi)核也就是瀏覽器所采用的渲染引擎,渲染引擎決定了瀏覽器如何顯示網(wǎng)頁的內(nèi)容以及頁面的格式信息。不同的瀏覽器內(nèi)核對網(wǎng)頁編寫語法的解釋也有不同,因此同一網(wǎng)頁在不同的內(nèi)核的瀏覽器里的渲染(顯示)效果也可能不同,這也是網(wǎng)頁編寫者需要在不同內(nèi)核的瀏覽器中測試網(wǎng)頁顯示效果的原因。

          內(nèi)核分類

          • Trident(MSHTML、IE內(nèi)核)

            內(nèi)核被包含在全世界最高的使用率的操作系統(tǒng)中,即為Windows操作系統(tǒng),所以我們又經(jīng)常把它稱之為IE內(nèi)核。

            Trident內(nèi)核的常見瀏覽器有: 

            • IE6、IE7、IE8(Trident 4.0)、IE9(Trident 5.0)、IE10(Trident 6.0)、IE11
            • 360安全瀏覽器(1.0-5.0為Trident,6.0為Trident+Webkit,7.0為Trident+Blink)
            • 360極速瀏覽器(7.5之前為Trident+Webkit,7.5為Trident+Blink)
            • 百度瀏覽器(早期版本)
            • 世界之窗瀏覽器(最初為IE內(nèi)核,2013年采用Chrome+IE內(nèi)核)
            • UC瀏覽器(Webkit內(nèi)核+Trident內(nèi)核)
            • 其他等

            其中部分瀏覽器的新版本是“雙核”甚至是“多核”,其中一個內(nèi)核是Trident,然后再增加一個其他內(nèi)核。國內(nèi)的廠商一般把其他內(nèi)核叫做“高速瀏覽模式”,而Trident則是“兼容瀏覽模式”,用戶可以來回切換。

          • Gecko(Firefox內(nèi)核)

            Gecko內(nèi)核常見的瀏覽器:Mozilla Firefox、Mozilla SeaMonkey、waterfox(Firefox的64位開源版)、Iceweasel、Epiphany(早期版本)、Flock(早期版本)、K-Meleon。

          • Webkit(Safari內(nèi)核,Chrome內(nèi)核原型,開源)

            WebKit內(nèi)核常見的瀏覽器:Chrome、傲游瀏覽器3、Apple Safari (Win/Mac/iPhone/iPad)、Symbian手機瀏覽器、Android 默認瀏覽器。

          參考網(wǎng)站:https://liulanmi.com/labs/core.html

          • Blink

            Blink是一個由Google和Opera Software開發(fā)的瀏覽器排版引擎,Google計劃將這個渲染引擎作為Chromium計劃的一部分,并且在2013年4月的時候公布了這一消息。這一渲染引擎是開源引擎WebKit中WebCore組件的一個分支,并且在Chrome(28及往后版本)、Opera(15及往后版本)和Yandex瀏覽器中使用。

          瀏覽器內(nèi)核檢測

          • ie.icoa.cn

          https://ie.icoa.cn 可檢測 PC 或手機瀏覽器內(nèi)核和操作系統(tǒng)類型,包括Google Chrome的WebKit、IE的Trident、ME的Edge、Firefox的Gecko/Servo,以及Windows/MacOS/Linux/iOS/Android等的判斷。

          • http://mybrowse.osfipin.com

          WinForm Browser 控件

          • WebBrowser

             微軟WinForm開發(fā)框架中老牌控件。

            • 默認基于IE7內(nèi)核,對H5網(wǎng)頁加載支持不完善。
            • 只支持單線程模式,大部分對其操作必須在創(chuàng)建它的線程中執(zhí)行,不可以在其它線程中調(diào)用其方法或?qū)傩浴?/span>
            • 性能相對較弱。
          • CefSharp【推薦】

            CefSharp是一種將功能齊全的符合標準的web瀏覽器嵌入C#或VB.NET應(yīng)用程序的簡單方法。CefSharp擁有WinForms和WPF應(yīng)用程序的瀏覽器控件,以及自動化項目的OffScreen版本。CefSharp基于Chromium Embedded Framework,這是Google Chrome的開源版本。

            • CefSharp中文幫助文檔,請點擊查看
            • 免費、開源:https://github.com/cefsharp/CefSharp
            • 支持JS、C#、WinForm窗體之間相互通訊與調(diào)用。
            • 兼容性較好,支持H5、CSS5、WebGL等。
            • 支持獲取Cookies較全面。

          實際項目應(yīng)用效果如下:

          • Miniblink

            Miniblink是一個追求極致小巧的瀏覽器內(nèi)核項目,全世界第三大流行的瀏覽器內(nèi)核控件。其基于chromium最新版內(nèi)核,去除了chromium所有多余的部件,只保留最基本的排版引擎blink。Miniblink保持了10M左右的極簡大小,是所有同類產(chǎn)品最小的體積,同時支持windows xp、npapi。


            • 開源地址:https://github.com/weolar/miniblink49/releases
          • GeckoFX

            GeckoFX是skybound工作室開發(fā)的一個開源的用于方便將gecko引擎(最主要的瀏覽器是firefox)鏈接到.net 窗體應(yīng)用的一個組件。它是用C#寫成的,里面有大量的C#的注釋,geckofx是最完美的默認的iE核心webbrowse控件的替代控件。

          • DotNetBrowser

            DotNetBrowser能嵌入一個基于Chromium的WPF或WinForms組件到你的.NET應(yīng)用中,用來顯示使用HTML5、CSS3、JavaScript、Silverlight等技術(shù)構(gòu)建的現(xiàn)代網(wǎng)頁。

            • 收費
          • EO.WebBrowser
            • 官網(wǎng):https://www.essentialobjects.com/Products/WebBrowser/Default.aspx
            • 收費

          • Microsoft Edge WebView2

            Microsoft Edge WebView2 控件允許在本機應(yīng)用中嵌入 web 技術(shù)(HTML、CSS 以及 JavaScript)。 WebView2 控件使用 Microsoft Edge(Chromium) 作為繪制引擎,以在本機應(yīng)用中顯示 web 內(nèi)容。 使用 WebView2,可以在本機應(yīng)用的不同部分嵌入 Web 代碼,或在單個 WebView 實例中生成所有本機應(yīng)用。

            • 官網(wǎng):https://docs.microsoft.com/zh-cn/microsoft-edge/webview2
            • 免費。
            • 誕生較晚,相比CefSharp,功能較弱。

          所以在客戶端程序中嵌入網(wǎng)頁程序,首選CefSharp。


          歡迎關(guān)注、點贊、評論、轉(zhuǎn)發(fā),每天都能獲取IT優(yōu)質(zhì)內(nèi)容。


          #人民網(wǎng)評錢楓被指性侵#


          主站蜘蛛池模板: 精品国产伦一区二区三区在线观看| 国偷自产一区二区免费视频| 欧美日韩一区二区成人午夜电影| 无码人妻一区二区三区免费手机| 国产精品一区二区毛卡片| 国产精品视频一区二区猎奇| 在线免费视频一区| 国产免费播放一区二区| 日韩精品无码一区二区三区不卡 | 国产91一区二区在线播放不卡| 国产精品视频一区二区三区不卡| 日本不卡一区二区三区| 精品国产日韩亚洲一区91| 国产一区二区三区免费观在线| 亚洲成AV人片一区二区| 欧洲精品码一区二区三区| 波多野结衣的AV一区二区三区 | 国产爆乳无码一区二区麻豆| 日本一区二区三区免费高清在线| 精产国品一区二区三产区| 精品无码国产一区二区三区51安 | 国产视频一区在线播放| 毛片一区二区三区无码| 国产成人av一区二区三区不卡| 无码人妻精一区二区三区| 国产一区在线播放| 中文字幕一区二区三区精华液| 一区二区在线电影| 91精品一区二区三区久久久久| 精品无码国产一区二区三区51安| 日韩精品一区在线| 亚洲线精品一区二区三区影音先锋| 亚洲综合激情五月色一区| 无码精品久久一区二区三区 | 爆乳熟妇一区二区三区| 国产91精品一区二区麻豆亚洲| 久久久精品人妻一区二区三区| 亚洲日韩中文字幕无码一区| 夜夜嗨AV一区二区三区| 久久亚洲AV午夜福利精品一区| 韩国一区二区三区|