整合營(yíng)銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          重蔚php四十二天筆記-SHOP項(xiàng)目分析:增加后臺(tái)首頁(yè)功能

          加后臺(tái)首頁(yè)功能

          1.將后臺(tái)功能index.php對(duì)應(yīng)的模板文件給放到/admin/templates下

          2.在/admin/index.php這個(gè)控制里面去加載對(duì)應(yīng)的模板文件

          因?yàn)?admin/templates/index.php是一個(gè)框架文件,所以需要先加載框架,再加載框架所對(duì)應(yīng)的文件

          3.給index.html的frame增加url屬性

          4.給/admin/index.php增加動(dòng)作區(qū)分功能

          a)接收動(dòng)作

          b)判斷動(dòng)作,并做處理

          5.修改top.html里面的圖片路徑

          6.查看效果

          種反爬蟲(chóng)手段被廣泛應(yīng)用在一線互聯(lián)網(wǎng)企業(yè)的產(chǎn)品中,例如汽車資訊類網(wǎng)站、小說(shuō)類網(wǎng)站等文字密度較大的站點(diǎn)。在開(kāi)始學(xué)習(xí)之前,我們先來(lái)看看具體的現(xiàn)象。打開(kāi)網(wǎng)址:


          https://implicit-style-css_0.crawler-lab.com
          復(fù)制代碼

          呈現(xiàn)在我們眼前的是這樣一個(gè)界面:



          這次的任務(wù),就是拿到頁(yè)面上所呈現(xiàn)的內(nèi)容的文本。在編寫爬蟲(chóng)代碼之前,我們要做幾件事:

          • 確定目標(biāo)內(nèi)容的來(lái)源,也就是找到響應(yīng)目標(biāo)內(nèi)容的那次請(qǐng)求
          • 確定目標(biāo)內(nèi)容在網(wǎng)頁(yè)中的位置

          其實(shí)就是最基本的觀察和分析。

          網(wǎng)絡(luò)請(qǐng)求方面,打開(kāi)瀏覽器調(diào)試工具并切換到 Network 面板后,看到頁(yè)面只加載了 2 個(gè)資源:



          一個(gè) html 文檔和一個(gè) js 文件,想必我們要的內(nèi)容就在 html 文檔中。點(diǎn)擊該請(qǐng)求,瀏覽器開(kāi)發(fā)者工具就會(huì)分成兩欄,左側(cè)依然是請(qǐng)求記錄列表,右側(cè)顯示的是指定請(qǐng)求的詳情。右側(cè)面板切換到 Response,就可以看到服務(wù)器響應(yīng)的內(nèi)容:



          看樣子,我們要的東西就在這次響應(yīng)正文中。咋一看,我們直接取 class 為 rdtext 的 div 標(biāo)簽下的 p 標(biāo)簽中的文本內(nèi)容即可。然而事情并沒(méi)有那么簡(jiǎn)單,細(xì)心的讀者可能發(fā)現(xiàn)了,響應(yīng)正文中顯示的內(nèi)容和頁(yè)面中呈現(xiàn)的文字并不完全相同——響應(yīng)正文中少了一些標(biāo)點(diǎn)符號(hào)和文字,多了一些 span 標(biāo)簽。例如頁(yè)面中顯示的是:

          夜幕團(tuán)隊(duì) NightTeam 于 2019 年 9 月 9 日正式成立,團(tuán)隊(duì)由爬蟲(chóng)領(lǐng)域中實(shí)力強(qiáng)勁的多名開(kāi)發(fā)者組成:崔慶才、周子淇、陳祥安、唐軼飛、馮威、蔡晉、戴煌金、張冶青和韋世東。
          復(fù)制代碼

          而響應(yīng)正文中看到的是:

          <p>夜幕團(tuán)隊(duì) NightTeam 于 2019 年 9 月 9 日正式成立<span class="context_kw0"></span>團(tuán)隊(duì)由爬蟲(chóng)領(lǐng)域中實(shí)力強(qiáng)勁<span class="context_kw1"></span>多<span class="context_kw21"></span>開(kāi)發(fā)者組成:崔慶才、周子淇、陳祥安、唐軼飛、馮威、蔡晉、戴煌金、張冶青和韋世東<span class="context_kw2"></span>
          </p>
          復(fù)制代碼

          這句話中,被 span 標(biāo)簽替代的有逗號(hào)字、字。整體看一遍,發(fā)現(xiàn)這些 span 標(biāo)簽都帶有 class 屬性。

          明眼人一看就知道,又是利用了瀏覽器渲染原理做的反爬蟲(chóng)措施。不明所以的讀者請(qǐng)去翻閱《Python3 反爬蟲(chóng)原理與繞過(guò)實(shí)戰(zhàn)》。

          既然跟 span 和 class 有關(guān),那我們來(lái)看一下 class 屬性到底設(shè)置了什么。class 名為 context_kw0 的 span 標(biāo)簽樣式如下:

          .context_kw0::before {
              content: ",";
          }
          復(fù)制代碼

          再看看其他的,class 屬性為 context_kw21 的 span 標(biāo)簽樣式如下:

          .context_kw21::before {
              content: "名";
          }
          復(fù)制代碼

          原來(lái)被替換掉的文字出現(xiàn)在這里!看到這里,想必聰明的你也知道是怎么回事了!

          解決這個(gè)問(wèn)題的辦法很簡(jiǎn)單,只需要提取出 span 標(biāo)簽 class 屬性名稱對(duì)應(yīng)的 content 值,然后將其恢復(fù)到文本中即可。

          屬性名有個(gè)規(guī)律:context_kw + 數(shù)字。也就是說(shuō) context_kw 有可能是固定的,數(shù)字是循環(huán)出來(lái)的,或者是數(shù)組中的下標(biāo)?大膽猜想一下,假設(shè)有這么一個(gè)字典:

          {0: ",", 1: "的",  21: "名"}
          復(fù)制代碼

          那么將 context_kw 與字典的鍵組合,就得到了 class 的名稱,對(duì)應(yīng)的值就作為 content,這好像很接近了。中高級(jí)爬蟲(chóng)工程師心中都明白:在網(wǎng)頁(yè)中,能干出如此之事唯有借助 JavaScript。不明白的讀者請(qǐng)去翻閱《Python3 反爬蟲(chóng)原理與繞過(guò)實(shí)戰(zhàn)》。

          那就搜一下吧!

          喚起瀏覽器調(diào)試工具的全局搜索功能,輸入 context_kw 并會(huì)車。然后在搜索結(jié)果中尋找看上去有用的信息,例如:



          發(fā)現(xiàn) JavaScript 代碼中出現(xiàn)了 context_kw,關(guān)鍵的信息是 .context_kw + i + _0xea12('0x2c')。代碼還混淆了一下!看不出的讀者可以找作者韋世東報(bào)名《JavaScript 逆向系列課》,學(xué)完就能夠很快找到看上去有用的代碼,并且看懂代碼的邏輯。

          這里手把手帶讀一下這些 JavaScript 代碼。第一段,也就是 977 行代碼原文如下:

          var _0xa12e = ['appendChild', 'fromCharCode', 'ifLSL', 'undefined', 'mPDrG', 'DWwdv', 'styleSheets', 'addRule', '::before', '.context_kw', '::before{content:\x20\x22', 'cssRules', 'pad', 'clamp', 'sigBytes', 'YEawH', 'yUSXm', 'PwMPi', 'pLCFG', 'ErKUI', 'OtZki', 'prototype', 'endWith', 'test', '8RHz0u9wbbrXYJjUcstWoRU1SmEIvQZQJtdHeU9/KpK/nBtFWIzLveG63e81APFLLiBBbevCCbRPdingQfzOAFPNPBw4UJCsqrDmVXFe6+LK2CSp26aUL4S+AgWjtrByjZqnYm9H3XEWW+gLx763OGfifuNUB8AgXB7/pnNTwoLjeKDrLKzomC+pXHMGYgQJegLVezvshTGgyVrDXfw4eGSVDa3c/FpDtban34QpS3I=', 'enc', 'Latin1', 'parse', 'window', 'location', 'href', '146385F634C9CB00', 'decrypt', 'ZeroPadding', 'toString', 'split', 'length', 'style', 'type', 'setAttribute', 'async', 'getElementsByTagName', 'NOyra', 'fgQCW', 'nCjZv', 'parentNode', 'insertBefore', 'head'];
                  (function (_0x4db306, _0x3b5c31) {
                      var _0x24d797 = function (_0x1ebd20) {
                          while (--_0x1ebd20) {
                              _0x4db306['push'](_0x4db306['shift']());
                          }
                      };
          復(fù)制代碼

          往下延伸閱讀,還能看到 CryptoJS 這個(gè)詞,看到它就應(yīng)該曉得代碼中使用了一些加密解密的操作。

          第二段,1133 行代碼原文如下:

          for (var i = 0x0; i < words[_0xea12('0x18')]; i++) {
                      try {
                          document[_0xea12('0x2a')][0x0][_0xea12('0x2b')]('.context_kw' + i + _0xea12('0x2c'), 'content:\x20\x22' + words[i] + '\x22');
                      } catch (_0x527f83) {
                          document['styleSheets'][0x0]['insertRule'](_0xea12('0x2d') + i + _0xea12('0x2e') + words[i] + '\x22}', document[_0xea12('0x2a')][0x0][_0xea12('0x2f')][_0xea12('0x18')]);
                      }
                  }
          復(fù)制代碼

          這里循環(huán)的是 words,然后將 words 元素的下標(biāo)和對(duì)應(yīng)元素組合,這和我們猜想的是非常接近的,現(xiàn)在要找到 words

          怎么找?

          又不會(huì)嗎?

          搜索就可以了,順著搜索結(jié)果看,找到了定義 words 的代碼:

          var secWords = decrypted[_0xea12('0x16')](CryptoJS['enc']['Utf8'])[_0xea12('0x17')](',');
          var words = new Array(secWords[_0xea12('0x18')]);
          復(fù)制代碼

          按照這個(gè)方法,我們最后發(fā)現(xiàn) CSS 的 content 的內(nèi)容都是數(shù)組 _0xa12e 中一個(gè)經(jīng)過(guò)加密的元素先經(jīng)過(guò) AES 解密再經(jīng)過(guò)一定處理后得到的值。

          捋清楚邏輯之后,就可以開(kāi)始摳出我們需要的 JS 代碼了。

          這個(gè)代碼雖然經(jīng)過(guò)混淆,但還是比較簡(jiǎn)單的,所以具體的摳代碼步驟就不演示了,這里提示一下在摳出代碼之后兩個(gè)需要改寫的點(diǎn)。

          第一個(gè)是下圖中的異常捕獲,這里判斷了當(dāng)前的 URL 是否為原網(wǎng)站的,但調(diào)試時(shí),在 Node 環(huán)境下執(zhí)行是沒(méi)有 window 對(duì)象、document 對(duì)象的,如果不做修改會(huì)出現(xiàn)異常,所以需要把帶有這些對(duì)象的代碼注釋掉,例如下面 if 判斷語(yǔ)句:

          try {
          	if (top[_0xea12('0x10')][_0xea12('0x11')][_0xea12('0x12')] != window[_0xea12('0x11')]['href']) {
          	top['window'][_0xea12('0x11')]['href'] = window[_0xea12('0x11')][_0xea12('0x12')];
          }
          復(fù)制代碼

          其他的地方還需要自己踩坑。

          修改完后就可以獲取到所有被替換過(guò)的字符了,接下來(lái)只需要把它們替換進(jìn) HTML 里就可以還原出正常的頁(yè)面,replace 就不演示了噢。

          反爬蟲(chóng)原理

          例子中用到的是 ::before,下方文字描述了它的作用:

          在 CSS 中,::before 用于創(chuàng)建一個(gè)偽元素,其將成為匹配選中的元素的第一個(gè)子元素。常通過(guò) content 屬性來(lái)為一個(gè)元素添加修飾性的內(nèi)容。

          引用自:developer.mozilla.org/zh-CN/docs/…

          舉個(gè)例子,新建一個(gè) HTML 文檔,并在里面寫上如下內(nèi)容:

          <q>大家好,我是咸魚(yú)</q>,<q>我是 程序員中的一員</q>
          復(fù)制代碼

          然后為 q 標(biāo)簽設(shè)置樣式:

          q::before { 
            content: "?";
            color: blue;
          }
          q::after { 
            content: "?";
            color: red;
          }
          復(fù)制代碼

          完整代碼如下(寫給沒(méi)有 HTML 基礎(chǔ)的朋友):

          <style>
          
          q::before { 
            content: "?";
            color: blue;
          }
          q::after { 
            content: "?";
            color: red;
          }
          
          </style>
          <q>大家好,我是咸魚(yú)</q>,<q>我是 程序員中的一員</q>
          復(fù)制代碼


          我們?cè)跇邮街校瑸?q 標(biāo)簽加上了 ::before 和 ::after 屬性,并設(shè)置了 content 和對(duì)應(yīng)的顏色。于是乎,在被q 標(biāo)簽包裹著的內(nèi)容前會(huì)出現(xiàn)藍(lán)色的 符號(hào),而后面會(huì)出現(xiàn)紅色的 符號(hào)。

          簡(jiǎn)單易懂吧!

          小結(jié)

          本文簡(jiǎn)單介紹了隱式 Style–CSS 在反爬蟲(chóng)中的應(yīng)用,并通過(guò)一個(gè)簡(jiǎn)單的實(shí)例學(xué)習(xí)了如何應(yīng)對(duì)這種情況,相信嘗試過(guò)的你已經(jīng)清楚地知道下次碰到這種反爬的時(shí)候該如何破解了。

          當(dāng)然呢,這個(gè)例子還不夠完善,沒(méi)有完全覆蓋到隱式 Style–CSS 在反爬蟲(chóng)中的所有應(yīng)用方式,如果讀者朋友對(duì)這類反爬蟲(chóng)有興趣的話,不妨多找?guī)讉€(gè)例子自己動(dòng)手試試,也歡迎通過(guò)留言區(qū)與我交流討論。


          最后,小編想說(shuō):我是一名python開(kāi)發(fā)工程師,

          整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,

          想要這些資料的可以關(guān)注私信小編“01”即可(免費(fèi)分享哦)希望能對(duì)你有所幫助

          無(wú)聊打發(fā)時(shí)間,利用css簡(jiǎn)單寫一個(gè)給網(wǎng)站文章內(nèi)容的右上角添加一個(gè)原創(chuàng)標(biāo)識(shí);

          用來(lái)提醒他人本篇為本站原創(chuàng),轉(zhuǎn)發(fā)文章時(shí)候請(qǐng)附轉(zhuǎn)載地址。



          首先,我們修改下方css類名“tx-box”改為你自己文章最外層盒子的類名,找不到可聯(lián)系小編鵬仔幫你哦。

          然后,修改background 的圖片路徑,圖片大家自行下載(ps簡(jiǎn)單做了兩個(gè)小圖標(biāo),一個(gè)帶白的陰影,一個(gè)不帶,自行選擇,psd忘記保存,也沒(méi)什么需要修改),引入。


          下載圖片 iqzhan.com/post/69.html


          接著將下方css放到網(wǎng)站公共css中,或者找到文章區(qū)域引入css的文件。

          CSS

          .tx-box .info-con{
              position: relative;
          }
          .tp-yuanchuang{
              position: absolute;
              top: 0;
              right: 0;
              z-index: 1;
              opacity: .8;
              width: 110px;
              height: 70px;
              background: url(圖片路徑) no-repeat;
              background-size: auto;
          }

          opacity為水印透明度,0-1范圍,如果覺(jué)得顏色比較重,可往小的設(shè)置 .5


          最后,我們?cè)诰庉嬑恼聲r(shí)候,哪篇文章需要,我們?cè)谖恼戮庉嫊r(shí),編輯器的html中,放入下方html代碼即可。

          Markup

          <div class="tp-yuanchuang"></div>

          主站蜘蛛池模板: 日韩精品无码中文字幕一区二区| 人妻免费一区二区三区最新| 日本一区二三区好的精华液| 久久AAAA片一区二区| 无码一区二区三区在线| 日韩一区二区超清视频| AA区一区二区三无码精片| 亚洲一区精彩视频| 好吊妞视频一区二区| 人妻体内射精一区二区三区| 精品人无码一区二区三区 | 亚洲AV本道一区二区三区四区| 国产在线精品一区二区三区不卡 | 亚洲国产精品一区二区第一页| 国产午夜精品一区二区三区嫩草| 亚洲一区二区三区香蕉| 国产乱码精品一区二区三区中文| 国产午夜精品一区二区三区| 无码人妻精品一区二区三区东京热 | 一区二区三区中文字幕| 国产婷婷一区二区三区| 中文字幕aⅴ人妻一区二区 | 国精品无码A区一区二区| 国产一区二区三区在线2021| 亚洲天堂一区二区| 国产怡春院无码一区二区| 精品国产一区二区三区久久影院| 日本一区二区高清不卡| 亚洲一区二区三区AV无码| 亚洲区精品久久一区二区三区| 久久久久人妻精品一区三寸| 色多多免费视频观看区一区| 中文字幕一区二区在线播放| 久久精品午夜一区二区福利| 在线一区二区三区| 国精产品一区一区三区免费视频| 精品一区二区三区在线观看视频| 日韩精品久久一区二区三区 | 国产乱码精品一区二区三| 一区二区三区观看免费中文视频在线播放 | 日本午夜精品一区二区三区电影|