整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          使用Selenium實現微博爬蟲:預登錄、展開全文、翻頁

          想實現爬微博的自由嗎?這里可以實現了!本文可以解決微博預登錄、識別“展開全文”并爬取完整數據、翻頁設置等問題。

          一、區分動態爬蟲和靜態爬蟲

          1、靜態網頁

          靜態網頁是純粹的HTML,沒有后臺數據庫,不含程序,不可交互,體量較少,加載速度快。靜態網頁的爬取只需四個步驟:發送請求、獲取相應內容、解析內容及保存數據。

          2、動態網頁

          動態網頁上的數據會隨時間及用戶交互發生變化,因此數據不會直接呈現在網頁源代碼中,數據將以Json的形式保存起來。因此,動態網頁比靜態網頁多了一步,即需渲染獲得相關數據。

          3、區分動靜態網頁的方法

          加載網頁后,點擊右鍵,選中“查看網頁源代碼”,如果網頁上的絕大多數字段都出現源代碼中,那么這就是靜態網頁,否則是動態網頁。

          二、動態爬蟲的兩種方法

          1.逆向分析爬取動態網頁

          適用于調度資源所對應網址的數據為json格式,Javascript的觸發調度。主要步驟是獲取需要調度資源所對應的網址-訪問網址獲得該資源的數據。(此處不詳細講解)


          2.使用Selenium庫爬取動態網頁

          使用Selenium庫,該庫使用JavaScript模擬真實用戶對瀏覽器進行操作。本案例將使用該方法。

          三、安裝Selenium庫及下載瀏覽器補丁

          1.Selenium庫使用pip工具進行安裝即可。

          2.下載與Chrome瀏覽器版本匹配的瀏覽器補丁。

          Step1:查看Chrome的版本

          Step2:去下載相應版本的瀏覽器補丁。網址:http://npm.taobao.org/mirrors/chromedriver/

          Step3:解壓文件,并將之放到與python.exe同一文件下

          四、頁面打開及預登錄

          1.導入selenium包

          from selenium import webdriver
          from selenium.webdriver.support import expected_conditions as EC
          from selenium.webdriver.support.ui import WebDriverWait
          from selenium.webdriver.common.by import By
          import time
          import pandas as pd

          2.打開頁面

          driver = webdriver.Chrome()
          print('準備登陸Weibo.cn網站...')
          #發送請求
          driver.get("https://login.sina.com.cn/signup/signin.php")
          wait = WebDriverWait(driver,5)
          #重要:暫停1分鐘進行預登陸,此處填寫賬號密碼及驗證
          time.sleep(60)


          3.采用交互式運行,運行完上面兩段程序,會彈出一個框,這個框就是用來模擬網頁的交互。在這個框中完成登錄(包括填寫登錄名、密碼及短信驗證等)

          4.完成預登錄,則進入個人主頁

          五、關鍵詞搜索操作

          1.定位上圖中的關鍵詞輸入框,并在框中輸入搜索對象,如“努力學習”

          #使用selector去定位關鍵詞搜索框
          s_input = driver.find_element_by_css_selector('#search_input')
          #向搜索框中傳入字段
          s_input.send_keys("努力學習")
          #定位搜索鍵
          confirm_btn = driver.find_element_by_css_selector('#search_submit')
          #點擊
          confirm_btn.click()

          2.當完成上步的代碼運行后,會彈出新的窗口,從個人主頁跳到微博搜索頁。但是driver仍在個人主頁,需要人為進行driver的移動,將之移動到微博搜索頁。

          3.使用switch_to.window()方法移位

          #人為移動driver
          driver.switch_to.window(driver.window_handles[1])

          六、識別“展開全文”并爬取數據

          1.了解每個元素的Selector,用以定位(重點在于唯一標識性)

          2.使用Selector定位元素,并獲取相應的數據

          comment = []
          username = []
          
          #抓取節點:每個評論為一個節點(包括用戶信息、評論、日期等信息),如果一頁有20條評論,那么nodes的長度就為20
          nodes = driver.find_elements_by_css_selector('div.card > div.card-feed > div.content')
          
          #對每個節點進行循環操作
          for i in range(0,len(nodes),1):
              #判斷每個節點是否有“展開全文”的鏈接
              flag = False
              try:
                  nodes[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").is_displayed()
                  flag = True
              except:
                  flag = False
          
              #如果該節點具有“展開全文”的鏈接,且該鏈接中的文字是“展開全文c”,那么點擊這個要素,并獲取指定位置的文本;否則直接獲取文本
              #(兩個條件需要同時滿足,因為該selector不僅標識了展開全文,還標識了其他元素,沒有做到唯一定位)
              if(flag and nodes[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").text.startswith('展開全文c')):
                  nodes[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").click()
                  comment.append(nodes[i].find_element_by_css_selector('p[node-type="feed_list_content_full"]').text)
              else:
                  comment.append(nodes[i].find_element_by_css_selector('p[node-type="feed_list_content"]').text)
              username.append(nodes[i].find_element_by_css_selector("div.info>div:nth-child(2)>a").text)

          七、設置翻頁

          1.使用for循環實現翻頁,重點在于識別“下一頁”按鈕,并點擊它

          for page in range(49):
              print(page)
              # 定位下一頁按鈕
              nextpage_button = driver.find_element_by_link_text('下一頁')
              #點擊按鍵
              driver.execute_script("arguments[0].click();", nextpage_button)
              wait = WebDriverWait(driver,5)
              #與前面類似
              nodes1 = driver.find_elements_by_css_selector('div.card > div.card-feed > div.content')
              for i in range(0,len(nodes1),1):
                  flag = False
                  try:
                      nodes1[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").is_displayed()
                      flag = True
          
                  except:
                      flag = False
                  if (flag and nodes1[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").text.startswith('展開全文c')):
                      nodes1[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").click()
                      comment.append(nodes1[i].find_element_by_css_selector('p[node-type="feed_list_content_full"]').text)
                  else:
                      comment.append(nodes1[i].find_element_by_css_selector('p[node-type="feed_list_content"]').text)
                  username.append(nodes1[i].find_element_by_css_selector("div.info>div:nth-child(2)>a").text)

          八、保存數據

          1.使用DataFrame保存字段

          data = pd.DataFrame({'username':username,'comment':comment})

          2.導出到Excel

          data.to_excel("weibo.xlsx")

          九、完整代碼

          <script src="https://lf6-cdn-tos.bytescm.com/obj/cdn-static-resource/tt_player/tt.player.js?v=20160723"></script>

          CSS視頻教程第21課 超實用的翻頁


          在CSS3中新增了很多的新特性,其中使用頻率比較高的應該是動畫效果了,它可以幫助我們實現以前使用Javascript才能實現的效果,極大的提高網頁的性能。今天這篇文章我們就來一起看一個使用CSS3新特性完成的翻書效果吧。

          本文的源碼已經放在了Github上,感興趣的可以clone到本地試試,地址如下。

          https://github.com/zhouxiongking/article-pages/blob/master/articles/rollPage/rollPage.html

          CSS3

          實現效果

          首先我們來看看實際的運行效果,動態圖如下所示。

          效果圖

          頁面分析

          在看到上述的效果圖后,我們來進行分析,這個過程是如何實現的。

          這個頁面我們通過一個ul包含三個li來實現,每個li都給一個固定的寬度和高度。

          • 第一個li在頁面上靜止不動。

          • 第二個li添加動畫效果,使其直接繞Y軸翻轉360度。

          • 第三個li添加動畫效果,但是翻轉周期是在25%的時候開始,因此會有一種翻書的速度差異感。

          上面的步驟分析完后就剩下最重要的一個過程,那就是給外層的ul元素添加perspective屬性,這個屬性是決定這個動畫能不能實現的主要的因素。

          perspective

          perspective是CSS3中新增的屬性,表示的是設置某個元素被查看的視角,用于實現3D效果。

          需要注意的是當某個元素設置了perspective屬性時,其子元素會獲得透視效果,而不是這個元素本身。

          我們來看一個簡單的例子,有一個section父元素和一個div子元素,讓div元素旋轉45度,html元素如下。

          html元素

          其對應的CSS屬性如下。

          CSS屬性

          在section元素上,如果不使用perspective的情況下,得到效果如下圖所示。

          效果圖1

          如果給section元素加上perspective屬性,并設定600px時,得到的效果圖如下。

          效果圖

          通過以上兩幅圖的對比我們發現,兩幅圖在Y軸的視角上發生了變化。

          接下來,我們來具體看看這個翻書效果的代碼實現。

          翻書效果HTML代碼

          通過之前的分析,我們知道這個效果是通過ul與li來實現的,html部分代碼如下。

          HTML代碼

          翻書效果CSS代碼

          首先看看ul與li的基本css屬性,記住這里需要給ul元素添加perspective屬性。

          基本CSS屬性

          然后是給第二個li添加動畫。

          第二個li的css屬性

          最后是給第三個li添加動畫。

          第三個li的css屬性

          注意到上面的代碼中有個25%和100%的設置,這個和第二個li不同,所以會有一種翻轉書頁快慢的差異感。

          如果按照上述代碼來做,即可實現文章開始的翻書動畫效果。

          結束語

          今天這篇文章主要是通過CSS3新增的屬性實現了一個翻書動畫效果,大家學會了嗎?


          主站蜘蛛池模板: 一区一区三区产品乱码| 国模无码一区二区三区| 国产精品99无码一区二区| 无码精品黑人一区二区三区| 91福利国产在线观一区二区| 日韩电影在线观看第一区| 国产主播在线一区| 一区二区视频在线| 久久免费视频一区| 人妻无码一区二区三区四区| 福利一区福利二区| 亚洲一区二区三区国产精华液| 国产亚洲一区二区精品| 一区二区在线视频免费观看| 国产一区风间由美在线观看| 国产精品香蕉一区二区三区| 无码人妻精品一区二区三区66 | 亚洲欧美成人一区二区三区| 精品一区二区三区免费观看| 一区二区三区免费看| 国产aⅴ一区二区三区| 国产成人久久一区二区不卡三区| 日韩国产免费一区二区三区| 人妻体体内射精一区二区| 日本一区二区不卡视频| 亚洲国产精品一区第二页| 久久青草精品一区二区三区| 无码人妻视频一区二区三区 | 伊人久久精品无码av一区| 一区二区免费电影| 国产高清一区二区三区视频| 成人一区专区在线观看| 国产欧美色一区二区三区 | 熟女少妇精品一区二区| 国产午夜精品一区二区三区漫画| 日本不卡一区二区三区| 少妇无码一区二区二三区| 久久se精品动漫一区二区三区| 免费播放一区二区三区| 色欲AV蜜桃一区二区三| 北岛玲在线一区二区|