使用Selenium實現微博爬蟲：預登錄、展開全文、翻頁

言

想實現爬微博的自由嗎？這里可以實現了！本文可以解決微博預登錄、識別“展開全文”并爬取完整數據、翻頁設置等問題。

一、區分動態爬蟲和靜態爬蟲

1、靜態網頁

靜態網頁是純粹的HTML，沒有后臺數據庫，不含程序，不可交互，體量較少，加載速度快。靜態網頁的爬取只需四個步驟：發送請求、獲取相應內容、解析內容及保存數據。

2、動態網頁

動態網頁上的數據會隨時間及用戶交互發生變化，因此數據不會直接呈現在網頁源代碼中，數據將以Json的形式保存起來。因此，動態網頁比靜態網頁多了一步，即需渲染獲得相關數據。

3、區分動靜態網頁的方法

加載網頁后，點擊右鍵，選中“查看網頁源代碼”，如果網頁上的絕大多數字段都出現源代碼中，那么這就是靜態網頁，否則是動態網頁。

二、動態爬蟲的兩種方法

1.逆向分析爬取動態網頁

適用于調度資源所對應網址的數據為json格式，Javascript的觸發調度。主要步驟是獲取需要調度資源所對應的網址-訪問網址獲得該資源的數據。（此處不詳細講解）

2.使用Selenium庫爬取動態網頁

使用Selenium庫，該庫使用JavaScript模擬真實用戶對瀏覽器進行操作。本案例將使用該方法。

三、安裝Selenium庫及下載瀏覽器補丁

1.Selenium庫使用pip工具進行安裝即可。

2.下載與Chrome瀏覽器版本匹配的瀏覽器補丁。

Step1：查看Chrome的版本

Step2：去下載相應版本的瀏覽器補丁。網址：http://npm.taobao.org/mirrors/chromedriver/

Step3：解壓文件，并將之放到與python.exe同一文件下

四、頁面打開及預登錄

1.導入selenium包

from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
import time
import pandas as pd

2.打開頁面

driver = webdriver.Chrome()
print('準備登陸Weibo.cn網站...')
#發送請求
driver.get("https://login.sina.com.cn/signup/signin.php")
wait = WebDriverWait(driver,5)
#重要：暫停1分鐘進行預登陸，此處填寫賬號密碼及驗證
time.sleep(60)

3.采用交互式運行，運行完上面兩段程序，會彈出一個框，這個框就是用來模擬網頁的交互。在這個框中完成登錄（包括填寫登錄名、密碼及短信驗證等）

4.完成預登錄，則進入個人主頁

五、關鍵詞搜索操作

1.定位上圖中的關鍵詞輸入框，并在框中輸入搜索對象，如“努力學習”

#使用selector去定位關鍵詞搜索框
s_input = driver.find_element_by_css_selector('#search_input')
#向搜索框中傳入字段
s_input.send_keys("努力學習")
#定位搜索鍵
confirm_btn = driver.find_element_by_css_selector('#search_submit')
#點擊
confirm_btn.click()

2.當完成上步的代碼運行后，會彈出新的窗口，從個人主頁跳到微博搜索頁。但是driver仍在個人主頁，需要人為進行driver的移動，將之移動到微博搜索頁。

3.使用switch_to.window()方法移位

#人為移動driver
driver.switch_to.window(driver.window_handles[1])

六、識別“展開全文”并爬取數據

1.了解每個元素的Selector，用以定位（重點在于唯一標識性）

2.使用Selector定位元素，并獲取相應的數據

comment = []
username = []

#抓取節點：每個評論為一個節點（包括用戶信息、評論、日期等信息），如果一頁有20條評論，那么nodes的長度就為20
nodes = driver.find_elements_by_css_selector('div.card > div.card-feed > div.content')

#對每個節點進行循環操作
for i in range(0,len(nodes),1):
    #判斷每個節點是否有“展開全文”的鏈接
    flag = False
    try:
        nodes[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").is_displayed()
        flag = True
    except:
        flag = False

    #如果該節點具有“展開全文”的鏈接，且該鏈接中的文字是“展開全文c”，那么點擊這個要素，并獲取指定位置的文本；否則直接獲取文本
    #（兩個條件需要同時滿足，因為該selector不僅標識了展開全文，還標識了其他元素，沒有做到唯一定位）
    if(flag and nodes[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").text.startswith('展開全文c')):
        nodes[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").click()
        comment.append(nodes[i].find_element_by_css_selector('p[node-type="feed_list_content_full"]').text)
    else:
        comment.append(nodes[i].find_element_by_css_selector('p[node-type="feed_list_content"]').text)
    username.append(nodes[i].find_element_by_css_selector("div.info>div:nth-child(2)>a").text)

七、設置翻頁

1.使用for循環實現翻頁，重點在于識別“下一頁”按鈕，并點擊它

for page in range(49):
    print(page)
    # 定位下一頁按鈕
    nextpage_button = driver.find_element_by_link_text('下一頁')
    #點擊按鍵
    driver.execute_script("arguments[0].click();", nextpage_button)
    wait = WebDriverWait(driver,5)
    #與前面類似
    nodes1 = driver.find_elements_by_css_selector('div.card > div.card-feed > div.content')
    for i in range(0,len(nodes1),1):
        flag = False
        try:
            nodes1[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").is_displayed()
            flag = True

        except:
            flag = False
        if (flag and nodes1[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").text.startswith('展開全文c')):
            nodes1[i].find_element_by_css_selector("p>a[action-type='fl_unfold']").click()
            comment.append(nodes1[i].find_element_by_css_selector('p[node-type="feed_list_content_full"]').text)
        else:
            comment.append(nodes1[i].find_element_by_css_selector('p[node-type="feed_list_content"]').text)
        username.append(nodes1[i].find_element_by_css_selector("div.info>div:nth-child(2)>a").text)

八、保存數據

1.使用DataFrame保存字段

data = pd.DataFrame({'username':username,'comment':comment})

2.導出到Excel

data.to_excel("weibo.xlsx")

九、完整代碼

CSS視頻教程第21課超實用的翻頁

言

在CSS3中新增了很多的新特性，其中使用頻率比較高的應該是動畫效果了，它可以幫助我們實現以前使用Javascript才能實現的效果，極大的提高網頁的性能。今天這篇文章我們就來一起看一個使用CSS3新特性完成的翻書效果吧。

本文的源碼已經放在了Github上，感興趣的可以clone到本地試試，地址如下。

https://github.com/zhouxiongking/article-pages/blob/master/articles/rollPage/rollPage.html

CSS3

實現效果

首先我們來看看實際的運行效果，動態圖如下所示。

效果圖

頁面分析

在看到上述的效果圖后，我們來進行分析，這個過程是如何實現的。

這個頁面我們通過一個ul包含三個li來實現，每個li都給一個固定的寬度和高度。

第一個li在頁面上靜止不動。
第二個li添加動畫效果，使其直接繞Y軸翻轉360度。
第三個li添加動畫效果，但是翻轉周期是在25%的時候開始，因此會有一種翻書的速度差異感。

上面的步驟分析完后就剩下最重要的一個過程，那就是給外層的ul元素添加perspective屬性，這個屬性是決定這個動畫能不能實現的主要的因素。

perspective

perspective是CSS3中新增的屬性，表示的是設置某個元素被查看的視角，用于實現3D效果。

需要注意的是當某個元素設置了perspective屬性時，其子元素會獲得透視效果，而不是這個元素本身。

我們來看一個簡單的例子，有一個section父元素和一個div子元素，讓div元素旋轉45度，html元素如下。

html元素

其對應的CSS屬性如下。

CSS屬性

在section元素上，如果不使用perspective的情況下，得到效果如下圖所示。

效果圖1

如果給section元素加上perspective屬性，并設定600px時，得到的效果圖如下。

效果圖

通過以上兩幅圖的對比我們發現，兩幅圖在Y軸的視角上發生了變化。

接下來，我們來具體看看這個翻書效果的代碼實現。

翻書效果HTML代碼

通過之前的分析，我們知道這個效果是通過ul與li來實現的，html部分代碼如下。

HTML代碼

翻書效果CSS代碼

首先看看ul與li的基本css屬性，記住這里需要給ul元素添加perspective屬性。

基本CSS屬性

然后是給第二個li添加動畫。

第二個li的css屬性

最后是給第三個li添加動畫。

第三個li的css屬性

注意到上面的代碼中有個25%和100%的設置，這個和第二個li不同，所以會有一種翻轉書頁快慢的差異感。

如果按照上述代碼來做，即可實現文章開始的翻書動畫效果。

結束語

今天這篇文章主要是通過CSS3新增的屬性實現了一個翻書動畫效果，大家學會了嗎？

在線咨詢

上一篇：Bootstrap 開源 SVG 圖標庫 Bootstrap Icons
下一篇：代碼變油畫，精細到毛發，只用HTML+CSS，讓美術設計也驚嘆！

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商