6個(gè)強(qiáng)大且流行的Python爬蟲(chóng)庫(kù)，強(qiáng)烈推薦！

ython中有非常多用于網(wǎng)絡(luò)數(shù)據(jù)采集的庫(kù)，功能非常強(qiáng)大，有的用于抓取網(wǎng)頁(yè)，有的用于解析網(wǎng)頁(yè)，這里介紹6個(gè)最常用的庫(kù)。

1. BeautifulSoup

BeautifulSoup是最常用的Python網(wǎng)頁(yè)解析庫(kù)之一，可將 HTML 和 XML 文檔解析為樹(shù)形結(jié)構(gòu)，能更方便地識(shí)別和提取數(shù)據(jù)。

BeautifulSoup可以自動(dòng)將輸入文檔轉(zhuǎn)換為 Unicode，將輸出文檔轉(zhuǎn)換為 UTF-8。此外，你還可以設(shè)置 BeautifulSoup 掃描整個(gè)解析頁(yè)面，識(shí)別所有重復(fù)的數(shù)據(jù)（例如，查找文檔中的所有鏈接），只需幾行代碼就能自動(dòng)檢測(cè)特殊字符等編碼。

from bs4 import BeautifulSoup  
  
# 假設(shè)這是我們從某個(gè)網(wǎng)頁(yè)獲取的HTML內(nèi)容（這里直接以字符串形式給出）  
html_content = """  
<html>  
<head>  
    <title>示例網(wǎng)頁(yè)</title>  
</head>  
<body>  
    <h1>歡迎來(lái)到BeautifulSoup示例</h1>  
    <p class="introduction">這是一個(gè)關(guān)于BeautifulSoup的簡(jiǎn)單示例。</p>  
    <a href="https://www.example.com/about" class="link">關(guān)于我們</a>  
</body>  
</html>  
"""  
  
# 使用BeautifulSoup解析HTML內(nèi)容，這里默認(rèn)使用Python的html.parser作為解析器  
# 你也可以指定其他解析器，如'lxml'或'html5lib'，但需要先安裝它們  
soup = BeautifulSoup(html_content, 'html.parser')  
  
# 提取并打印<title>標(biāo)簽的文本內(nèi)容  
print("網(wǎng)頁(yè)標(biāo)題:", soup.title.string)  # 網(wǎng)頁(yè)標(biāo)題: 示例網(wǎng)頁(yè)  
  
# 提取并打印<p>標(biāo)簽的文本內(nèi)容，這里使用class屬性來(lái)定位  
print("介紹內(nèi)容:", soup.find('p', class_='introduction').string)  # 介紹內(nèi)容: 這是一個(gè)關(guān)于BeautifulSoup的簡(jiǎn)單示例。  
  
# 提取并打印<a>標(biāo)簽的href屬性和文本內(nèi)容  
link = soup.find('a', class_='link')  
print("鏈接地址:", link['href'])  # 鏈接地址: https://www.example.com/about  
print("鏈接文本:", link.string)  # 鏈接文本: 關(guān)于我們  
  
# 注意：如果HTML內(nèi)容中包含多個(gè)相同條件的標(biāo)簽，你可以使用find_all()來(lái)獲取它們的一個(gè)列表  
# 例如，要獲取所有<a>標(biāo)簽的href屬性，可以這樣做：  
all_links = [a['href'] for a in soup.find_all('a')]  
print("所有鏈接地址:", all_links)  # 假設(shè)HTML中有多個(gè)<a>標(biāo)簽，這里將列出它們的href屬性  
# 注意：上面的all_links列表在當(dāng)前的HTML內(nèi)容中只有一個(gè)元素，因?yàn)橹挥幸粋€(gè)<a>標(biāo)簽

2. Scrapy

Scrapy是一個(gè)流行的高級(jí)爬蟲(chóng)框架，可快速高效地抓取網(wǎng)站并從其頁(yè)面中提取結(jié)構(gòu)化數(shù)據(jù)。

由于 Scrapy 主要用于構(gòu)建復(fù)雜的爬蟲(chóng)項(xiàng)目，并且它通常與項(xiàng)目文件結(jié)構(gòu)一起使用

Scrapy 不僅僅是一個(gè)庫(kù)，還可以用于各種任務(wù)，包括監(jiān)控、自動(dòng)測(cè)試和數(shù)據(jù)挖掘。這個(gè) Python 庫(kù)包含一個(gè)內(nèi)置的選擇器（Selectors）功能，可以快速異步處理請(qǐng)求并從網(wǎng)站中提取數(shù)據(jù)。

# 假設(shè)這個(gè)文件名為 my_spider.py，但它實(shí)際上應(yīng)該放在 Scrapy 項(xiàng)目的 spiders 文件夾中  
  
import scrapy  
  
class MySpider(scrapy.Spider):  
    # Spider 的名稱，必須是唯一的  
    name = 'example_spider'  
  
    # 允許爬取的域名列表（可選）  
    # allowed_domains = ['example.com']  
  
    # 起始 URL 列表  
    start_urls = [  
        'http://example.com/',  
    ]  
  
    def parse(self, response):  
        # 這個(gè)方法用于處理每個(gè)響應(yīng)  
        # 例如，我們可以提取網(wǎng)頁(yè)的標(biāo)題  
        title = response.css('title::text').get()  
        if title:  
            # 打印標(biāo)題（在控制臺(tái)輸出）  
            print(f'Title: {title}')  
  
        # 你還可以繼續(xù)爬取頁(yè)面中的其他鏈接，這里只是簡(jiǎn)單示例  
        # 例如，提取所有鏈接并請(qǐng)求它們  
        # for href in response.css('a::attr(href)').getall():  
        #     yield scrapy.Request(url=response.urljoin(href), callback=self.parse)  
  
# 注意：上面的代碼只是一個(gè) Spider 類的定義。  
# 要運(yùn)行這個(gè) Spider，你需要將它放在一個(gè) Scrapy 項(xiàng)目中，并使用 scrapy crawl 命令來(lái)啟動(dòng)爬蟲(chóng)。  
# 例如，如果你的 Scrapy 項(xiàng)目名為 myproject，并且你的 Spider 文件名為 my_spider.py，  
# 那么你應(yīng)該在項(xiàng)目根目錄下運(yùn)行以下命令：  
# scrapy crawl example_spider

3. Selenium

Selenium 是一款基于瀏覽器地自動(dòng)化程序庫(kù)，可以抓取網(wǎng)頁(yè)數(shù)據(jù)。它能在 JavaScript 渲染的網(wǎng)頁(yè)上高效運(yùn)行，這在其他 Python 庫(kù)中并不多見(jiàn)。

在開(kāi)始使用 Python 處理 Selenium 之前，需要先使用 Selenium Web 驅(qū)動(dòng)程序創(chuàng)建功能測(cè)試用例。

Selenium 庫(kù)能很好地與任何瀏覽器（如 Firefox、Chrome、IE 等）配合進(jìn)行測(cè)試，比如表單提交、自動(dòng)登錄、數(shù)據(jù)添加/刪除和警報(bào)處理等。

from selenium import webdriver  
from selenium.webdriver.common.keys import Keys  
from selenium.webdriver.common.by import By  
from selenium.webdriver.support.ui import WebDriverWait  
from selenium.webdriver.support import expected_conditions as EC  
  
# 設(shè)置WebDriver的路徑（根據(jù)你的系統(tǒng)路徑和WebDriver版本修改）  
driver_path = '/path/to/your/chromedriver'  
  
# 初始化WebDriver  
driver = webdriver.Chrome(executable_path=driver_path)  
  
try:  
    # 打開(kāi)網(wǎng)頁(yè)  
    driver.get('https://www.example.com')  
  
    # 等待頁(yè)面加載完成（這里使用隱式等待，針對(duì)所有元素）  
    # 注意：隱式等待可能會(huì)影響性能，通常在腳本開(kāi)始時(shí)設(shè)置一次  
    driver.implicitly_wait(10)  # 秒  
  
    # 查找并輸入文本到搜索框（假設(shè)搜索框有一個(gè)特定的ID或類名等）  
    # 這里以ID為'search'的輸入框?yàn)槔? 
    search_box = driver.find_element(By.ID, 'search')  
    search_box.send_keys('Selenium WebDriver')  
  
    # 提交搜索（假設(shè)搜索按鈕是一個(gè)類型為submit的按鈕或是一個(gè)可以點(diǎn)擊的輸入框）  
    # 如果搜索是通過(guò)按Enter鍵觸發(fā)的，可以直接在search_box上使用send_keys(Keys.ENTER)  
    # 這里假設(shè)有一個(gè)ID為'submit'的按鈕  
    submit_button = driver.find_element(By.ID, 'submit')  
    submit_button.click()  
  
    # 等待搜索結(jié)果加載完成（這里使用顯式等待作為示例）  
    # 假設(shè)搜索結(jié)果頁(yè)面有一個(gè)特定的元素，我們等待它出現(xiàn)  
    wait = WebDriverWait(driver, 10)  # 等待最多10秒  
    element = wait.until(EC.presence_of_element_located((By.ID, 'results')))  
  
    # 執(zhí)行其他操作...  
  
finally:  
    # 關(guān)閉瀏覽器  
    driver.quit()

4. requests

不用多說(shuō)，requests 是 Python 中一個(gè)非常流行的第三方庫(kù)，用于發(fā)送各種 HTTP 請(qǐng)求。它簡(jiǎn)化了 HTTP 請(qǐng)求的發(fā)送過(guò)程，使得從網(wǎng)頁(yè)獲取數(shù)據(jù)變得非常簡(jiǎn)單和直觀。

requests 庫(kù)提供了豐富的功能和靈活性，支持多種請(qǐng)求類型（如 GET、POST、PUT、DELETE 等），可以發(fā)送帶有參數(shù)、頭信息、文件等的請(qǐng)求，并且能夠處理復(fù)雜的響應(yīng)內(nèi)容（如 JSON、XML 等）。

import requests  
  
# 目標(biāo)URL  
url = 'https://httpbin.org/get'  
  
# 發(fā)送GET請(qǐng)求  
response = requests.get(url)  
  
# 檢查請(qǐng)求是否成功  
if response.status_code == 200:  
    # 打印響應(yīng)內(nèi)容  
    print(response.text)  
else:  
    # 打印錯(cuò)誤信息  
    print(f'請(qǐng)求失敗，狀態(tài)碼：{response.status_code}')

5. urllib3

urllib3 是 Python內(nèi)置網(wǎng)頁(yè)請(qǐng)求庫(kù)，類似于 Python 中的requests庫(kù)，主要用于發(fā)送HTTP請(qǐng)求和處理HTTP響應(yīng)。它建立在Python標(biāo)準(zhǔn)庫(kù)的urllib模塊之上，但提供了更高級(jí)別、更健壯的API。

urllib3可以用于處理簡(jiǎn)單身份驗(yàn)證、cookie 和代理等復(fù)雜任務(wù)。

import urllib3  
  
# 創(chuàng)建一個(gè)HTTP連接池  
http = urllib3.PoolManager()  
  
# 目標(biāo)URL  
url = 'https://httpbin.org/get'  
  
# 使用連接池發(fā)送GET請(qǐng)求  
response = http.request('GET', url)  
  
# 檢查響應(yīng)狀態(tài)碼  
if response.status == 200:  
    # 打印響應(yīng)內(nèi)容（注意：urllib3默認(rèn)返回的是bytes類型，這里我們將其解碼為str）  
    print(response.data.decode('utf-8'))  
else:  
    # 如果響應(yīng)狀態(tài)碼不是200，則打印錯(cuò)誤信息  
    print(f'請(qǐng)求失敗，狀態(tài)碼：{response.status}')  
  
# 注意：urllib3沒(méi)有直接的方法來(lái)處理JSON響應(yīng)，但你可以使用json模塊來(lái)解析  
# 如果響應(yīng)內(nèi)容是JSON，你可以這樣做：  
# import json  
# json_response = json.loads(response.data.decode('utf-8'))  
# print(json_response)

6. lxml

lxml是一個(gè)功能強(qiáng)大且高效的Python庫(kù)，主要用于處理XML和HTML文檔。它提供了豐富的API，使得開(kāi)發(fā)者可以輕松地讀取、解析、創(chuàng)建和修改XML和HTML文檔。

from lxml import etree  
  
# 假設(shè)我們有一段HTML或XML內(nèi)容，這里以HTML為例  
html_content = """  
<html>  
  <head>  
    <title>示例頁(yè)面</title>  
  </head>  
  <body>  
    <h1>歡迎來(lái)到我的網(wǎng)站</h1>  
    <p class="description">這是一個(gè)使用lxml解析的示例頁(yè)面。</p>  
    <ul>  
      <li>項(xiàng)目1</li>  
      <li>項(xiàng)目2</li>  
    </ul>  
  </body>  
</html>  
"""  
  
# 使用lxml的etree模塊來(lái)解析HTML或XML字符串  
# 注意：對(duì)于HTML內(nèi)容，我們使用HTMLParser解析器  
parser = etree.HTMLParser()  
tree = etree.fromstring(html_content, parser=parser)  
  
# 查找并打印<title>標(biāo)簽的文本  
title = tree.find('.//title').text  
print("頁(yè)面標(biāo)題:", title)  
  
# 查找并打印class為"description"的<p>標(biāo)簽的文本  
description = tree.find('.//p[@class="description"]').text  
print("頁(yè)面描述:", description)  
  
# 查找所有的<li>標(biāo)簽，并打印它們的文本  
for li in tree.findall('.//li'):  
    print("列表項(xiàng):", li.text)  
  
# 注意：lxml也支持XPath表達(dá)式來(lái)查找元素，這里只是簡(jiǎn)單展示了find和findall的用法  
# XPath提供了更強(qiáng)大的查詢能力

其他爬蟲(chóng)工具

除了Python庫(kù)之外，還有其他爬蟲(chóng)工具可以使用。

八爪魚(yú)爬蟲(chóng)

八爪魚(yú)爬蟲(chóng)是一款功能強(qiáng)大的桌面端爬蟲(chóng)軟件，主打可視化操作，即使是沒(méi)有任何編程基礎(chǔ)的用戶也能輕松上手。

官網(wǎng)：1.軟件分享[耶]八爪魚(yú)，爬取了幾百條網(wǎng)站上的公開(kāi)數(shù)據(jù)，不用學(xué)代碼真的很方便。[得意]2.發(fā)現(xiàn)了一個(gè)很棒的軟件，?不用學(xué)python也可以爬數(shù)據(jù)！用它爬了n多數(shù)據(jù)。3.微博、電商、各大新聞平臺(tái)的數(shù)據(jù)，很多可以用模版一鍵爬取數(shù)據(jù)，非常方便！4.做科研項(xiàng)目要采集很多數(shù)據(jù)，[耶]科研人的救命神器，推薦！5.實(shí)時(shí)獲取樓市動(dòng)態(tài)，用八爪魚(yú)收集網(wǎng)上關(guān)于樓盤(pán)的用戶評(píng)價(jià)，不用學(xué)代碼直接爬了很多數(shù)據(jù)6.用八爪魚(yú)實(shí)時(shí)爬取電商數(shù)據(jù)，追蹤競(jìng)爭(zhēng)對(duì)手價(jià)格，商品信息一手掌握[得意]7.用八爪魚(yú)自動(dòng)收集全網(wǎng)最新新聞，迅速獲取熱點(diǎn)資訊，超方便?

八爪魚(yú)支持多種數(shù)據(jù)類型采集，包括文本、圖片、表格等，并提供強(qiáng)大的自定義功能，能夠滿足不同用戶需求。此外，八爪魚(yú)爬蟲(chóng)支持將采集到的數(shù)據(jù)導(dǎo)出為多種格式，方便后續(xù)分析處理。

亮數(shù)據(jù)爬蟲(chóng)

亮數(shù)據(jù)平臺(tái)提供了強(qiáng)大的數(shù)據(jù)采集工具，比如Web Scraper IDE、亮數(shù)據(jù)瀏覽器、SERP API等，能夠自動(dòng)化地從網(wǎng)站上抓取所需數(shù)據(jù)，無(wú)需分析目標(biāo)平臺(tái)的接口，直接使用亮數(shù)據(jù)提供的方案即可安全穩(wěn)定地獲取數(shù)據(jù)。

網(wǎng)站：「鏈接」

亮數(shù)據(jù)瀏覽器支持對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行批量數(shù)據(jù)抓取，適用于需要JavaScript渲染的頁(yè)面或需要進(jìn)行網(wǎng)頁(yè)交互的場(chǎng)景。

Web Scraper

Web Scraper是一款輕便易用的瀏覽器擴(kuò)展插件，用戶無(wú)需安裝額外的軟件，即可在Chrome瀏覽器中進(jìn)行爬蟲(chóng)。插件支持多種數(shù)據(jù)類型采集，并可將采集到的數(shù)據(jù)導(dǎo)出為多種格式。

無(wú)論是Python庫(kù)還是爬蟲(chóng)軟件，都能實(shí)現(xiàn)數(shù)據(jù)采集任務(wù)，可以選擇適合自己的。當(dāng)然記得在使用這些工具時(shí)，一定要遵守相關(guān)網(wǎng)站的爬蟲(chóng)政策和法律法規(guī)。

umbo 是 Google 的一款用C語(yǔ)言實(shí)現(xiàn)的HTML5解析庫(kù)，無(wú)需任何外部依賴。

特征：

遵循 HTML5 規(guī)范
功能強(qiáng)大，可處理一些不規(guī)范的 HTML 標(biāo)簽
簡(jiǎn)單的 API
支持源位置和指針回到原始文本
輕巧、沒(méi)有外部依賴
通過(guò) html5lib-0.95 兼容測(cè)試
已在超過(guò)25億個(gè)來(lái)自谷歌索引的頁(yè)面中進(jìn)行過(guò)測(cè)試

項(xiàng)目地址

https://github.com/google/gumbo-parser

言

PDF文件現(xiàn)在在許多企業(yè)中常用 - 無(wú)論您是要生成銷售報(bào)告，交付合同還是發(fā)送發(fā)票，PDF都是首選的文件類型。PDF.js是由Mozilla編寫(xiě)的JavaScript庫(kù)。由于它使用vanilla JavaScript實(shí)現(xiàn)PDF渲染，因此它具有跨瀏覽器兼容性，并且不需要安裝其他插件。在使用PDFJS之前你也可以先了解下原生的PDF<object>對(duì)象，本文僅介紹PDFJS。

官網(wǎng)地址

https://mozilla.github.io/pdf.js/

下載和安裝

官網(wǎng)提供了下載入口,有穩(wěn)定版和Beta版,我們要在生產(chǎn)環(huán)境下使用建議使用穩(wěn)定版,官網(wǎng)給我們提供了三種獲取PDF.js的方式

使用說(shuō)明

我們可以直接使用cdn服務(wù)，也可以將下載的文件引入，我們看一下示例代碼，這里我提供了兩種寫(xiě)法，在項(xiàng)目運(yùn)行之前，請(qǐng)確保你的同級(jí)目錄下有一個(gè)test.pdf文件

//index.html
<!DOCTYPE html>
<html lang="en">
<head>
 <meta charset="UTF-8">
 <meta name="viewport" content="width=device-width, initial-scale=1.0">
 <meta http-equiv="X-UA-Compatible" content="ie=edge">
 <script src="https://cdn.jsdelivr.net/npm/pdfjs-dist@2.0.943/build/pdf.min.js"></script>
 <script src='./index.js'></script>
 <title>PDF</title>
</head>
<body>
 <canvas id="pdf"></canvas>
</body>
</html>
//index.js
// var loadingTask = pdfjsLib.getDocument("test.pdf");
// loadingTask.promise.then(
// function(pdf) {
// // 加載第一頁(yè)
// pdf.getPage(1).then(function(page) {
// var scale = 1;
// var viewport = page.getViewport(scale);
// //應(yīng)用到頁(yè)面的canvas上.
// var canvas = document.getElementById("pdf");
// var context = canvas.getContext("2d");
// canvas.height = viewport.height;
// canvas.width = viewport.width;
// // 渲染canvas.
// var renderContext = {
// canvasContext: context,
// viewport: viewport
// };
// page.render(renderContext).then(function() {
// console.log("Page rendered!");
// });
// });
// },
// function(reason) {
// console.error(reason);
// }
// );
// index.js
(async () => {
 const loadingTask = pdfjsLib.getDocument("test.pdf");
 const pdf = await loadingTask.promise;
 // 加載第一頁(yè).
 const page = await pdf.getPage(1);
 const scale = 1;
 const viewport = page.getViewport(scale);
 // 應(yīng)用到頁(yè)面的canvas上.
 const canvas = document.getElementById("pdf");
 const context = canvas.getContext("2d");
 canvas.height = viewport.height;
 canvas.width = viewport.width;
 // 渲染canvas.
 const renderContext = {
 canvasContext: context,
 viewport: viewport
 };
 await page.render(renderContext);
})();

當(dāng)我們運(yùn)行項(xiàng)目之后，打開(kāi)瀏覽器查看，它已經(jīng)將pdf的內(nèi)容渲染到了瀏覽器中，且顯示了第一頁(yè)，如下圖所示：

如果就這樣的話遠(yuǎn)遠(yuǎn)是無(wú)法滿足我們使用的，因此我們來(lái)看一下它比較高級(jí)的用法，或者說(shuō)簡(jiǎn)單的用法，高級(jí)的功能。

使用iframe

首先我們將我們下載的js包加壓，復(fù)制里面的web文件夾，粘貼到你的項(xiàng)目目錄

然后修改你的index.html代碼，首先注釋掉之前引入的js代碼，然后修改body，如下

<body>
 <iframe src="test.pdf" style="border: none;" width="100%" height='1000px'></iframe>
</body>

隨后打開(kāi)我們的瀏覽器，你會(huì)發(fā)現(xiàn)一個(gè)預(yù)覽的窗口

它繼承了我們常用的功能，比如旋轉(zhuǎn)、下載、打印、自適應(yīng)縮放、放大、縮小等，我們只需要使用iframe引入我們的pdf文件即可，其余的全部交給pdf來(lái)完成，即可獲得一個(gè)實(shí)現(xiàn)一個(gè)完整的pdf預(yù)覽功能。

PDF.js三個(gè)不同層

核心 - PDF的二進(jìn)制格式在此層中進(jìn)行解釋。直接使用該層被認(rèn)為是高級(jí)用法。
顯示 - 該層構(gòu)建在核心層之上，為大多數(shù)日常工作提供易于使用的界面。
Viewer - 除了提供編程API之外，PDF.js還附帶一個(gè)現(xiàn)成的用戶界面，其中包括對(duì)搜索，旋轉(zhuǎn)，縮略圖側(cè)邊欄和許多其他內(nèi)容的支持。

PDFJS的這三層分開(kāi)，讓我們很好的來(lái)根據(jù)業(yè)務(wù)需求來(lái)實(shí)現(xiàn)我們想要的部分，其簡(jiǎn)單的api讓我們得心應(yīng)手，總而言之，PDFJS是一個(gè)絕佳的PDF預(yù)覽解決方案。

總結(jié)

PDFJS不僅僅支持pdf的二進(jìn)制文件，同樣還支持base64編碼的pdf，如果在你的項(xiàng)目中需要用到pdf的預(yù)覽等功能，無(wú)疑它是一種良好的解決方案，當(dāng)然想要實(shí)現(xiàn)相同的功能有許多辦法，我們可以選擇最適合我們需求的，官方還提供了一個(gè)完整的演示Demo，如下截圖，如果你覺(jué)得本文對(duì)你有幫助，請(qǐng)麻煩轉(zhuǎn)發(fā)、點(diǎn)贊加關(guān)注吧，后續(xù)會(huì)分享更多實(shí)用有趣的技術(shù)！

在線咨詢

上一篇：有趣的網(wǎng)站精選大全合集
下一篇：html有什么作用

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫(xiě)需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營(yíng)銷服務(wù)商