3分鐘，10行代碼教你寫Python爬蟲

言：

本文適合新人小白閱讀，大佬們感興趣就看看，不感興趣就可以劃走啦。

話不多說，先看完整源碼：

import requests
from lxml import html
url='https://movie.douban.com/'#需要爬數據的網址
header={
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬蟲偽裝
page=requests.Session().get(url, headers=header)
tree=html.fromstring(page.text)
result=tree.xpath('//td[@class="title"]//a/text()')#獲取需要的數據
print(result)

下面是我們爬取的數據：

['Tinder 詐騙王', 
'逃亡', '尋找黑暗',
 '正發生', '瀑布',
 '滄海漁生', '抱緊我',
 '美國草根：庫爾特·華納的故事',
 '一切順利', '甘草披薩']

也就是下面爬取的這個頁面里紅色框框里面的數據，豆瓣電影本周口碑榜。

添加圖片注釋，不超過 140 字（可選）

那么，這個爬蟲代碼是怎么寫的呢？我們來看一看

第一步：導入模塊

import requests
from lxml import html

Python的強大之處就在于，它的庫特別多，使用很方便，這個程序我們需要導入requests，lxml這兩個模塊。

很簡單，用pip指令就好。打開cmd（即終端），輸入指令：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn requests

然后回車，等待安裝完成。

lxml安裝我是用這個指令：

pip install lxml http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

同樣回車，等待安裝完成。

第二步：爬蟲的網址

url='https://movie.douban.com/'#需要爬數據的網址

至于為什么選豆瓣，額，大概是傳承吧，大家都是從爬豆瓣開始的，這不豆瓣都加反爬機制了，不過這難不倒我們，咱可以給爬蟲偽裝一下，也就是我們接下來要做的。

第三步：爬蟲偽裝

header={
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬蟲偽裝

我們通過更改User-Agent字段來實現網站請求，實現網頁應答。具體步驟如下：

1.打開你要爬蟲的網頁

2.按F12或通過瀏覽器右上角的“更多工具”選項選擇【開發者工具】

3.按F5刷新網頁

4.點擊Network，再點擊Doc

5.找到Headers，查看Request Headers的User-Agent字段，直接復制

6.將剛才復制的User-Agent字段構造成字典形式（即我們的那段代碼）

編輯切換為居中

添加圖片注釋，不超過 140 字（可選）

看不懂英文的話，右上角那里有個設置，可以換成中文。

第四步：爬取數據

result=tree.xpath('//td[@class="title"]//a/text()')#獲取需要的數據

這一步是最重要的一步了。怎么寫呢，我們來看看：

1.還是打開網頁，按F12，點擊左上角那個按鈕:

2.鼠標點擊需要爬取的數據，這里我們點“詐騙王”，如圖所示。

添加圖片注釋，不超過 140 字（可選）

3.看到大紅色框框里的東西，是不是和我們最“重要”的代碼有很多相似的地方。

再看來最后一行代碼中最“重要”的部分。

‘//td[@class=”title”]//a/text()’

1）//td ：這個相當于指定是大目錄；

2）[@class=”title”]：這個相當于指定的小目錄；

3）//a ：這個相當于最小的目錄；

4）/text()：這個是提取其中的數據。

添加圖片注釋，不超過 140 字（可選）

這里我們就完成啦，是不是感覺爬蟲很簡單，你學廢了嗎

markdown中寫下你的文章，并使用Python將它們轉換成HTML-作者Florian Dahlitz，于2020年5月18日（15分鐘）

介紹

幾個月前，我想開通自己的博客，而不是使用像Medium這樣的網站。這是一個非常基礎的博客，所有的文章都是HTML形式的。然而，有一天，我突然產生了自己編寫Markdown到HTML生成器的想法，最終這將允許我用markdown來編寫文章。此外，為它添加諸如估計閱讀時間之類的擴展特性會更容易。長話短說，我實現了自己的markdown到HTML生成器，我真的很喜歡它！

在本系列文章中，我想向您展示如何構建自己的markdown到HTML生成器。該系列由三部分組成：

第一部分（本文）介紹了整個管線的實現。
第二部分通過一個模塊擴展了實現的管線，該模塊用于計算給定文章的預計閱讀時間。
第三部分演示如何使用管線生成自己的RSS摘要。

這三部分中使用的代碼都可以在GitHub上找到。

備注：我的文章中markdown到HTML生成器的想法基于Anthony Shaw文章中的實現。

項目構建

為了遵循本文的內容，您需要安裝幾個軟件包。我們把它們放進requirements.txt文件。

Markdown是一個包，它允許您將markdown代碼轉換為HTML。之后我們用Flask產生靜態文件。

但在安裝之前，請創建一個虛擬環境，以避免Python安裝出現問題：

激活后，您可以使用pip安裝requirements.txt中的依賴。

很好！讓我們創建幾個目錄來更好地組織代碼。首先，我們創建一個app目錄。此目錄包含我們提供博客服務的Flask應用程序。所有后續目錄都將在app目錄內創建。其次，我們創建一個名為posts的目錄。此目錄包含要轉換為HTML文件的markdown文件。接下來，我們創建一個templates目錄，其中包含稍后使用Flask展示的模板。在templates目錄中，我們再創建兩個目錄：

posts包含生成的HTML文件，這些文件與應用程序根目錄中posts目錄中的文件相對應。

shared包含在多個文件中使用的HTML文件。

此外，我們還創建了一個名為services的目錄。該目錄將包含我們在Flask應用程序中使用的模塊，或者為它生成某些東西。最后，創建一個名為static的目錄帶有兩個子目錄images和css。自定義CSS文件和文章的縮略圖將存儲在此處。

您的最終項目結構應如下所示：

令人驚嘆！我們完成了一般的項目設置。我們來看看Flask的設置。

Flask設置

路由

我們在上一節安裝了Flask。但是，我們仍然需要一個Python文件來定義用戶可以訪問的端點。在app目錄中創建main.py并將以下內容復制到其中。

該文件定義了一個具有兩個端點的基礎版Flask應用程序。用戶可以使用/route訪問第一個端點返回索引頁，其中列出了所有文章。

第二個端點是更通用的端點。它接受post的名稱并返回相應的HTML文件。

接下來，我們通過向app目錄中添加一個__init__.py，將其轉換為一個Python包。此文件為空。如果您使用UNIX計算機，則可以從項目的根目錄運行以下命令：

模板

現在，我們創建兩個模板文件index.html以及layout.html，都存儲在templates/shared目錄中。這個layout.html模板將用于單個博客條目，而index.html模板用于生成索引頁，從中我們可以訪問每個帖子。讓我們從index.html模板開始。

它是一個基本的HTML文件，其中有兩個元標記、一個標題和兩個樣式表。注意，我們使用一個遠程樣式表和一個本地樣式表。遠程樣式表用于啟用Bootstrap[1]類。第二個是自定義樣式。我們晚點再定義它們。

HTML文件的主體包含一個容器，其中包含Jinja2[2]邏輯，用于為每個post生成Bootstrap卡片[3]。您是否注意到我們不直接基于變量名訪問這些值，而是需要將[0]添加到其中？這是因為文章中解析的元數據是列表。實際上，每個元數據元素都是由單一元素組成的列表。我們稍后再看。到目前為止，還不錯。讓我們看看layout.html模板。

如你所見，它比前一個短一點，簡單一點。文件頭與index.html文件很相似，除了我們有不同的標題。當然，我們可以共用一個模板，但是我不想讓事情變得更復雜。

body中的容器僅定義一個h1標記。然后，我們提供給模板的內容被插入并呈現。

樣式

正如上一節所承諾的，我們將查看自定義CSS文件style.css. 我們在static/css中找到該文件，并根據需要自定義頁面。下面是我們將用于基礎示例的內容：

我不喜歡Bootstrap中blockquotes的默認外觀，所以我們在左側添加了一點間距和邊框。此外，blockquote段落底部的頁邊空白將被刪除。不刪除的話看起來很不自然。

最后但并非最不重要的是，左右兩邊的填充被刪除。由于兩邊都有額外的填充，縮略圖沒有正確對齊，所以在這里刪除它們。

到現在為止，一直都還不錯。我們完成了關于Flask的所有工作。讓我們開始寫一些帖子吧！

寫文章

正如標題所承諾的，你可以用markdown寫文章-是的！在寫文章的時候，除了保證正確的markdown格式外，沒有其他需要注意的事情。

在完成本文之后，我們需要在文章中添加一些元數據。此元數據添加在文章之前，并由三個破折號分隔開來---。下面是一個示例文章（post1.md）的摘錄：

注意：您可以在GitHub庫的app/posts/post1.md中找到完整的示例文章。

在我們的例子中，元數據由標題、副標題、類別、發布日期和index.html中卡片對應縮略圖的路徑組成.

我們在HTML文件中使用了元數據，你還記得嗎？元數據規范必須是有效的YAML。示例形式是鍵后面跟著一個冒號和值。最后，冒號后面的值是列表中的第一個也是唯一的元素。這就是我們通過模板中的索引運算符訪問這些值的原因。

假設我們寫完了文章。在我們可以開始轉換之前，還有一件事要做：我們需要為我們的帖子生成縮略圖！為了讓事情更簡單，只需從你的電腦或網絡上隨機選取一張圖片，命名它為placeholder.jpg并把它放到static/images目錄中。GitHub存儲庫中兩篇文章的元數據包含一個代表圖像的鍵值對，值是placeholder.jpg。

注意：在GitHub存儲庫中，您可以找到我提到的兩篇示例文章。

markdown到HTML轉換器

最后，我們可以開始實現markdown to HTML轉換器。因此，我們使用我們在開始時安裝的第三方包Markdown。我們先創建一個新模塊，轉換服務將在其中運行。因此，我們在service目錄中創建了converter.py。我們一步一步看完整個腳本。您可以在GitHub存儲庫中一次查看整個腳本。

首先，我們導入所需的所有內容并創建幾個常量：

ROOT指向我們項目的根。因此，它是包含app的目錄。

POSTS_DIR是以markdown編寫的文章的路徑。

TEMPLATE_DIR分別指向對應的templates目錄。

BLOG_TEMPLATE_文件存儲layout.html的路徑。

INDEX_TEMPLATE_FILE是index.html

BASE_URL是我們項目的默認地址，例如。https://florian-dahlitz.de.默認值（如果不是通過環境變量DOMAIN提供的話）是http://0.0.0.0：5000。

接下來，我們創建一個名為generate_entries的新函數。這是我們定義的唯一一個轉換文章的函數。

在函數中，我們首先獲取POSTS_DIR目錄中所有markdown文件的路徑。pathlib的awesome glob函數幫助我們實現它。

此外，我們定義了Markdown包需要使用的擴展。默認情況下，本文中使用的所有擴展都隨它的安裝一起提供。

注意：您可以在文檔[4]中找到有關擴展的更多信息。

此外，我們實例化了一個新的文件加載程序，并創建了一個在轉換項目時使用的環境。隨后，將創建一個名為all_posts的空列表。此列表將包含我們處理后的所有帖子。現在，我們進入for循環并遍歷POSTS_DIR中找到的所有文章。

我們啟動for循環，并打印當前正在處理的post的路徑。如果有什么東西出問題了，這尤其有用。然后我們就知道，哪個文章的轉換失敗了。

接下來，我們在默認url之后增加一部分。假設我們有一篇標題為“面向初學者的Python”的文章。我們將文章存儲在一個名為python-for-beginners.md,的文件中，因此生成的url將是http://0.0.0.0:5000/posts/python-for-beginners。

變量url_html存儲的字符串與url相同，只是我們在末尾添加了.html。我們使用此變量定義另一個稱為target_file.的變量。變量指向存儲相應HTML文件的位置。

最后，我們定義了一個變量md，它表示markdown.Markdown的實例，用于將markdown代碼轉換為HTML。您可能會問自己，為什么我們沒有在for循環之前實例化這個實例，而是在內部實例化。當然，對于我們這里的小例子來說，這沒有什么區別（只是執行時間稍微短一點）。但是，如果使用諸如腳注之類的擴展來使用腳注，則需要為每個帖子實例化一個新實例，因為腳注添加后就不會從此實例中刪除。因此，如果您的第一篇文章使用了一些腳注，那么即使您沒有明確定義它們，所有其他文章也將具有相同的腳注。

讓我們轉到for循環中的第一個with代碼塊。

實際上，with代碼塊打開當前post并將其內容讀入變量content。之后調用_md.convert將以markdown方式寫入的內容轉換為HTML。隨后，env環境根據提供的模板BLOG_TEMPLATE_FILE（即layout.html如果你還記得的話）渲染生成的HTML。

第二個with 代碼塊用于將第一個with 代碼塊中創建的文檔寫入目標文件。

以下三行代碼從元數據中獲取發布日期（被發布的日期），將其轉換為正確的格式（RFC 2822），并將其分配回文章的元數據。此外，生成的post_dict被添加到all_posts列表中。

我們現在出了for循環，因此，我們遍歷了posts目錄中找到的所有posts并對其進行了處理。讓我們看看generate_entries函數中剩下的三行代碼。

我們按日期倒序對文章進行排序，所以首先顯示最新的文章。隨后，我們將文章寫到模板目錄一個新創建的index.html文件中。別把index.html錯認為templates/shared目錄中的那個。templates/shared目錄中的是模板，這個是我們要使用Flask服務的生成的。

最后我們在函數generate_entries之后添加以下if語句。

這意味著如果我們通過命令行執行文件，它將調用generate_entries函數。

太棒了，我們完成了converter.py腳本！讓我們從項目的根目錄運行以下命令來嘗試：

您應該看到一些正在轉換的文件的路徑。假設您編寫了兩篇文章或使用了GitHub存儲庫中的兩篇文章，那么您應該在templates目錄中找到三個新創建的文件。首先是index.html，它直接位于templates目錄中，其次是templates/posts目錄中的兩個HTML文件，它們對應于markdown文件。

最后啟動Flask應用程序并轉到http://0.0.0.0:5000。

總結

太棒了，你完成了這個系列的第一部分！在本文中，您已經學習了如何利用Markdown包創建自己的Markdown to HTML生成器。您實現了整個管線，它是高度可擴展的，您將在接下來的文章中看到這一點。

希望你喜歡這篇文章。一定要和你的朋友和同事分享。如果你還沒有，考慮在Twitter上關注我@DahlitzF或者訂閱我的通知，這樣你就不會錯過任何即將發表的文章。保持好奇心，不斷編碼！

參考文獻

Bootstrap （http://getbootstrap.com/）

Primer on Jinja Templating （https://realpython.com/primer-on-jinja-templating/）

Bootstrap Card （https://getbootstrap.com/docs/4.4/components/card/）

Python-Markdown Extensions （https://python-markdown.github.io/extensions/）

英文原文：https://florian-dahlitz.de/blog/build-a-markdown-to-html-conversion-pipeline-using-python
譯者：阿布銩

驟一：準備工作

確保你已經安裝好 Python 和相關的庫，比如 requests 和 BeautifulSoup。

bash復制代碼pip install requests
pip install beautifulsoup4

步驟二：導入必要的庫

python復制代碼import requests
from bs4 import BeautifulSoup

步驟三：發送 HTTP 請求

使用 requests 庫發送 HTTP 請求獲取網頁內容。

python復制代碼url='你的目標網址'
response=requests.get(url)

步驟四：解析網頁內容

利用 BeautifulSoup 解析 HTML 內容。

python復制代碼soup=BeautifulSoup(response.text, 'html.parser')

步驟五：提取信息

通過分析網頁結構，使用 soup 對象提取你需要的信息。

python復制代碼# 舉例：提取所有標題
titles=soup.find_all('h2')

for title in titles:
    print(title.text)

步驟六：存儲數據

將提取到的信息存儲到文件或數據庫中。

python復制代碼# 舉例：將標題寫入文件
with open('titles.txt', 'w', encoding='utf-8') as file:
    for title in titles:
        file.write(title.text + '\n')

以上是一個簡單的爬蟲教程，使用 Python 和相關庫能夠快速實現網頁內容的獲取和信息提取。請注意，爬取網站信息時要遵守相關法律和規定，以及尊重網站的使用政策。

在線咨詢

上一篇：ai為我寫了一段讓流星劃破天際的浪漫代碼
下一篇：現代CSS：純 CSS 實現路徑動畫

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

3分鐘，10行代碼教你寫Python爬蟲

第一步：導入模塊

第二步：爬蟲的網址

第三步：爬蟲偽裝

第四步：爬取數據

驟一：準備工作

步驟二：導入必要的庫

步驟三：發送 HTTP 請求

步驟四：解析網頁內容

步驟五：提取信息

步驟六：存儲數據

您的項目需求