用python5分鐘搞定精美的PDF文檔

紹

Pandas非常善于處理大量數據并在多個文本和可視化表示中對其進行匯總。支持輸出到CSV，Excel，HTML，json等。如果想將多個數據組合到一個文檔中，那么會有點困難。例如，如果要在一個Excel工作表上放置兩個DataFrame，則需要使用Excel庫手動構建輸出。

5分鐘教您用python生成精美的PDF文檔

本文將介紹如何將多條信息組合成一個HTML模板，然后使用和將其轉換為精美的PDF文檔。

下面看看生成的PDF效果吧:

5分鐘教您用python生成精美的PDF文檔效果

過程

使用Pandas將數據輸出到Excel文件中的多個工作表或從pandas DataFrames創建多個Excel文件非常方便。但是，如果您想將多個信息組合到一個文件中，那么直接從Pandas完成它的方法并不多。幸運的是，python有很多工具可以辦到。

在本文中，將使用通過以下流程來創建多頁PDF 文檔。

將使用通過以下流程來創建多頁PDF 文檔

這種方法的好處在于您可以將自己的工具替換為此工作流程。如果您想在HTML之外使用其他類型的標記，請選擇Jinja。

工具

首先，使用HTML作為模板語言，因為它可能是生成結構化數據并允許相對豐富的格式化的最簡單方法。每個人都知道（或可以弄清楚）足夠的HTML來生成一個簡單的報告。最困難的部分是弄清楚如何將HTML呈現為PDF。選擇了WeasyPrint，相對而言是最佳解決方案，因為它仍在積極維護，可以相對容易地使用它。另外效果也很好。遺憾的是，此時文檔有點缺乏，確實可以從HTML生成PDF。

數據

下面是導入數據并生成數據透視表以及CPU和軟件銷售的平均數量和價格的一些匯總統計數據。

導入模塊，并讀入銷售渠道信息。

from __future__ import print_function
import pandas as pd
import numpy as np
df=pd.read_excel("sales-funnel.xlsx")
df.head()

透視數據進行總結。

sales_report=pd.pivot_table(df, index=["Manager", "Rep", "Product"], values=["Price", "Quantity"],
 aggfunc=[np.sum, np.mean], fill_value=0)
sales_report.head()

生成有關整個數據集的一些總體描述性統計信息。在這種情況下，我們希望顯示CPU和軟件銷售的平均數量和價格。

print(df[df["Product"]=="CPU"]["Quantity"].mean())
print(df[df["Product"]=="CPU"]["Price"].mean())
print(df[df["Product"]=="Software"]["Quantity"].mean())
print(df[df["Product"]=="Software"]["Price"].mean())
1.88888888889
51666.6666667
1.0
10000.0

理想情況下，現在要做的是通過經理分組匯總數據，并在頁面上包含一些摘要統計數據，以幫助理解單個結果與全國平均值的比較。

DataFrame選項

幸運的是，DataFrame有一個 to_clipboard() 將整個DataFrame復制到剪貼板的功能，然后您可以輕松地將其粘貼到Excel中。

稍后將在模板中使用的另一個選項是 to_html() 生成包含一個應用了最小樣式的完全組合的HTML表。

模板

Jinja模板功能非常強大，支持許多高級功能，例如沙盒執行和自動轉義，這些都不是此應用程序所必需的。但是，隨著您的報告變得越來越復雜或您選擇將Jinja用于您的網絡應用，這些功能將為您提供良好的服務。

Jinja的另一個不錯的功能是它包含多個，這些允許我們以Pandas中難以做到的方式格式化我們的一些數據。

為了在應用程序中使用Jinja，需要做三件事：

· 創建一個模板

· 將變量添加到模板上下文中

· 將模板渲染為HTML

這是一個非常簡單的模板，稱之為myreport.html ：

<！DOCTYPE html> 
< html > 
< head lang="en" > 
 < meta charset="UTF-8" > 
 < title > {{title}} </ title > 
</ head > 
< body > 
 < h2 >銷售漏斗報告 - 國家</ h2 >
 {{national_pivot_table}}
</ body > 
</ html >

這段代碼的兩個關鍵部分是 {{ title }} 和 {{ national_pivot_table }} 。它們本質上是我們在呈現文檔時將提供的變量的占位符。

要填充這些變量，需要創建一個Jinja環境并讀取模板：

from jinja2 import Environment, FileSystemLoader
env=Environment(loader=FileSystemLoader('.'))
template=env.get_template("myreport.html")

在上面的示例中,假設模板位于當前目錄中。

另一個關鍵組件是創建 env 。這個變量是我們將內容傳遞給模板的方式。我們創建一個名為的字典template_var ，其中包含我們想要傳遞給模板的所有變量。

請注意變量的名稱如何與模板匹配。

template_vars={"title" : "Sales Funnel Report - National",
 "national_pivot_table": sales_report.to_html()}

最后一步是使用輸出中包含的變量呈現HTML。這將創建一個我們最終將傳遞給PDF創建引擎的字符串。

html_out=template.render(template_vars)

為簡潔起見，我不會顯示完整的HTML，但您應該明白這一點。

生成PDF

該PDF創建部分比較簡單為好。我們需要進行一些導入并將字符串傳遞給PDF 生成器。

from weasyprint import HTML
HTML(string=html_out).write_pdf("report.pdf")

此命令創建一個類似于以下內容的PDF報告：

啊。很酷，它是一個PDF，但它很難看。主要問題是沒有加入任何css樣式。

對于本文的其余部分，將使用blue print的作為的style.css的基礎，如下所示。這個CSS的是：

· 它相對較小且易于理解

· 它可以在PDF引擎中運行而不會拋出錯誤和警告

· 它包括看起來相當不錯的基本表格式

讓我們嘗試使用我們更新的樣式表重新渲染它：

HTML(string=html_out).write_pdf(args.outfile.name, stylesheets=["style.css"])

只需添加一個簡單的樣式表就會產生巨大的差異！

更復雜的模板

為了生成更有用的報告，將結合上面顯示的摘要統計信息以及分析報告，以便為每個經理包含一個自己單獨的PDF頁面。

讓我們從更新的模板（myreport.html）開始：

<！DOCTYPE html> 
< html > 
< head lang="en" > 
 < meta charset="UTF-8" > 
 < title > {{title}} </ title > 
</ head > 
< body > 
< div class="容器" > 
 < h2 >銷售漏斗報告 - 國家</ h2 >
 {{national_pivot_table}}
 {％include"summary.html"％}
</ div > 
< div class="container" >
 {％為經理在Manager_Detail％}
 < p style="page-break-before：always" > </ p > 
 < h2 >銷售渠道報告 - {{manager.0}} </ h2 >
 {{manager.1}}
 {％include"summary.html"％}
 {％endfor％}
</ div > 
</ body > 
</ html >

你會注意到的第一件事是有一個 include 聲明提到了另一個文件。這 include 允許引入一段HTML并在代碼的不同部分中重復使用它。在這種情況下，摘要包含希望包含在每個報告中的一些簡單的國家級統計數據，以便管理人員可以將其績效與全國平均水平進行比較。

這是summary.html的樣子：

< h3 >國家概要：CPU </ h3 > 
 < ul > 
 < li >平均數量：{{CPU.0 | round（1）}} </ li > 
 < li >平均價格：{{CPU.1 | round（ 1）}} </ li > 
 </ ul > 
< h3 >國家摘要：軟件</ h3 > 
 < ul > 
 < li >平均數量：{{Software.0 | round（1）}} </ li > 
 < li >平均價格：{{Software.1 | round（1）}} </ li > 
 </ ul >

在此代碼段中，您將看到我們可以訪問的其他變量： CPU 和 Software 。其中每個都是一個python列表，其中包括CPU和軟件銷售的平均數量和價格。

您可能還注意到我們使用管道 | 將 round 每個值用于1位小數。這是使用Jinja過濾器的一個具體示例。

還有一個for循環，允許我們在報告中顯示每個經理的詳細信息。Jinja的模板語言只包含一小部分改變控制流的代碼。基本for循環幾乎是任何模板的支柱，因此它們應該對大多數人有意義。

我想調出一段看起來有點不合適的最后一段代碼：

< p style="page-break-before：always" > </ p >

這是一個簡單的CSS指令，我把它放在每個頁面上以確保CSS中斷。

額外的統計數據

現在已經完成了模板，這里是如何創建模板中使用的其他上下文變量。

這是一個簡單的匯總函數：

def get_summary_stats(df,product):
 """
 For certain products we want National Summary level information on the reports
 Return a list of the average quantity and price
 """
 results=[]
 results.append(df[df["Product"]==product]["Quantity"].mean())
 results.append(df[df["Product"]==product]["Price"].mean())
 return results

還需要創建經理詳細信息：

manager_df=[]
for manager in sales_report.index.get_level_values(0).unique():
 manager_df.append([manager, sales_report.xs(manager, level=0).to_html()])

最后，使用以下變量調用模板：

template_vars={"title" : "National Sales Funnel Report",
 "CPU" : get_summary_stats(df, "CPU"),
 "Software": get_summary_stats(df, "Software"),
 "national_pivot_table": sales_report.to_html(),
 "Manager_Detail": manager_df}
# Render our file and create the PDF using our css style file
html_out=template.render(template_vars)
HTML(string=html_out).write_pdf("report.pdf",stylesheets=["style.css"])

讓python改變生活!如果滿意上面的生成PDF講解，點贊和評論。

獲取文中代碼請微信關注 "python_dada"公眾號，輸入“精美PDF”獲取。

文概要

Part one: 可視化庫cutecharts基本使用介紹

Part two: 爬取中國電競價值排行榜-外設排行榜，利用cutecharts數據可視化分析

Part three: 總結抒情

Part one : 可視化庫cutecharts基本使用介紹

1.cutecharts 安裝

最簡單的肯定是 pip? ?安裝：

$ pip3 install cutecharts

當然，也可以進行源碼安裝：

$ git clone https://github.com/chenjiandongx/cutecharts.git
$ cd cutecharts
$ pip3 install -r requirements.txt
$ python3 setup.py install

如果是渲染成html文件，你還需要安裝的第三方輔助庫? ?jinja2? ?，是基于Python的模板引擎，主要用于渲染可視化后的內容，最終形成可運行的html文件，當然，如果你不感興趣，你不用過多了解，在安裝cutecharts時會自動幫你安裝上，但你得知道它是unicode編碼，稍不注意，可能模板生成錯誤。

解決方法其實很簡單，我們把渲染頁面里的js腳本單獨拿出來，放到js文件內，然后再在html頁面內加載靜態的js文件即可，說白了，就是不要讓jinja2直接去渲染‘有問題’的js內容。

如果你嫌這個麻煩，還有一位朋友使用靜態加載方法解決了該問題。

<script type="text/javascript" src="{{url_for('static',filename='js/echarts-gl.min.js')}}"></script>

當然，沒有遇到問題最好～我是直接用的jupyter notebook，所以沒有這個問題。

關于jupyter notebook安裝使用，你可以看我之前分享的文章：Windows/Mac 安裝、使用 Python 環境 +jupyter notebook

2.基本使用

目前cutecharts支持的可視化圖像類型有：柱狀圖、折線圖、餅狀圖、雷達圖、散點圖。我想后續作者還會增加的，比如：詞云圖、3D柱狀圖、條形圖等等。另外，項目里已經給我們提供了測試用例，所以我們學習的時候就不用再去自己寫測試用例了，直接調用即可。

First : 柱狀圖

# 導入cutecharts中的Bar
from cutecharts.charts import Bar
# 導入測試用例
from cutecharts.faker import Faker


def bar_base() -> Bar:
    chart=Bar("Bar-基本示例")
    chart.set_options(labels=Faker.choose(), x_label="I'm xlabel", y_label="I'm ylabel")
    chart.add_series("series-A", Faker.values())
    return chart


bar_base().render_notebook()

渲染引擎提供了兩個

.render(html_name) ：生成一個本地文件，html_name為文件名（html文件）,
默認名為：render.html
.render_notebook() ：可以在jupyter中直接運行顯示，如上文代碼
本文案例代碼都是在Jupyter Notebook上編寫運行

顯示情況：