文:迷神
在各種網站項目開發過程都需要生成PDF文件,用于生成顯示pdf。其實,生成pdf文件很多種,一種簡單的方法就是安裝wkhtmltopdf,然后curl訪問網頁生成pdf文件。
下去github上下載下:
https://github.com/wkhtmltopdf/wkhtmltopdf/
下載github的問題件
wget https://github.com/wkhtmltopdf/wkhtmltopdf/releases/download/0.12.4/wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
解壓文件,
tar xvfJ wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
cd wkhtmltox/bin
復制到bin目錄下,并設置可執行啊。
sudo mv ./wkhtmltopdf /usr/local/bin/wkhtmltopdf
sudo chmod +x /usr/local/bin/wkhtmltopdf
如果部分電腦沒有安裝依賴庫還是需要安裝,可以先執行試試。安裝插件:
yum install libXrender libXext fontconfig
執行生成pdf文件:
wkhtmltopdf http://www。。baidu。。com ./baidu.pdf
網頁生成了pdf文件
解決辦法如下:
我這里的服務器centos,找windows里的宋體 simsun.ttf,上傳到服務器/usr/share/fonts/里
/usr/share/fonts/simsun.ttf
測試解決!
解決亂碼
好了,使用wkhtmltopdf生成pdf就這樣了,剩下,使用你們的編程語言調用wkhtmltopdf訪問網頁,保存成pdf文件即可。比如php只要執行下system("wkhtmltopdf http://網頁 ./網頁文件.pdf")
.為什么選擇使用PHP進行公眾號文章采集?
在進行公眾號文章采集時,選擇使用PHP是因為它是一種強大而靈活的編程語言,具有豐富的網絡處理能力和簡單易用的HTML解析庫。PHP可以輕松地發送HTTP請求,獲取網頁內容,并通過解析HTML文檔來提取所需的信息,非常適合用于爬取公眾號文章。
2.如何使用PHP采集公眾號文章?
首先,我們需要通過獲取公眾號的URL或者微信公眾平臺提供的API來獲取文章列表。然后,我們可以使用PHP的curl庫發送HTTP請求,獲取到文章列表頁面的HTML內容。接下來,我們可以利用正則表達式或者PHP內置的DOMDocument類對HTML進行解析,提取出文章標題、摘要、發布時間等關鍵信息。
3.如何處理反爬機制?
在進行公眾號文章采集時,我們可能會遇到一些反爬機制,如IP限制、驗證碼等。針對這些問題,我們可以使用代理IP池來解決IP限制問題,并且可以使用第三方工具或者自動識別驗證碼接口來處理驗證碼。另外,在進行爬取時要注意合理設置請求間隔時間,以避免被封IP。
4.如何保存采集到的公眾號文章?
采集到公眾號文章后,我們可以選擇將其保存到數據庫中,或者將其以某種格式(如JSON、XML)保存到本地文件中。在保存時,我們可以根據需要對文章進行去重、分類等處理,以便后續的分析和使用。
5.如何處理公眾號文章的版權問題?
在進行公眾號文章采集時,我們要注意尊重原作者的版權。一般來說,我們可以在采集過程中保留原文鏈接和作者信息,并在文章展示時注明文章來源。如果有必要,我們還可以與原作者進行溝通,獲得授權或者達成其他形式的合作。
6.如何處理公眾號文章的更新問題?
公眾號文章是動態更新的,為了保持采集數據的實時性,我們可以使用定時任務來定期執行采集腳本,以獲取最新的文章列表。另外,在每次采集時要注意增量更新,只采集新增的文章,避免重復采集已有的文章。
7.如何處理公眾號文章內容中的HTML標簽和樣式?
在獲取到公眾號文章內容后,我們可能會遇到一些HTML標簽和樣式。為了使內容更加整潔美觀,在展示文章時,我們可以使用PHP的字符串處理函數或者正則表達式來去除HTML標簽,并對樣式進行適當的處理。
8.如何處理公眾號文章中的圖片和視頻?
在公眾號文章中,可能會包含圖片和視頻等多媒體內容。在采集時,我們可以通過解析HTML文檔提取出這些多媒體資源的URL,并下載保存到本地。在展示文章時,我們可以將圖片和視頻插入到文章內容中,以豐富閱讀體驗。
9.如何處理公眾號文章中的鏈接?
公眾號文章中常常包含一些鏈接,如其他文章鏈接、外部鏈接等。在采集時,我們可以提取這些鏈接,并根據需要進行進一步處理。例如,可以將這些鏈接保存到數據庫中,方便后續的跳轉和導航。
10.如何優化公眾號文章采集效率?
為了提高公眾號文章采集效率,我們可以采取以下措施:合理設置請求間隔時間,避免頻繁請求被封IP;使用多線程或者協程技術并發執行采集任務;使用緩存技術緩存已經采集過的數據,減少重復采集。同時,我們還可以對采集腳本進行優化,如使用更高效的HTML解析庫、減少不必要的數據處理等。
HP的錯誤機制也是非常復雜的,做了幾年php,也沒有仔細總結過,現在就補上這一課。
特別說明:文章的PHP版本使用5.5.32
PHP的錯誤級別
首先需要了解php有哪些錯誤。截至到php5.5,一共有16個錯誤級別
注意:嘗試下面的代碼的時候請確保打開error_log:
error_reporting(E_ALL);
ini_set('display_errors', 'On');
E_ERROR
這種錯誤是致命錯誤,會在頁面顯示Fatal Error, 當出現這種錯誤的時候,程序就無法繼續執行下去了
錯誤示例:
// Fatal error: Call to undefined function hpinfo() in /tmp/php/index.php on line 5
hpinfo(); //E_ERROR
注意,如果有未被捕獲的異常,也是會觸發這個級別的。
// Fatal error: Uncaught exception 'Exception' with message 'test exception' in /tmp/php/index.php:5 Stack trace: #0 {main} thrown in /tmp/php/index.php on line 5
throw new \Exception("test exception");
E_WARNING
這種錯誤只是警告,不會終止腳本,程序還會繼續進行,顯示的錯誤信息是Warning。比如include一個不存在的文件。
//Warning: include(a.php): failed to open stream: No such file or directory in /tmp/php/index.php on line 7
//Warning: include(): Failed opening 'a.php' for inclusion (include_path='.:/usr/share/pear:/usr/share/php') in /tmp/php/index.php on line 7
include("a.php"); //E_WARNING
E_NOTICE
這種錯誤程度更為輕微一些,提示你這個地方不應該這么寫。這個也是運行時錯誤,這個錯誤的代碼可能在其他地方沒有問題,只是在當前上下文情況下出現了問題。
比如$b變量不存在,我們把它賦值給另外一個變量
//Notice: Undefined variable: b in /tmp/php/index.php on line 9
$a=$b; //E_NOTICE
E_PARSE
這個錯誤是編譯時候發生的,在編譯期發現語法錯誤,不能進行語法分析。
比如下面的z沒有設置為變量。
// Parse error: syntax error, unexpected '=' in /tmp/php/index.php on line 20
z=1; // E_PARSE
E_STRICT
這個錯誤是PHP5之后引入的,你的代碼可以運行,但是不是PHP建議的寫法。
比如在函數形參傳遞++符號
// Strict Standards: Only variables should be passed by reference in /tmp/php/index.php on line 17
function change (&$var) {
$var +=10;
}
$var=1;
change(++$var);
// E_STRICT
E_RECOVERABLE_ERROR
這個級別其實是ERROR級別的,但是它是期望被捕獲的,如果沒有被錯誤處理捕獲,表現和E_ERROR是一樣的。
經常出現在形參定義了類型,但調用的時候傳入了錯誤類型。它的錯誤提醒也比E_ERROR的fatal error前面多了一個Catachable的字樣。
//Catchable fatal error: Argument 1 passed to testCall() must be an instance of A, instance of B given, called in /tmp/php/index.php on line 37 and defined in /tmp/php/index.php on line 33
class A {
}
class B {
}
function testCall(A $a) {
}
$b=new B();
testCall($b);
E_DEPRECATED
這個錯誤表示你用了一個舊版本的函數,而這個函數后期版本可能被禁用或者不維護了。
比如curl的CURLOPT_POSTFIELDS使用\@FILENAME來上傳文件的方法
// Deprecated: curl_setopt(): The usage of the @filename API for file uploading is deprecated. Please use the CURLFile class instead in /tmp/php/index.php on line 42
$ch=curl_init("http://www.remotesite.com/upload.php");
curl_setopt($ch, CURLOPT_POSTFIELDS, array('fileupload'=> '@'. "test"));
E_CORE_ERROR, E_CORE_WARNING
這兩個錯誤是由PHP的引擎產生的,在PHP初始化過程中發生。
E_COMPILE_ERROR, E_COMPILE_WARNING
這兩個錯誤是由PHP引擎產生的,在編譯過程中發生。
E_USER_ERROR, E_USER_WARNING, E_USER_NOTICE, E_USER_DEPRECATED,
這些錯誤都是用戶制造的,使用trigger_error,這里就相當于一個口子給用戶觸發出各種錯誤類型。這個是一個很好逃避try catch異常的方式。
trigger_error("Cannot divide by zero", E_USER_ERROR);
// E_USER_ERROR
// E_USER_WARING
// E_USER_NOTICE
// E_USER_DEPRECATED
E_ALL
E_STRICT出外的所有錯誤和警告信息。
錯誤控制
php中有很多配置和參數是可以控制錯誤,以及錯誤的日志顯示的。第一步,我們需要了解的是php中的有關錯誤的配置有哪些?
我們按照php+php-fpm的模型來說,會影響php錯誤顯示的其實是有兩個配置文件,一個是php本身的配置文件php.ini,另外一個是php-fpm的配置文件,php-fpm.conf。
error_reporting=E_ALL // 報告錯誤級別,什么級別的
error_log=/tmp/php_errors.log // php中的錯誤顯示的日志位置
display_errors=On // 是否把錯誤展示在輸出上,這個輸出可能是頁面,也可能是stdout
display_startup_errors=On // 是否把啟動過程的錯誤信息顯示在頁面上,記得上面說的有幾個Core類型的錯誤是啟動時候發生的,這個就是控制這些錯誤是否顯示頁面的。
log_errors=On // 是否要記錄錯誤日志
log_errors_max_len=1024 // 錯誤日志的最大長度
ignore_repeated_errors=Off // 是否忽略重復的錯誤
track_errors=Off // 是否使用全局變量$php_errormsg來記錄最后一個錯誤
xmlrpc_errors=0 //是否使用XML-RPC的錯誤信息格式記錄錯誤
xmlrpc_error_number=0 // 用作 XML-RPC faultCode 元素的值。
html_errors=On // 是否把輸出中的函數等信息變為HTML鏈接
docref_root=http://manual/en/ // 如果html_errors開啟了,這個鏈接的根路徑是什么
fastcgi.logging=0 // 是否把php錯誤拋出到fastcgi中
我們經常會被問到,error_reporting和display_errors有什么區別呢?這兩個函數是完全不一樣的。
PHP默認是會在日志和標準輸出(如果是fpm模式標準輸出就是頁面)
error_reporting的參數是錯誤級別。表示什么樣子的級別才應該觸發錯誤。如果我們告訴PHP,所有錯誤級別都不需要觸發錯誤,那么,不管是日志,還是頁面,都不會顯示這個錯誤,就相當于什么都沒有發生。
display_errors是控制是否要在標準輸出展示錯誤信息
log_errors則是控制是否要在日志中記錄錯誤信息。
error_log是顯示錯誤日志的位置,這個在php-fpm中往往會被重寫,于是往往會發現的是cli和fpm的錯誤日志竟然不是在同一個文件中。
ignore_repeated_errors這個標記控制的是如果有重復的日志,那么就只會記錄一條,比如下面的程序:
error_reporting(E_ALL);
ini_set('ignore_repeated_errors', 1);
ini_set('ignore_repeated_source', 1);
$a=$c; $a=$c; //E_NOTICE
//Notice: Undefined variable: c in /tmp/php/index.php on line 20
本來會出現兩次NOTICE的,但是現在,只會出現一次了…
track_errors開啟會把最后一個錯誤信息存儲到變量里面去,這個可能在對記日志的時候會有一些用處吧。不過我覺得真是沒啥用…
html_errors 和 docref_root 兩個是個挺有人性化的配置,配置了這兩個參數以后,我們返回的錯誤信息中如果有一些在文檔中有的信息,就會變成鏈接形式。
error_reporting(E_ALL);
ini_set('html_errors', 1);
ini_set('docref_root', "https://secure.php.net/manual/zh/");
include("a2.php"); //E_WARNING
能讓你快速定位到我們出現錯誤的地方。是不是很人性~
error_log=/var/log/php-fpm/error.log // php-fpm自身的日志
log_level=notice // php-fpm自身的日志記錄級別
php_flag[display_errors]=off // 覆蓋php.ini中的某個配置變量,可被程序中的ini_set覆蓋
php_value[display_errors]=off // 同php_flag
php_admin_value[error_log]=/tmp/www-error.log // 覆蓋php.ini中的某個配置變量,不可被程序中的ini_set覆蓋
php_admin_flag[log_errors]=on // 同php_admin_value
catch_workers_output=yes // 是否抓取fpmworker的輸出
request_slowlog_timeout=0 // 慢日志時長
slowlog=/var/log/php-fpm/www-slow.log // 慢日志記錄
php-fpm的配置中也有一個error_log配置,這個很經常會和php.ini中的error_log配置弄混。但他們記錄的東西是不一樣的,php-fpm的error_log只記錄php-fpm本身的日志,比如fpm啟動,關閉。
而php.ini中的error_log是記錄php程序本身的錯誤日志。
那么在php-fpm中要覆蓋php.ini中的error_log配置,就需要使用到下面幾個函數:
php_flag
php_value
php_admin_flag
php_admin_value
這四個函數admin的兩個函數說明這個變量設置完之后,不能在代碼中使用ini_set把這個變量重新賦值了。而php_flag/value就仍然以php代碼中的ini_set為準。
slowlog是fpm記錄的,可以使用request_slowlog_timeout設置判斷慢日志的時長。
總結
我們經常弄混的就是日志問題,以及某些級別的日志為何沒有記錄到日志中。最主要的是要看error_log,display_errors, log_errors這三個配置,只是在看配置的時候,我們還要注意區分php.ini里面的配置是什么,php-fpm.ini里面的配置是什么。
好吧,我覺得弄懂這些配置,基本就沒有php日志記錄不了的WTF的問題了。
想要學習PHP的朋友可以私信帳號“學習交流”獲取加群方式,加群后領取學習資料。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。