整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          Centos安裝wkhtmltopdf,curl訪問

          Centos安裝wkhtmltopdf,curl訪問網頁生成pdf文件

          文:迷神

          在各種網站項目開發過程都需要生成PDF文件,用于生成顯示pdf。其實,生成pdf文件很多種,一種簡單的方法就是安裝wkhtmltopdf,然后curl訪問網頁生成pdf文件。

          安裝wkhtmltopdf

          下去github上下載下:

          https://github.com/wkhtmltopdf/wkhtmltopdf/

          下載github的問題件
          wget https://github.com/wkhtmltopdf/wkhtmltopdf/releases/download/0.12.4/wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
          解壓文件,
          tar xvfJ wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
          cd wkhtmltox/bin
          復制到bin目錄下,并設置可執行啊。
          sudo mv ./wkhtmltopdf /usr/local/bin/wkhtmltopdf
          sudo chmod +x /usr/local/bin/wkhtmltopdf

          如果部分電腦沒有安裝依賴庫還是需要安裝,可以先執行試試。安裝插件:

          yum install libXrender libXext fontconfig


          執行生成pdf文件:

          wkhtmltopdf http://www。。baidu。。com ./baidu.pdf

          網頁生成了pdf文件

          解決中文亂碼的問題

          解決辦法如下:

          我這里的服務器centos,找windows里的宋體 simsun.ttf,上傳到服務器/usr/share/fonts/里

          /usr/share/fonts/simsun.ttf

          測試解決!

          解決亂碼

          好了,使用wkhtmltopdf生成pdf就這樣了,剩下,使用你們的編程語言調用wkhtmltopdf訪問網頁,保存成pdf文件即可。比如php只要執行下system("wkhtmltopdf http://網頁 ./網頁文件.pdf")

          .為什么選擇使用PHP進行公眾號文章采集?

          在進行公眾號文章采集時,選擇使用PHP是因為它是一種強大而靈活的編程語言,具有豐富的網絡處理能力和簡單易用的HTML解析庫。PHP可以輕松地發送HTTP請求,獲取網頁內容,并通過解析HTML文檔來提取所需的信息,非常適合用于爬取公眾號文章。

          2.如何使用PHP采集公眾號文章?

          首先,我們需要通過獲取公眾號的URL或者微信公眾平臺提供的API來獲取文章列表。然后,我們可以使用PHP的curl庫發送HTTP請求,獲取到文章列表頁面的HTML內容。接下來,我們可以利用正則表達式或者PHP內置的DOMDocument類對HTML進行解析,提取出文章標題、摘要、發布時間等關鍵信息。

          3.如何處理反爬機制?

          在進行公眾號文章采集時,我們可能會遇到一些反爬機制,如IP限制、驗證碼等。針對這些問題,我們可以使用代理IP池來解決IP限制問題,并且可以使用第三方工具或者自動識別驗證碼接口來處理驗證碼。另外,在進行爬取時要注意合理設置請求間隔時間,以避免被封IP。

          4.如何保存采集到的公眾號文章?

          采集到公眾號文章后,我們可以選擇將其保存到數據庫中,或者將其以某種格式(如JSON、XML)保存到本地文件中。在保存時,我們可以根據需要對文章進行去重、分類等處理,以便后續的分析和使用。

          5.如何處理公眾號文章的版權問題?

          在進行公眾號文章采集時,我們要注意尊重原作者的版權。一般來說,我們可以在采集過程中保留原文鏈接和作者信息,并在文章展示時注明文章來源。如果有必要,我們還可以與原作者進行溝通,獲得授權或者達成其他形式的合作。

          6.如何處理公眾號文章的更新問題?

          公眾號文章是動態更新的,為了保持采集數據的實時性,我們可以使用定時任務來定期執行采集腳本,以獲取最新的文章列表。另外,在每次采集時要注意增量更新,只采集新增的文章,避免重復采集已有的文章。

          7.如何處理公眾號文章內容中的HTML標簽和樣式?

          在獲取到公眾號文章內容后,我們可能會遇到一些HTML標簽和樣式。為了使內容更加整潔美觀,在展示文章時,我們可以使用PHP的字符串處理函數或者正則表達式來去除HTML標簽,并對樣式進行適當的處理。

          8.如何處理公眾號文章中的圖片和視頻?

          在公眾號文章中,可能會包含圖片和視頻等多媒體內容。在采集時,我們可以通過解析HTML文檔提取出這些多媒體資源的URL,并下載保存到本地。在展示文章時,我們可以將圖片和視頻插入到文章內容中,以豐富閱讀體驗。

          9.如何處理公眾號文章中的鏈接?

          公眾號文章中常常包含一些鏈接,如其他文章鏈接、外部鏈接等。在采集時,我們可以提取這些鏈接,并根據需要進行進一步處理。例如,可以將這些鏈接保存到數據庫中,方便后續的跳轉和導航。

          10.如何優化公眾號文章采集效率?

          為了提高公眾號文章采集效率,我們可以采取以下措施:合理設置請求間隔時間,避免頻繁請求被封IP;使用多線程或者協程技術并發執行采集任務;使用緩存技術緩存已經采集過的數據,減少重復采集。同時,我們還可以對采集腳本進行優化,如使用更高效的HTML解析庫、減少不必要的數據處理等。

          HP的錯誤機制也是非常復雜的,做了幾年php,也沒有仔細總結過,現在就補上這一課。

          特別說明:文章的PHP版本使用5.5.32

          PHP的錯誤級別

          首先需要了解php有哪些錯誤。截至到php5.5,一共有16個錯誤級別

          注意:嘗試下面的代碼的時候請確保打開error_log:

          error_reporting(E_ALL);

          ini_set('display_errors', 'On');

          E_ERROR

          這種錯誤是致命錯誤,會在頁面顯示Fatal Error, 當出現這種錯誤的時候,程序就無法繼續執行下去了

          錯誤示例:

          // Fatal error: Call to undefined function hpinfo() in /tmp/php/index.php on line 5

          hpinfo(); //E_ERROR

          注意,如果有未被捕獲的異常,也是會觸發這個級別的。

          // Fatal error: Uncaught exception 'Exception' with message 'test exception' in /tmp/php/index.php:5 Stack trace: #0 {main} thrown in /tmp/php/index.php on line 5

          throw new \Exception("test exception");

          E_WARNING

          這種錯誤只是警告,不會終止腳本,程序還會繼續進行,顯示的錯誤信息是Warning。比如include一個不存在的文件。

          //Warning: include(a.php): failed to open stream: No such file or directory in /tmp/php/index.php on line 7

          //Warning: include(): Failed opening 'a.php' for inclusion (include_path='.:/usr/share/pear:/usr/share/php') in /tmp/php/index.php on line 7

          include("a.php"); //E_WARNING

          E_NOTICE

          這種錯誤程度更為輕微一些,提示你這個地方不應該這么寫。這個也是運行時錯誤,這個錯誤的代碼可能在其他地方沒有問題,只是在當前上下文情況下出現了問題。

          比如$b變量不存在,我們把它賦值給另外一個變量

          //Notice: Undefined variable: b in /tmp/php/index.php on line 9

          $a=$b; //E_NOTICE

          E_PARSE

          這個錯誤是編譯時候發生的,在編譯期發現語法錯誤,不能進行語法分析。

          比如下面的z沒有設置為變量。

          // Parse error: syntax error, unexpected '=' in /tmp/php/index.php on line 20

          z=1; // E_PARSE

          E_STRICT

          這個錯誤是PHP5之后引入的,你的代碼可以運行,但是不是PHP建議的寫法。

          比如在函數形參傳遞++符號

          // Strict Standards: Only variables should be passed by reference in /tmp/php/index.php on line 17

          function change (&$var) {

          $var +=10;

          }

          $var=1;

          change(++$var);

          // E_STRICT

          E_RECOVERABLE_ERROR

          這個級別其實是ERROR級別的,但是它是期望被捕獲的,如果沒有被錯誤處理捕獲,表現和E_ERROR是一樣的。

          經常出現在形參定義了類型,但調用的時候傳入了錯誤類型。它的錯誤提醒也比E_ERROR的fatal error前面多了一個Catachable的字樣。

          //Catchable fatal error: Argument 1 passed to testCall() must be an instance of A, instance of B given, called in /tmp/php/index.php on line 37 and defined in /tmp/php/index.php on line 33

          class A {

          }

          class B {

          }

          function testCall(A $a) {

          }

          $b=new B();

          testCall($b);

          E_DEPRECATED

          這個錯誤表示你用了一個舊版本的函數,而這個函數后期版本可能被禁用或者不維護了。

          比如curl的CURLOPT_POSTFIELDS使用\@FILENAME來上傳文件的方法

          // Deprecated: curl_setopt(): The usage of the @filename API for file uploading is deprecated. Please use the CURLFile class instead in /tmp/php/index.php on line 42

          $ch=curl_init("http://www.remotesite.com/upload.php");

          curl_setopt($ch, CURLOPT_POSTFIELDS, array('fileupload'=> '@'. "test"));

          E_CORE_ERROR, E_CORE_WARNING

          這兩個錯誤是由PHP的引擎產生的,在PHP初始化過程中發生。

          E_COMPILE_ERROR, E_COMPILE_WARNING

          這兩個錯誤是由PHP引擎產生的,在編譯過程中發生。

          E_USER_ERROR, E_USER_WARNING, E_USER_NOTICE, E_USER_DEPRECATED,

          這些錯誤都是用戶制造的,使用trigger_error,這里就相當于一個口子給用戶觸發出各種錯誤類型。這個是一個很好逃避try catch異常的方式。

          trigger_error("Cannot divide by zero", E_USER_ERROR);

          // E_USER_ERROR

          // E_USER_WARING

          // E_USER_NOTICE

          // E_USER_DEPRECATED

          E_ALL

          E_STRICT出外的所有錯誤和警告信息。

          錯誤控制

          php中有很多配置和參數是可以控制錯誤,以及錯誤的日志顯示的。第一步,我們需要了解的是php中的有關錯誤的配置有哪些?

          我們按照php+php-fpm的模型來說,會影響php錯誤顯示的其實是有兩個配置文件,一個是php本身的配置文件php.ini,另外一個是php-fpm的配置文件,php-fpm.conf。

          php.ini中的配置

          error_reporting=E_ALL // 報告錯誤級別,什么級別的

          error_log=/tmp/php_errors.log // php中的錯誤顯示的日志位置

          display_errors=On // 是否把錯誤展示在輸出上,這個輸出可能是頁面,也可能是stdout

          display_startup_errors=On // 是否把啟動過程的錯誤信息顯示在頁面上,記得上面說的有幾個Core類型的錯誤是啟動時候發生的,這個就是控制這些錯誤是否顯示頁面的。

          log_errors=On // 是否要記錄錯誤日志

          log_errors_max_len=1024 // 錯誤日志的最大長度

          ignore_repeated_errors=Off // 是否忽略重復的錯誤

          track_errors=Off // 是否使用全局變量$php_errormsg來記錄最后一個錯誤

          xmlrpc_errors=0 //是否使用XML-RPC的錯誤信息格式記錄錯誤

          xmlrpc_error_number=0 // 用作 XML-RPC faultCode 元素的值。

          html_errors=On // 是否把輸出中的函數等信息變為HTML鏈接

          docref_root=http://manual/en/ // 如果html_errors開啟了,這個鏈接的根路徑是什么

          fastcgi.logging=0 // 是否把php錯誤拋出到fastcgi中

          我們經常會被問到,error_reporting和display_errors有什么區別呢?這兩個函數是完全不一樣的。

          PHP默認是會在日志和標準輸出(如果是fpm模式標準輸出就是頁面)

          error_reporting的參數是錯誤級別。表示什么樣子的級別才應該觸發錯誤。如果我們告訴PHP,所有錯誤級別都不需要觸發錯誤,那么,不管是日志,還是頁面,都不會顯示這個錯誤,就相當于什么都沒有發生。

          display_errors是控制是否要在標準輸出展示錯誤信息

          log_errors則是控制是否要在日志中記錄錯誤信息。

          error_log是顯示錯誤日志的位置,這個在php-fpm中往往會被重寫,于是往往會發現的是cli和fpm的錯誤日志竟然不是在同一個文件中。

          ignore_repeated_errors這個標記控制的是如果有重復的日志,那么就只會記錄一條,比如下面的程序:

          error_reporting(E_ALL);

          ini_set('ignore_repeated_errors', 1);

          ini_set('ignore_repeated_source', 1);

          $a=$c; $a=$c; //E_NOTICE

          //Notice: Undefined variable: c in /tmp/php/index.php on line 20

          本來會出現兩次NOTICE的,但是現在,只會出現一次了…

          track_errors開啟會把最后一個錯誤信息存儲到變量里面去,這個可能在對記日志的時候會有一些用處吧。不過我覺得真是沒啥用…

          html_errors 和 docref_root 兩個是個挺有人性化的配置,配置了這兩個參數以后,我們返回的錯誤信息中如果有一些在文檔中有的信息,就會變成鏈接形式。

          error_reporting(E_ALL);

          ini_set('html_errors', 1);

          ini_set('docref_root', "https://secure.php.net/manual/zh/");

          include("a2.php"); //E_WARNING

          能讓你快速定位到我們出現錯誤的地方。是不是很人性~

          php-fpm中的配置

          error_log=/var/log/php-fpm/error.log // php-fpm自身的日志

          log_level=notice // php-fpm自身的日志記錄級別

          php_flag[display_errors]=off // 覆蓋php.ini中的某個配置變量,可被程序中的ini_set覆蓋

          php_value[display_errors]=off // 同php_flag

          php_admin_value[error_log]=/tmp/www-error.log // 覆蓋php.ini中的某個配置變量,不可被程序中的ini_set覆蓋

          php_admin_flag[log_errors]=on // 同php_admin_value

          catch_workers_output=yes // 是否抓取fpmworker的輸出

          request_slowlog_timeout=0 // 慢日志時長

          slowlog=/var/log/php-fpm/www-slow.log // 慢日志記錄

          php-fpm的配置中也有一個error_log配置,這個很經常會和php.ini中的error_log配置弄混。但他們記錄的東西是不一樣的,php-fpm的error_log只記錄php-fpm本身的日志,比如fpm啟動,關閉。

          而php.ini中的error_log是記錄php程序本身的錯誤日志。

          那么在php-fpm中要覆蓋php.ini中的error_log配置,就需要使用到下面幾個函數:

          php_flag

          php_value

          php_admin_flag

          php_admin_value

          這四個函數admin的兩個函數說明這個變量設置完之后,不能在代碼中使用ini_set把這個變量重新賦值了。而php_flag/value就仍然以php代碼中的ini_set為準。

          slowlog是fpm記錄的,可以使用request_slowlog_timeout設置判斷慢日志的時長。

          總結

          我們經常弄混的就是日志問題,以及某些級別的日志為何沒有記錄到日志中。最主要的是要看error_log,display_errors, log_errors這三個配置,只是在看配置的時候,我們還要注意區分php.ini里面的配置是什么,php-fpm.ini里面的配置是什么。

          好吧,我覺得弄懂這些配置,基本就沒有php日志記錄不了的WTF的問題了。

          想要學習PHP的朋友可以私信帳號“學習交流”獲取加群方式,加群后領取學習資料。


          主站蜘蛛池模板: 亚州日本乱码一区二区三区| 日韩精品一区二区三区中文 | 亚拍精品一区二区三区| 精品伦精品一区二区三区视频| 韩国福利视频一区二区 | 在线观看一区二区三区av| 久久一区二区三区免费播放| 精品亚洲综合在线第一区| 日本中文字幕一区二区有码在线| 制服中文字幕一区二区| 狠狠色成人一区二区三区| 亚洲一区二区三区偷拍女厕| 国产成人AV一区二区三区无码| 少妇精品无码一区二区三区| 亚洲一区电影在线观看| 精品少妇人妻AV一区二区三区| 在线精品视频一区二区| 国产一区二区三区免费看 | 一区二区免费在线观看| 中文字幕在线观看一区二区三区| 国产亚洲日韩一区二区三区| 高清国产AV一区二区三区| 无码欧精品亚洲日韩一区| 3d动漫精品啪啪一区二区免费| 亚洲熟女综合一区二区三区| 国产精品亚洲综合一区在线观看 | 91一区二区三区四区五区| 五月婷婷一区二区| 精品国产高清自在线一区二区三区| 无码人妻精品一区二| 国模私拍一区二区三区| 色噜噜狠狠一区二区| 天天看高清无码一区二区三区| 精品国产亚洲一区二区三区| 人妻体内射精一区二区三区| 亚洲综合av一区二区三区 | 中文字幕乱码人妻一区二区三区| 国内精品一区二区三区最新| 亚洲成av人片一区二区三区 | 亚洲成在人天堂一区二区| 亚洲国产欧美日韩精品一区二区三区|