成功利用python爬取網頁html表格，鏈接不變，頁碼變，nice

蟲是一件很有趣的事情，就像黑客一樣，和服務器對抗，服務器維護代碼防止爬蟲，我們通過各種bug解決爬蟲困難，真實有趣！今天給大家帶來一串代碼，針對網頁中的表格爬取，表格頁碼變化，而鏈接url不變的情況1

首先給出爬取的原文鏈接：https://d.qianzhan.com/yuanqu/

接下來一步一步解釋一下代碼：

#導入所需庫文件
import requests
import pandas as pd
import csv

代碼核心

上面三個庫文件是本次爬蟲所需的主要庫，requests庫向網站發送請求，請求成功則返回響應狀態碼為200，否則為400或者404，pandas庫可以用來直接抓取表格數據，csv庫用來將文件保存在本地csv文件內。

#這里爬取的表格為廣東省的數據表格
areas = ['廣東省']
#寫入鏈接url
urls = ['https://d.qianzhan.com/yuanqu/?p={}'.format(str)for str in areas]
x = 0
for url in urls:
 #打開csv文件，在第一行寫入標題
 with open('前瞻.csv', 'a', newline='', encoding='utf-8-sig') as csvfile:
 w = csv.writer(csvfile)
 # 寫入標題或稱之為變量
 w.writerow(['序號', '園區名稱', '省份', '城市', '占地面積', '企業數', '詳情'])
 # 對表格的全部頁數進行抓取
 for i in range(1, 33): # 跳頁
 # 在網頁源代碼找到頁碼的屬性，這里頁碼在屬性page上
 data = {
 'page': i
 }
 # 對網站發送請求，獲得響應
 s = requests.session()
 d = s.get(url, params=data)
 # 抓取html表格
 tb = pd.read_html(d.text)[1] 
 # 將抓取來的表格填入csv文件內
 tb.to_csv(r'前瞻.csv', mode='a', encoding='utf_8_sig', header=0, index=0)
 # 每抓取玩一個省份，打印出抓取結果，給用戶更好體驗
 print(areas[x], "已經抓取完成！請到本地文檔中查看抓取結果！")
 x = x+1
# 全部抓取完成，則打印'全部抓取完畢!'

print('全部抓取完畢!')

結果分析

最終成功抓取到所有表格的內容，并存入了csv文件內，大家有問題可以下方留言討論！

DF轉HTML在網絡應用中越來越受到重視，PDF作為一種電子文件格式廣泛應用于各種場景，例如在線教育、電子商務等。但是PDF作為一種專有格式，在網絡應用中存在一定的限制，比如不便于搜索引擎索引的問題。因此，將PDF轉換為HTML格式就顯得尤為重要。HTML作為一種開放標準，在瀏覽器中的兼容性強，結構清晰，方便搜索引擎抓取，能很好地解決PDF在網絡應用中的一些問題。那你們知道PDF怎么轉HTML嗎？下面就為大家分享幾種不錯的方法。

以下是可以將PDF轉HTML的方法：

一、使用全能PDF轉換助手將PDF轉HTML

這是一款功能豐富的PDF轉換工具，支持將PDF文件轉換為多種格式，包括HTML。它具有直觀的操作界面和簡單易用的操作流程，即使對于初學者也很友好。

【轉換步驟】

步驟一：打開軟件后，選擇“PDF轉HTML”功能。

步驟二：添加PDF文件，接著調整“頁碼選擇”，然后點擊“開始轉換”即可。

二、使用HODO將PDF轉HTML

這是一個受歡迎的PDF轉HTML平臺，它專注于提供出色的轉換質量和準確性。它的轉換引擎使用先進的算法，可以保留原始PDF文件的布局和格式，并將其轉換為高質量的HTML文件。

【轉換步驟】

步驟一：使用瀏覽器打開平臺的網站后，選擇“PDFto HTML”功能。

步驟二：添加PDF文件，接著平臺就會自動識別并進行轉換。

三、使用ZAMZAR將PDF轉HTML

這是另一個在線文件轉換平臺，提供多種文件格式之間的轉換服務，包括PDF到HTML的轉換。這個平臺非常方便使用，我們不需要安裝任何軟件。

【轉換步驟】

步驟一：打開平臺后，通過“ChooseFiles”上傳PDF文件。

步驟二：在“WebFormats”中選擇“HTML”格式，接著點擊“ConvertNow”就能完成轉換。

看完這篇文章，大家都學會PDF怎么轉HTML了嗎？以上三種方法都可以很好地實現PDF到HTML的轉換，幫助我們利用PDF內容在網頁中發揮更廣泛的價值。具體選擇哪種方法，需要大家結合自身實際轉換需求來定。

何保持頁面樣式基本不變的前提下將HTML頁面導出為PDF，下面提供一些示例代碼，純屬個人原創，如對你有幫助請記得加關注、加收藏、點贊、轉發、分享~謝謝~~

基本思路：保持頁面樣式基本不變，使用 `html2canvas` 將頁面轉換為圖片，然后再通過 `jspdf` 將圖片分頁導出為PDF文件（中間會遇到圖片或文字等內容在分頁處被切割開的問題，如何解決了？詳見末尾干貨)

上基礎代碼：下面為項目中實際代碼截取

<div>
    <!-- 要打印的內容區 -->
    <div ref="contentRef">
        <div class="print-item print-out-flow">這是脫離文檔流的內容區域</div>
        <div class="print-item">這是一行內容，也是最小葉子元素內容</div>
    </div>
    <!-- 打印內容容器 -->
    <div ref="printContainerRef" class="print-container"></div>
</div>

/**
  * 1.使用一個隱藏div裝載有滾動條的div.innerHTML
  * 2.隱藏div使用position: absolute, z-index: -999, left: -9999px, width: 900px 控制讓用戶無感知
  * 3.根據需要覆寫隱藏div內html樣式(例如textarea多行顯示有問題, 可以新增一個隱藏的div
  *    包裹textarea的綁定值, 然后在打印樣式中覆寫樣式, 隱藏textarea并顯示對應div)
  */
handleExport() {
   // 下面是VUE組件內獲取DOM元素代碼，將內容放置到打印區（定義的隱藏DIV）中
    const contentRef = this.$refs.contentRef as HTMLElement;
    const printContainerRef = this.$refs.printContainerRef as HTMLElement;
    // 打印區的需額外處理絕對定位值, 調整使得第一個元素的.top值為0, 以便于頁面計算
    printContainerRef.innerHTML = contentRef.innerHTML;	
    
    // 所有葉子div元素加上 print-item 樣式名, 脫離文檔流的額外添加 print-out-flow
    handlePrintItem(printContainerRef);  // 解決多頁內容可能被切割問題
    
    html2canvas(printContainerRef, {allowTaint: false, useCORS: true}).then((canvas: any) => {
      const contentHeight = canvas.height;
      const contentWidth = canvas.width;
      // pdf每頁顯示的內容高度
      const pageHeight = contentWidth / 595.28 * 841.89;
      // 未生成pdf的頁面高度
      let offsetHeight = contentHeight;
      // 頁面偏移值
      let position = 0;
      // a4紙的尺寸[595.28, 841.89], canvas圖片按a4紙大小縮放后的寬高
      const imgWidth = 595.28;
      const imgHeight = 595.28 / contentWidth * contentHeight;

      const dataURL = canvas.toDataURL('image/jpeg', 1.0);
      const doc = new jsPDF('p', 'pt', 'a4');

      if (offsetHeight < pageHeight) {
        doc.addImage(dataURL, 'JPEG', 0, 0, imgWidth, imgHeight);
      } else {
        while (offsetHeight > 0) {
          doc.addImage(dataURL, 'JPEG', 0, position, imgWidth, imgHeight);
          offsetHeight -= pageHeight;
          position -= 841.89;

          if (offsetHeight > 0) {
            doc.addPage();
          }
        }
      }

      doc.save(this.generateReportFileName());
      printContainerRef.innerHTML = '';
    });
}

上干貨代碼：上面分頁導出PDF可能網上能看到類型代碼，但絕對找不到下面的代碼，純手搓解決分頁元素被切開問題（思路：獲取自身定位，如自己剛好在被分頁處，則加上一定的margin-top值將內容向下移）

/** 
 * 處理打印元素項, 修復分頁后被切割的元素
 * @param printContainerRef 打印內容div容器
 * @param itemClassName 打印最小元素標識類名
 * @param outFlowClassName 脫離文檔流的元素標識類名
 */
export function handlePrintItem(
  printContainerRef: HTMLElement,
  itemClassName: string = 'print-item',
  outFlowClassName: string = 'print-out-flow'
): void {
  const rootClientRect = printContainerRef.getBoundingClientRect();
  // 初始化頁面相關數據
  const totalHeight = rootClientRect.height;  // 內容總高度
  const a4PageHeight = (printContainerRef.clientWidth / 595.28) * 841.89; // a4紙高度
  let pageNum = Math.ceil(totalHeight / a4PageHeight);  // 總頁數
  let addPageHeight = 0;  // 修正被分割元素而增加的頁面高度總和
  let currentPage = 1;  // 當前正在處理切割的頁面
  const splitItemObj: { [key: number]: HTMLElement[] } = {};  // 內容中各頁被切割元素存儲對象

  const printItemNodes: NodeListOf<HTMLElement> = printContainerRef.querySelectorAll(`.${itemClassName}`);
  for (let item of printItemNodes) {
    // 如果當前頁已經是最后一頁, 則中斷判斷
    if (currentPage >= pageNum) {
      break;
    }

    // 獲取元素絕對定位數據
    const clientRect = item.getBoundingClientRect();
    let top = clientRect.top;
    const selfHeight = clientRect.height;
    // 如果當前元素距離頂部高度大于當前頁面頁腳高度, 則開始判斷下一頁頁腳被切割元素
    if (top > currentPage * a4PageHeight) {
      // 換頁前修正上一頁被切割元素
      addPageHeight += fixSplitItems(currentPage, a4PageHeight, splitItemObj[currentPage], outFlowClassName);
      pageNum = Math.ceil((totalHeight + addPageHeight) / a4PageHeight);
      top = item.getBoundingClientRect().top;
      currentPage++;
    }
    // 如果元素剛好處于兩頁之間, 則記錄該元素
    if (top > (currentPage - 1) * a4PageHeight && top < currentPage * a4PageHeight && top + selfHeight > currentPage * a4PageHeight) {
      if (!splitItemObj[currentPage]) {
        splitItemObj[currentPage] = [];
      }
      splitItemObj[currentPage].unshift(item);
      // 如果當前元素是最后一個元素, 則直接處理切割元素, 否則交由處理下一頁元素時再處理切割
      if (item === printItemNodes[printItemNodes.length - 1]) {
        fixSplitItems(currentPage, a4PageHeight, splitItemObj[currentPage], outFlowClassName);
      }
    }
  }
}

/**
  * 修復當前頁所有被切割元素
  * @param currentPage 當前頁
  * @param pageHeight 每頁高度
  * @param splitElementItems 當前被切割元素數組
  * @param outFlowClassName 脫離文檔流的樣式類名
  */
function fixSplitItems(
  currentPage: number,
  pageHeight: number,
  splitElementItems: HTMLElement[],
  outFlowClassName: string
): number {
  if (!splitElementItems || !splitElementItems.length) {
    return 0;
  }

  const yMargin = 5;  // y方向距離頁眉的距離
  const splitItemsMinTop = getSplitItemsMinTop(splitElementItems);
  if (!splitItemsMinTop) {
    return 0;
  }

  let fixHeight = currentPage * pageHeight - splitItemsMinTop + yMargin;
  const outFlowElement = splitElementItems.find((item) => item.classList.contains(outFlowClassName));
  if (outFlowElement && outFlowElement.parentElement) {
    const parentPreviousElement = outFlowElement.parentElement.previousElementSibling as HTMLElement;
    fixHeight += getMarinTopNum(parentPreviousElement, outFlowElement.parentElement);
    outFlowElement.parentElement.style.marginTop = `${fixHeight}px`;
    return fixHeight;
  }

  splitElementItems.forEach((splitElement) => {
    splitElement.style.marginTop = `${fixHeight}px`;
  });
  return fixHeight;
}

/**
  * 獲取被切割元素數組中最小高度值（如一行有多個元素被切割，則選出距離頂部最小的高度值）
  * @param splitElementItems 當前被切割元素數組
  */
function getSplitItemsMinTop(
  splitElementItems: HTMLElement[]
): number | undefined {
  // 獲取元素中最小top值作為基準進行修正
  let minTop: number | undefined;
  let minElement: HTMLElement | undefined;
  splitElementItems.forEach((splitElement) => {
    let top = splitElement.getBoundingClientRect().top;
    if (minTop) {
      minTop = top < minTop ? top : minTop;
      minElement = top < minTop ? splitElement : minElement;
    } else {
      minTop = top;
      minElement = splitElement;
    }
  });

  // 修正當前節點及其前面同層級節點的margin值
  if (minTop && minElement) {
    const previousElement = splitElementItems[splitElementItems.length - 1].previousElementSibling as HTMLElement;
    minTop -= getMarinTopNum(previousElement, minElement);
  }
  return minTop;
}

/**
  * 通過前一個兄弟元素和元素自身的位置確認一個距離頂部高度修正值
  * @param previousElement 前一個兄弟元素
  * @param curElement 當前元素
  */
function getMarinTopNum(previousElement: HTMLElement, curElement: HTMLElement): number {
  let preMarginNum = 0;
  let curMarginNum = 0;
  if (previousElement) {
    // 獲取外聯樣式需要getComputedStyle(), 直接.style時對象的值都為空
    const previousMarginBottom = window.getComputedStyle(previousElement).marginBottom;
    preMarginNum = previousMarginBottom ? Number(previousMarginBottom.replace('px', '')) : 0;
  }
  const marginTop = window.getComputedStyle(curElement).marginTop;
  curMarginNum = marginTop ? Number(marginTop.replace('px', '')) : 0;
  return preMarginNum > curMarginNum ? preMarginNum : curMarginNum;
}

以上純原創！歡迎加關注、加收藏、點贊、轉發、分享（代碼閑聊站）~

在線咨詢

上一篇：HTML表單標簽詳解：如何用HTML標簽打造互動網頁？
下一篇：簡單網頁設計模板html

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

成功利用python爬取網頁html表格，鏈接不變，頁碼變，nice

接下來一步一步解釋一下代碼：

代碼核心

結果分析

您的項目需求