掌握 JavaScript 的 Rest 和 Spread 操作符，讓你的代碼更簡潔！

avaScript 的 Rest 和 Spread 操作符自 ES6 引入以來，大大改變了開發(fā)者處理數(shù)組和對(duì)象的方式。這些操作符提供了更簡潔、更易讀的語法，使代碼更易于理解和維護(hù)。本文將介紹如何有效地使用 Rest 和 Spread 操作符，并通過示例進(jìn)行說明。

Rest 和 Spread 操作符簡介

Rest 操作符（...）允許你將多個(gè)元素收集到一個(gè)數(shù)組或?qū)ο笾校ǔＳ糜诤瘮?shù)參數(shù)中，將參數(shù)列表轉(zhuǎn)換為數(shù)組。而 Spread 操作符（...）則用于將數(shù)組或?qū)ο笳归_為單個(gè)元素，這在復(fù)制、合并或傳遞數(shù)組和對(duì)象時(shí)特別有用。

理解并掌握這些操作符可以大大提升你的 JavaScript 編碼水平，使代碼更加簡潔和富有表現(xiàn)力。

Rest 操作符的應(yīng)用

函數(shù)參數(shù)處理

Rest 操作符在函數(shù)定義中非常有用，可以處理不定數(shù)量的參數(shù)：

function multiply(...numbers) {
  return numbers.reduce((product, number) => product * number, 1);
}
console.log(multiply(2, 3, 4)); // 輸出: 24

在這個(gè)例子中，multiply 函數(shù)接受任意數(shù)量的參數(shù)并進(jìn)行相乘。Rest 操作符將所有參數(shù)收集到 numbers 數(shù)組中，使得可以輕松應(yīng)用 reduce 等數(shù)組方法。

數(shù)組解構(gòu)

Rest 操作符還可以在數(shù)組解構(gòu)中使用，將剩余元素收集到一個(gè)新數(shù)組中：

const [head, ...tail] = ['a', 'b', 'c', 'd'];
console.log(head);  // 輸出: 'a'
console.log(tail);  // 輸出: ['b', 'c', 'd']

在這個(gè)例子中，數(shù)組的第一個(gè)元素被賦值給 head，其余元素則被收集到 tail 數(shù)組中。

Spread 操作符的應(yīng)用

數(shù)組合并

使用 Spread 操作符，數(shù)組合并變得非常簡單：

const fruits = ['apple', 'banana'];
const vegetables = ['carrot', 'potato'];
const food = [...fruits, ...vegetables];
console.log(food); // 輸出: ['apple', 'banana', 'carrot', 'potato']

在這個(gè)例子中，Spread 操作符將 fruits 和 vegetables 展開為單個(gè)元素并合并到 food 數(shù)組中。

數(shù)組復(fù)制

創(chuàng)建數(shù)組副本同樣很方便：

const numbers = [1, 2, 3];
const numbersCopy = [...numbers];
console.log(numbersCopy); // 輸出: [1, 2, 3]

這樣創(chuàng)建了一個(gè)包含與 numbers 數(shù)組相同元素的新數(shù)組 numbersCopy，修改 numbersCopy 不會(huì)影響 numbers。

對(duì)象合并

Spread 操作符還可以用于對(duì)象的合并：

const person = { name: 'Alice', age: 25 };
const job = { title: 'developer', company: 'Tech Co.' };
const employee = { ...person, ...job };
console.log(employee); // 輸出: { name: 'Alice', age: 25, title: 'developer', company: 'Tech Co.' }

在這個(gè)例子中，person 和 job 被合并到 employee 對(duì)象中，形成一個(gè)新的對(duì)象。

高級(jí)技巧

對(duì)象解構(gòu)中的 Rest 操作符

Rest 操作符可以在對(duì)象解構(gòu)中使用，收集剩余的屬性：

const { title, ...details } = { title: 'Book', author: 'John Doe', year: 2021 };
console.log(title);    // 輸出: 'Book'
console.log(details);  // 輸出: { author: 'John Doe', year: 2021 }

這個(gè)例子展示了如何提取特定屬性（title），同時(shí)將剩余屬性收集到 details 對(duì)象中。

Spread 操作符用于函數(shù)參數(shù)

在調(diào)用接受多個(gè)參數(shù)的函數(shù)時(shí)，Spread 操作符可以簡化傳遞數(shù)組元素作為參數(shù)：

function concatenate(str1, str2, str3) {
  return str1 + str2 + str3;
}
const words = ['Hello', ' ', 'World!'];
console.log(concatenate(...words)); // 輸出: 'Hello World!'

通過展開 words 數(shù)組，每個(gè)元素作為獨(dú)立參數(shù)傳遞給 concatenate 函數(shù)。

結(jié)論

JavaScript 中的 Rest 和 Spread 操作符是強(qiáng)大的工具，可以極大地增強(qiáng)代碼的靈活性和可讀性。不論是處理數(shù)組、對(duì)象還是函數(shù)參數(shù)，這些操作符都能提供優(yōu)雅的解決方案。通過掌握這些操作符，你可以編寫更簡潔、高效的代碼，提升整體開發(fā)體驗(yàn)。

理解并有效使用 Rest 和 Spread 操作符，不僅可以簡化當(dāng)前項(xiàng)目，還能為未來的挑戰(zhàn)做好準(zhǔn)備，使你的 JavaScript 代碼更易維護(hù)和表達(dá)。

HTML超文本標(biāo)記語言是應(yīng)用于網(wǎng)頁端的頁面標(biāo)記語言，它通過在文本中添加標(biāo)記，瀏覽器依據(jù)標(biāo)簽的不同，按照不同的方式顯示內(nèi)容，組織內(nèi)容結(jié)構(gòu)。HTML是作為一名前端開發(fā)工程師必須精通的語言。

html

HTML有W3C組織維護(hù)，目前已經(jīng)發(fā)展到HTML5，大部分的桌面瀏覽器和幾乎全部的移動(dòng)端瀏覽器都已經(jīng)支持了HTML5，但也還有少數(shù)的瀏覽器并不支持。因此學(xué)習(xí)者對(duì)于HTML5之前的HTML版本也需要有了解，特別HTML4，和最常見的HTML4.01。HTML的內(nèi)容較為簡單，掌握起來也十分容易，但編寫出優(yōu)秀的html結(jié)構(gòu)卻還是有難度。

標(biāo)簽分類

HTML標(biāo)簽大致可以分為章節(jié)標(biāo)簽、文本標(biāo)簽、組標(biāo)簽、資源標(biāo)簽、表格標(biāo)簽、表單標(biāo)簽，共計(jì)一百多個(gè)標(biāo)簽，剔除不常用和不推薦使用的標(biāo)簽，還有部分支持度還不高的HTML5標(biāo)簽，也就只剩下七八十個(gè)常用標(biāo)簽了。記憶這些標(biāo)簽及其相關(guān)屬性是精通HTML的第一步。

html標(biāo)簽

常用屬性

自從css開始大量使用之后，HTML中直接嵌套屬性的使用已經(jīng)越來越少。我們這里提到的HTML屬性是指HTML全局屬性，這些屬性用于賦予元素意義和語境。編寫過html的同學(xué)應(yīng)該都知道id、class、style、title等常用的HTML屬性。

html屬性

語義化

語義化是指用正確的標(biāo)簽描述頁面。HTML語言使用中最難的莫過于使用合適的標(biāo)簽和屬性優(yōu)雅的描述頁面。語義化是html超文本標(biāo)記語言學(xué)習(xí)的進(jìn)階內(nèi)容，在編寫或參考到了大量的網(wǎng)頁結(jié)構(gòu)之后，會(huì)得到很大的提升。

實(shí)體字符

實(shí)體字符是在html語言中，例如空格、引號(hào)、大于號(hào)、小于號(hào)等一些已經(jīng)被html語言標(biāo)準(zhǔn)所占用的字符，需要用特定的字符組合來表現(xiàn)。html編碼過程中你編寫了多個(gè)空格，但是在最終頁面輸出時(shí)只會(huì)有一個(gè)空格，這就是因?yàn)殒I盤上輸入的空格如果不經(jīng)過特殊的標(biāo)簽處理，或者未使用實(shí)體字符來表示，當(dāng)你在編碼時(shí)使用&nbsp；來表示空格，頁面上就會(huì)按照你的目的顯示空格。

總結(jié)

html甚至沒有被歸入編程語言中，而只是作為一種標(biāo)記語言存在，就是因?yàn)樗唵瘟耍瑢W(xué)習(xí)起來異常容易，但是我們看高手程序員編寫的html頁面，卻總是會(huì)驚訝一個(gè)標(biāo)簽怎么還會(huì)有如此用法。

掌握了上面的四塊內(nèi)容，就可以算是基本掌握了HTML超文本標(biāo)記語言。

本文僅代表個(gè)人觀點(diǎn)！歡迎關(guān)注！

x1 工具準(zhǔn)備

工欲善其事必先利其器，爬取語料的根基便是基于python。

我們基于python3進(jìn)行開發(fā)，主要使用以下幾個(gè)模塊：requests、lxml、json。

簡單介紹一個(gè)各模塊的功能

01｜requests

requests是一個(gè)Python第三方庫，處理URL資源特別方便。它的官方文檔上寫著大大口號(hào)：HTTP for Humans(為人類使用HTTP而生)。相比python自帶的urllib使用體驗(yàn)，筆者認(rèn)為requests的使用體驗(yàn)比urllib高了一個(gè)數(shù)量級(jí)。

我們簡單的比較一下：

urllib:

 1import urllib2
 2import urllib
 3
 4URL_GET = "https://api.douban.com/v2/event/list"
 5#構(gòu)建請(qǐng)求參數(shù)
 6params = urllib.urlencode({'loc':'108288','day_type':'weekend','type':'exhibition'})
 7
 8#發(fā)送請(qǐng)求
 9response = urllib2.urlopen('?'.join([URL_GET,'%s'])%params)
10#Response Headers
11print(response.info())
12#Response Code
13print(response.getcode())
14#Response Body
15print(response.read())
復(fù)制代碼

requests：

 1import requests
 2
 3URL_GET = "https://api.douban.com/v2/event/list"
 4#構(gòu)建請(qǐng)求參數(shù)
 5params = {'loc':'108288','day_type':'weekend','type':'exhibition'}
 6
 7#發(fā)送請(qǐng)求
 8response = requests.get(URL_GET,params=params)
 9#Response Headers
10print(response.headers)
11#Response Code
12print(response.status_code)
13#Response Body
14print(response.text)復(fù)制代碼

我們可以發(fā)現(xiàn)，這兩種庫還是有一些區(qū)別的：

1. 參數(shù)的構(gòu)建：urllib需要對(duì)參數(shù)進(jìn)行urlencode編碼處理，比較麻煩；requests無需額外編碼處理，十分簡潔。

2. 請(qǐng)求發(fā)送：urllib需要額外對(duì)url參數(shù)進(jìn)行構(gòu)造，變?yōu)榉弦蟮男问剑籸equests則簡明很多，直接get對(duì)應(yīng)鏈接與參數(shù)。

3. 連接方式：看一下返回?cái)?shù)據(jù)的頭信息的“connection”，使用urllib庫時(shí)，"connection":"close"，說明每次請(qǐng)求結(jié)束關(guān)掉socket通道，而使用requests庫使用了urllib3，多次請(qǐng)求重復(fù)使用一個(gè)socket，"connection":"keep-alive"，說明多次請(qǐng)求使用一個(gè)連接，消耗更少的資源

4. 編碼方式：requests庫的編碼方式Accept-Encoding更全，在此不做舉例

綜上所訴，使用requests更為簡明、易懂，極大的方便我們開發(fā)。

02｜lxml

BeautifulSoup是一個(gè)庫，而XPath是一種技術(shù)，python中最常用的XPath庫是lxml。

當(dāng)我們拿到requests返回的頁面后，我們?cè)趺茨玫较胍臄?shù)據(jù)呢？這個(gè)時(shí)候祭出lxml這強(qiáng)大的HTML/XML解析工具。python從不缺解析庫，那么我們?yōu)槭裁匆诒姸鄮炖镞x擇lxml呢？我們選擇另一款出名的HTML解析庫BeautifulSoup來進(jìn)行對(duì)比。

我們簡單的比較一下：

BeautifulSoup:

1from bs4 import BeautifulSoup #導(dǎo)入庫
2# 假設(shè)html是需要被解析的html
3
4#將html傳入BeautifulSoup 的構(gòu)造方法,得到一個(gè)文檔的對(duì)象
5soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')
6#查找所有的h4標(biāo)簽 
7links = soup.find_all("h4")
復(fù)制代碼

lxml:

1from lxml import etree
2# 假設(shè)html是需要被解析的html
3
4#將html傳入etree 的構(gòu)造方法,得到一個(gè)文檔的對(duì)象
5root = etree.HTML(html)
6#查找所有的h4標(biāo)簽 
7links = root.xpath("http://h4")
復(fù)制代碼

我們可以發(fā)現(xiàn)，這兩種庫還是有一些區(qū)別的：

1. 解析html: BeautifulSoup的解析方式和JQ的寫法類似，API非常人性化，支持css選擇器；lxml的語法有一定的學(xué)習(xí)成本

2. 性能：BeautifulSoup是基于DOM的，會(huì)載入整個(gè)文檔，解析整個(gè)DOM樹，因此時(shí)間和內(nèi)存開銷都會(huì)大很多；而lxml只會(huì)局部遍歷，另外lxml是用c寫的，而BeautifulSoup是用python寫的，明顯的性能上lxml>>BeautifulSoup。

綜上所訴，使用BeautifulSoup更為簡明、易用，lxml雖然有一定學(xué)習(xí)成本，但總體也很簡明易懂，最重要的是它基于C編寫，速度快很多，對(duì)于筆者這種強(qiáng)迫癥，自然而然就選lxml啦。

03｜json

python自帶json庫，對(duì)于基礎(chǔ)的json的處理，自帶庫完全足夠。但是如果你想更偷懶，可以使用第三方j(luò)son庫，常見的有demjson、simplejson。

這兩種庫，無論是import模塊速度，還是編碼、解碼速度，都是simplejson更勝一籌，再加上兼容性 simplejson 更好。所以大家如果想使用方庫，可以使用simplejson。

0x2 確定語料源

將武器準(zhǔn)備好之后，接下來就需要確定爬取方向。

以電競(jìng)類語料為例，現(xiàn)在我們要爬電競(jìng)類相關(guān)語料。大家熟悉的電競(jìng)平臺(tái)有企鵝電競(jìng)、企鵝電競(jìng)和企鵝電競(jìng)(斜眼)，所以我們以企鵝電競(jìng)上直播的游戲作為數(shù)據(jù)源進(jìn)行爬取。

我們登陸企鵝電競(jìng)官網(wǎng)，進(jìn)入游戲列表頁，可以發(fā)現(xiàn)頁面上有很多游戲，通過人工去寫這些游戲名收益明顯不高，于是我們就開始我們爬蟲的第一步：游戲列表爬取。

 1import requests
 2from lxml import etree
 3
 4# 更新游戲列表
 5def _updateGameList():
 6 # 發(fā)送HTTP請(qǐng)求時(shí)的HEAD信息，用于偽裝為瀏覽器
 7 heads = { 
 8 'Connection': 'Keep-Alive',
 9 'Accept': 'text/html, application/xhtml+xml, */*',
10 'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
11 'Accept-Encoding': 'gzip, deflate',
12 'User-Agent': 'Mozilla/6.1 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
13 }
14 # 需要爬取的游戲列表頁
15 url = 'https://egame.qq.com/gamelist'
16
17 # 不壓縮html，最大鏈接時(shí)間為10妙
18 res = requests.get(url, headers=heads, verify=False, timeout=10)
19 # 為防止出錯(cuò)，編碼utf-8
20 res.encoding = 'utf-8'
21 # 將html構(gòu)建為Xpath模式
22 root = etree.HTML(res.content)
23 # 使用Xpath語法，獲取游戲名
24 gameList = root.xpath("http://ul[@class='livelist-mod']//li//p//text()")
25 # 輸出爬到的游戲名
26 print(gameList)
復(fù)制代碼

當(dāng)我們拿到這幾十個(gè)游戲名后，下一步就是對(duì)這幾十款游戲進(jìn)行語料爬取，這時(shí)候問題就來了，我們要從哪個(gè)網(wǎng)站來爬這幾十個(gè)游戲的攻略呢，taptap?多玩？17173？在對(duì)這幾個(gè)網(wǎng)站進(jìn)行分析后，發(fā)現(xiàn)這些網(wǎng)站僅有一些熱門游戲的文章語料，一些冷門或者低熱度的游戲，例如“靈魂籌碼”、“奇跡：覺醒”、“死神來了”等，很難在這些網(wǎng)站上找到大量文章語料，如圖所示：

我們可以發(fā)現(xiàn)，“ 奇跡：覺醒”、“靈魂籌碼”的文章語料特別少，數(shù)量上不符合我們的要求。那么有沒有一個(gè)比較通用的資源站，它擁有著無比豐富的文章語料，可以滿足我們的需求。

其實(shí)靜下心來想想，這個(gè)資源站我們天天都有用到，那就是百度。我們?cè)诎俣刃侣勊阉飨嚓P(guān)游戲，拿到搜索結(jié)果列表，這些列表的鏈接的網(wǎng)頁內(nèi)容幾乎都與搜索結(jié)果強(qiáng)相關(guān)，這樣我們數(shù)據(jù)源不夠豐富的問題便輕松解決了。但是此時(shí)出現(xiàn)了一個(gè)新的問題，并且是一個(gè)比較難解決的問題——如何抓取到任意網(wǎng)頁的文章內(nèi)容？

因?yàn)椴煌木W(wǎng)站都有不同的頁面結(jié)構(gòu)，我們無法與預(yù)知將會(huì)爬到哪個(gè)網(wǎng)站的數(shù)據(jù)，并且我們也不可能針對(duì)每一個(gè)網(wǎng)站都去寫一套爬蟲，那樣的工作量簡直難以想象！但是我們也不能簡單粗暴的將頁面中的所有文字都爬下來，用那樣的語料來進(jìn)行訓(xùn)練無疑是噩夢(mèng)！

經(jīng)過與各個(gè)網(wǎng)站斗智斗勇、查詢資料與思索之后，終于找到一條比較通用的方案，下面為大家講一講筆者的思路。

0x3 任意網(wǎng)站的文章語料爬取

01｜提取方法

1）基于Dom樹正文提取

2）基于網(wǎng)頁分割找正文塊

3）基于標(biāo)記窗的正文提取

4）基于數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)

5）基于行塊分布函數(shù)正文提取

02｜提取原理

大家看到這幾種是不是都有點(diǎn)疑惑了，它們到底是怎么提取的呢？讓筆者慢慢道來。

1）基于Dom樹的正文提取：

這一種方法主要是通過比較規(guī)范的HTML建立Dom樹，然后地柜遍歷Dom，比較并識(shí)別各種非正文信息，包括廣告、鏈接和非重要節(jié)點(diǎn)信息，將非正文信息抽離之后，余下來的自然就是正文信息。

但是這種方法有兩個(gè)問題

① 特別依賴于HTML的良好結(jié)構(gòu)，如果我們爬取到一個(gè)不按W3c規(guī)范的編寫的網(wǎng)頁時(shí)，這種方法便不是很適用。

② 樹的建立和遍歷時(shí)間復(fù)雜度、空間復(fù)雜度都較高，樹的遍歷方法也因HTML標(biāo)簽會(huì)有不同的差異。

2) 基于網(wǎng)頁分割找正文塊：

這一種方法是利用HTML標(biāo)簽中的分割線以及一些視覺信息（如文字顏色、字體大小、文字信息等）。

這種方法存在一個(gè)問題：

① 不同的網(wǎng)站HTML風(fēng)格迥異，分割沒有辦法統(tǒng)一，無法保證通用性。

3) 基于標(biāo)記窗的正文提取：

先科普一個(gè)概念——標(biāo)記窗，我們將兩個(gè)標(biāo)簽以及其內(nèi)部包含的文本合在一起成為一個(gè)標(biāo)記窗（比如 <h1>我是h1</h1> 中的“我是h1”就是標(biāo)記窗內(nèi)容）,取出標(biāo)記窗的文字。

這種方法先取文章標(biāo)題、HTML中所有的標(biāo)記窗，在對(duì)其進(jìn)行分詞。然后計(jì)算標(biāo)題的序列與標(biāo)記窗文本序列的詞語距離L，如果L小于一個(gè)閾值，則認(rèn)為此標(biāo)記窗內(nèi)的文本是正文。

這種方法雖然看上去挺好，但其實(shí)也是存在問題的：

① 需要對(duì)頁面中的所有文本進(jìn)行分詞，效率不高。

② 詞語距離的閾值難以確定，不同的文章?lián)碛胁煌拈撝怠?/p>

4）基于數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)

使用大數(shù)據(jù)進(jìn)行訓(xùn)練，讓機(jī)器提取主文本。

這種方法肯定是極好的，但是它需要先有html與正文數(shù)據(jù)，然后進(jìn)行訓(xùn)練。我們?cè)诖瞬贿M(jìn)行探討。

5）基于行塊分布函數(shù)正文提取

對(duì)于任意一個(gè)網(wǎng)頁，它的正文和標(biāo)簽總是雜糅在一起。此方法的核心有亮點(diǎn)：① 正文區(qū)的密度；② 行塊的長度；一個(gè)網(wǎng)頁的正文區(qū)域肯定是文字信息分布最密集的區(qū)域之一，這個(gè)區(qū)域可能最大（評(píng)論信息長、正文較短），所以同時(shí)引進(jìn)行塊長度進(jìn)行判斷。

實(shí)現(xiàn)思路：

① 我們先將HTML去標(biāo)簽，只留所有正文，同時(shí)留下標(biāo)簽取出后的所有空白位置信息，我們稱其為Ctext；

② 對(duì)每一個(gè)Ctext取周圍k行(k<5)，合起來稱為Cblock；

③ 對(duì)Cblock去掉所有空白符，其文字總長度稱為Clen；

④ 以Ctext為橫坐標(biāo)軸，以各行的Clen為縱軸，建立坐標(biāo)系。

以這個(gè)網(wǎng)頁為例： http://www.gov.cn/ldhd/2009-11/08/content_1459564.htm 該網(wǎng)頁的正文區(qū)域?yàn)?45行至182行。

由上圖可知，正確的文本區(qū)域全都是分布函數(shù)圖上含有最值且連續(xù)的一個(gè)區(qū)域，這個(gè)區(qū)域往往含有一個(gè)驟升點(diǎn)和一個(gè)驟降點(diǎn)。因此，網(wǎng)頁正文抽取問題轉(zhuǎn)化為了求行塊分布函數(shù)上的驟升點(diǎn)和驟降點(diǎn)兩個(gè)邊界點(diǎn)，這兩個(gè)邊界點(diǎn)所含的區(qū)域包含了當(dāng)前網(wǎng)頁的行塊長度最大值并且是連續(xù)的。

經(jīng)過大量實(shí)驗(yàn)，證明此方法對(duì)于中文網(wǎng)頁的正文提取有較高的準(zhǔn)確度,此算法的優(yōu)點(diǎn)在于，行塊函數(shù)不依賴與HTML代碼，與HTML標(biāo)簽無關(guān)，實(shí)現(xiàn)簡單，準(zhǔn)確率較高。

主要邏輯代碼如下：

 1# 假設(shè)content為已經(jīng)拿到的html
 2
 3# Ctext取周圍k行(k<5),定為3
 4blocksWidth = 3
 5# 每一個(gè)Cblock的長度
 6Ctext_len = []
 7# Ctext
 8lines = content.split('n')
 9# 去空格
10for i in range(len(lines)):
11 if lines[i] == ' ' or lines[i] == 'n':
12 lines[i] = ''
13# 計(jì)算縱坐標(biāo)，每一個(gè)Ctext的長度
14for i in range(0, len(lines) - blocksWidth):
15 wordsNum = 0
16 for j in range(i, i + blocksWidth):
17 lines[j] = lines[j].replace("\s", "")
18 wordsNum += len(lines[j])
19 Ctext_len.append(wordsNum)
20# 開始標(biāo)識(shí)
21start = -1
22# 結(jié)束標(biāo)識(shí)
23end = -1
24# 是否開始標(biāo)識(shí)
25boolstart = False
26# 是否結(jié)束標(biāo)識(shí)
27boolend = False
28# 行塊的長度閾值
29max_text_len = 88
30# 文章主內(nèi)容
31main_text = []
32# 沒有分割出Ctext
33if len(Ctext_len) < 3:
34 return '沒有正文'
35for i in range(len(Ctext_len) - 3):
36 # 如果高于這個(gè)閾值
37 if(Ctext_len[i] > max_text_len and (not boolstart)):
38 # Cblock下面3個(gè)都不為0，認(rèn)為是正文
39 if (Ctext_len[i + 1] != 0 or Ctext_len[i + 2] != 0 or Ctext_len[i + 3] != 0):
40 boolstart = True
41 start = i
42 continue
43 if (boolstart):
44 # Cblock下面3個(gè)中有0，則結(jié)束
45 if (Ctext_len[i] == 0 or Ctext_len[i + 1] == 0):
46 end = i
47 boolend = True
48 tmp = []
49
50 # 判斷下面還有沒有正文
51 if(boolend):
52 for ii in range(start, end + 1):
53 if(len(lines[ii]) < 5):
54 continue
55 tmp.append(lines[ii] + "n")
56 str = "".join(list(tmp))
57 # 去掉版權(quán)信息
58 if ("Copyright" in str or "版權(quán)所有" in str):
59 continue
60 main_text.append(str)
61 boolstart = boolend = False
62# 返回主內(nèi)容
63result = "".join(list(main_text))
復(fù)制代碼

0x4 結(jié)語

至此我們就可以獲取任意內(nèi)容的文章語料了，但這僅僅是開始，獲取到了這些語料后我們還需要在一次進(jìn)行清洗、分詞、詞性標(biāo)注等，才能獲得真正可以使用的語料。

在線咨詢

上一篇：css基礎(chǔ)篇06-背景樣式
下一篇：CSS 類型(type)、背景(background)