言
本篇文章主要介紹了前端HTML5幾種存儲方式的總結(jié) ,主要包括本地存儲localstorage,本地存儲sessionstorage,離線緩存(application cache),Web SQL,IndexedDB。有興趣的可以了解一下。
正文開始~
h5之前,存儲主要是用cookies。cookies缺點有在請求頭上帶著數(shù)據(jù),大小是4k之內(nèi)。主Domain污染。
主要應(yīng)用:購物車、客戶登錄
對于IE瀏覽器有UserData,大小是64k,只有IE瀏覽器支持。
目標(biāo)
存儲方式:
以鍵值對(Key-Value)的方式存儲,永久存儲,永不失效,除非手動刪除。
大小:
每個域名5M
支持情況:
注意:IE9 localStorage不支持本地文件,需要將項目署到服務(wù)器,才可以支持!
if(window.localStorage){ alert('This browser supports localStorage'); }else{ alert('This browser does NOT support localStorage'); }
常用的API:
getItem //取記錄
setIten//設(shè)置記錄
removeItem//移除記錄
key//取key所對應(yīng)的值
clear//清除記錄
存儲的內(nèi)容:
數(shù)組,圖片,json,樣式,腳本。。。(只要是能序列化成字符串的內(nèi)容都可以存儲)
HTML5 的本地存儲 API 中的 localStorage 與 sessionStorage 在使用方法上是相同的,區(qū)別在于 sessionStorage 在關(guān)閉頁面后即被清空,而 localStorage 則會一直保存。
本地緩存應(yīng)用所需的文件
使用方法:
①配置manifest文件
頁面上:
<!DOCTYPE HTML> <html manifest="demo.appcache"> ... </html>
Manifest 文件:
manifest 文件是簡單的文本文件,它告知瀏覽器被緩存的內(nèi)容(以及不緩存的內(nèi)容)。
manifest 文件可分為三個部分:
①CACHE MANIFEST - 在此標(biāo)題下列出的文件將在首次下載后進(jìn)行緩存
②NETWORK - 在此標(biāo)題下列出的文件需要與服務(wù)器的連接,且不會被緩存
③FALLBACK - 在此標(biāo)題下列出的文件規(guī)定當(dāng)頁面無法訪問時的回退頁面(比如 404 頁面)
完整demo:
CACHE MANIFEST # 2016-07-24 v1.0.0 /theme.css /main.js NETWORK: login.jsp FALLBACK: /html/ /offline.html
服務(wù)器上:manifest文件需要配置正確的MIME-type,即 "text/cache-manifest"。
如Tomcat:
<mime-mapping> <extension>manifest</extension> <mime-type>text/cache-manifest</mime-type> </mime-mapping>
常用API:
核心是applicationCache對象,有個status屬性,表示應(yīng)用緩存的當(dāng)前狀態(tài):
0(UNCACHED) : 無緩存, 即沒有與頁面相關(guān)的應(yīng)用緩存
1(IDLE) : 閑置,即應(yīng)用緩存未得到更新
2 (CHECKING) : 檢查中,即正在下載描述文件并檢查更新
3 (DOWNLOADING) : 下載中,即應(yīng)用緩存正在下載描述文件中指定的資源
4 (UPDATEREADY) : 更新完成,所有資源都已下載完畢
5 (IDLE) : 廢棄,即應(yīng)用緩存的描述文件已經(jīng)不存在了,因此頁面無法再訪問應(yīng)用緩存
相關(guān)的事件:
表示應(yīng)用緩存狀態(tài)的改變:
checking : 在瀏覽器為應(yīng)用緩存查找更新時觸發(fā)
error : 在檢查更新或下載資源期間發(fā)送錯誤時觸發(fā)
noupdate : 在檢查描述文件發(fā)現(xiàn)文件無變化時觸發(fā)
downloading : 在開始下載應(yīng)用緩存資源時觸發(fā)
progress:在文件下載應(yīng)用緩存的過程中持續(xù)不斷地下載地觸發(fā)
updateready : 在頁面新的應(yīng)用緩存下載完畢觸發(fā)
cached : 在應(yīng)用緩存完整可用時觸發(fā)
Application Cache的三個優(yōu)勢:
① 離線瀏覽
② 提升頁面載入速度
③ 降低服務(wù)器壓力
注意事項:
1. 瀏覽器對緩存數(shù)據(jù)的容量限制可能不太一樣(某些瀏覽器設(shè)置的限制是每個站點 5MB)
2. 如果manifest文件,或者內(nèi)部列舉的某一個文件不能正常下載,整個更新過程將視為失敗,瀏覽器繼續(xù)全部使用老的緩存
3. 引用manifest的html必須與manifest文件同源,在同一個域下
4. 瀏覽器會自動緩存引用manifest文件的HTML文件,這就導(dǎo)致如果改了HTML內(nèi)容,也需要更新版本才能做到更新。
5. manifest文件中CACHE則與NETWORK,F(xiàn)ALLBACK的位置順序沒有關(guān)系,如果是隱式聲明需要在最前面
6. FALLBACK中的資源必須和manifest文件同源
7. 更新完版本后,必須刷新一次才會啟動新版本(會出現(xiàn)重刷一次頁面的情況),需要添加監(jiān)聽版本事件。
8. 站點中的其他頁面即使沒有設(shè)置manifest屬性,請求的資源如果在緩存中也從緩存中訪問
9. 當(dāng)manifest文件發(fā)生改變時,資源請求本身也會觸發(fā)更新
離線緩存與傳統(tǒng)瀏覽器緩存區(qū)別:
1. 離線緩存是針對整個應(yīng)用,瀏覽器緩存是單個文件
2. 離線緩存斷網(wǎng)了還是可以打開頁面,瀏覽器緩存不行
3. 離線緩存可以主動通知瀏覽器更新資源
關(guān)系數(shù)據(jù)庫,通過SQL語句訪問
Web SQL 數(shù)據(jù)庫 API 并不是 HTML5 規(guī)范的一部分,但是它是一個獨立的規(guī)范,引入了一組使用 SQL 操作客戶端數(shù)據(jù)庫的 APIs。
支持情況:
Web SQL 數(shù)據(jù)庫可以在最新版的 Safari, Chrome 和 Opera 瀏覽器中工作。
核心方法:
①openDatabase:這個方法使用現(xiàn)有的數(shù)據(jù)庫或者新建的數(shù)據(jù)庫創(chuàng)建一個數(shù)據(jù)庫對象。
②transaction:這個方法讓我們能夠控制一個事務(wù),以及基于這種情況執(zhí)行提交或者回滾。
③executeSql:這個方法用于執(zhí)行實際的 SQL 查詢。
打開數(shù)據(jù)庫:
var db = openDatabase('mydb', '1.0', 'Test DB', 2 * 1024 * 1024,fn); //openDatabase() 方法對應(yīng)的五個參數(shù)分別為:數(shù)據(jù)庫名稱、版本號、描述文本、數(shù)據(jù)庫大小、創(chuàng)建回調(diào)
執(zhí)行查詢操作:
var db = openDatabase('mydb', '1.0', 'Test DB', 2 * 1024 * 1024); db.transaction(function (tx) { tx.executeSql('CREATE TABLE IF NOT EXISTS WIN (id unique, name)'); });
插入數(shù)據(jù):
var db = openDatabase('mydb', '1.0', 'Test DB', 2 * 1024 * 1024); db.transaction(function (tx) { tx.executeSql('CREATE TABLE IF NOT EXISTS WIN (id unique, name)'); tx.executeSql('INSERT INTO WIN (id, name) VALUES (1, "winty")'); tx.executeSql('INSERT INTO WIN (id, name) VALUES (2, "LuckyWinty")'); });
讀取數(shù)據(jù):
db.transaction(function (tx) { tx.executeSql('SELECT * FROM WIN', [], function (tx, results) { var len = results.rows.length, i; msg = "<p>查詢記錄條數(shù): " + len + "</p>"; document.querySelector('#status').innerHTML += msg; for (i = 0; i < len; i++){ alert(results.rows.item(i).name ); } }, null); });
由這些操作可以看出,基本上都是用SQL語句進(jìn)行數(shù)據(jù)庫的相關(guān)操作,如果你會MySQL的話,這個應(yīng)該比較容易用。
索引數(shù)據(jù)庫 (IndexedDB) API(作為 HTML5 的一部分)對創(chuàng)建具有豐富本地存儲數(shù)據(jù)的數(shù)據(jù)密集型的離線 HTML5 Web 應(yīng)用程序很有用。同時它還有助于本地緩存數(shù)據(jù),使傳統(tǒng)在線 Web 應(yīng)用程序(比如移動 Web 應(yīng)用程序)能夠更快地運行和響應(yīng)。
異步API:
在IndexedDB大部分操作并不是我們常用的調(diào)用方法,返回結(jié)果的模式,而是請求——響應(yīng)的模式,比如打開數(shù)據(jù)庫的操作
這樣,我們打開數(shù)據(jù)庫的時候,實質(zhì)上返回了一個DB對象,而這個對象就在result中。由上圖可以看出,除了result之外。還有幾個重要的屬性就是onerror、onsuccess、onupgradeneeded(我們請求打開的數(shù)據(jù)庫的版本號和已經(jīng)存在的數(shù)據(jù)庫版本號不一致的時候調(diào)用)。這就類似于我們的ajax請求那樣。我們發(fā)起了這個請求之后并不能確定它什么時候才請求成功,所以需要在回調(diào)中處理一些邏輯。
關(guān)閉與刪除:
function closeDB(db){ db.close(); } function deleteDB(name){ indexedDB.deleteDatabase(name); }
數(shù)據(jù)存儲:
indexedDB中沒有表的概念,而是objectStore,一個數(shù)據(jù)庫中可以包含多個objectStore,objectStore是一個靈活的數(shù)據(jù)結(jié)構(gòu),可以存放多種類型數(shù)據(jù)。也就是說一個objectStore相當(dāng)于一張表,里面存儲的每條數(shù)據(jù)和一個鍵相關(guān)聯(lián)。
我們可以使用每條記錄中的某個指定字段作為鍵值(keyPath),也可以使用自動生成的遞增數(shù)字作為鍵值(keyGenerator),也可以不指定。選擇鍵的類型不同,objectStore可以存儲的數(shù)據(jù)結(jié)構(gòu)也有差異。
學(xué)習(xí)從來不是一個人的事情,要有個相互監(jiān)督的伙伴,想要學(xué)習(xí)或交流前端問題的小伙伴可以私信“學(xué)習(xí)”小明獲取web前端入門資料,一起學(xué)習(xí),一起成長!
站空間就是存放網(wǎng)站內(nèi)容的空間,即網(wǎng)站空間或虛擬主機,用于存放非獨立服務(wù)器以外的網(wǎng)站,遠(yuǎn)程使用FTP管理網(wǎng)站空間的文件。網(wǎng)站空間能存放的文件包括文字、圖片、CSS/JS文檔、數(shù)據(jù)庫、網(wǎng)站源代碼文件、視頻、動畫等內(nèi)容。可以說一個網(wǎng)站上所有包含的內(nèi)容都存放在網(wǎng)站空間里,服務(wù)器硬件提供了網(wǎng)站空間里文件的運行環(huán)境與支持。要求高的使用獨立的服務(wù)器,你可以理解一臺主機就運行一個站點。預(yù)算有限的就使用網(wǎng)站空間或叫虛擬主機,即一臺主機里跑N個站點,你只是其中之一。
網(wǎng)站空間分類一般來說有以下幾種:
按空間表現(xiàn)形式分為:
1、虛擬空間:
90%以上的企業(yè)網(wǎng)站都采取這種形式,主要是空間提供商提供專業(yè)的技術(shù)支持和空間維護(hù),且成本低廉,一般企業(yè)網(wǎng)站空間成本可以控制在100-1000元/年之間。
2、合租空間:
中型網(wǎng)站可以采用這種形式,一般是幾個或者幾十個人合租一臺服務(wù)器。優(yōu)點是資源有保證相對獨立服務(wù)器成本較低。
3、獨立主機:
安全性能要求極高以及網(wǎng)站訪問速度要求極高的企業(yè)網(wǎng)站可以采用,成本較高。一般費用在幾千到幾萬不等。
按網(wǎng)站程序使用語言劃分:
ASP虛擬主機:
以windows操作系統(tǒng)為代表的服務(wù)器,支持ASP,ASP.NET,ACCESS,MSSQL,成本較低,安全性能較低;
PHP虛擬主機:
以Linux操作系統(tǒng)為代表的服務(wù)器,支持PHP,JSP,MYSQL,APACHE,SQLITE,NGINX,成本較低,高效穩(wěn)定;
純靜態(tài)網(wǎng)站空間:
與操作系統(tǒng)關(guān)系不大,支持HTML靜態(tài)頁面,不支持ASP,PHP、JSP、ASP.NET等任何腳本語言。
全能型網(wǎng)站空間:
以windows操作系統(tǒng)為基礎(chǔ)配置全型支持型腳本運行環(huán)境,支持:ASP,PHP,asp.net,JSP,ACCESS,SQL Server,Mysql,Sqlite等所有常見網(wǎng)站語言。
按網(wǎng)站空間的機房線路劃分:
電信主機:接入光纖為電信網(wǎng)絡(luò)
網(wǎng)通主機:接入光纖為網(wǎng)通網(wǎng)絡(luò)
鐵通主機:接入光纖為鐵通網(wǎng)絡(luò)
雙線主機:能實現(xiàn)電信和網(wǎng)通網(wǎng)絡(luò)自動切換
多線主機:能實現(xiàn)多種接入線路自行切換
按網(wǎng)站使用地域劃分:
大致分為兩類,一是國內(nèi)空間,二是國外空間或叫境外空間。
由于國家對網(wǎng)站備案的要求,凡是使用大陸服務(wù)器及空間的網(wǎng)站必須到工信部辦理網(wǎng)站備案,否則不予接入。介于各種原因吧,有些單位或個人無法按正常流程辦理網(wǎng)站備案,但又有網(wǎng)站接入的現(xiàn)實需求,于是就出現(xiàn)了免備案空間,即國外空間,也叫境外空間。以香港、韓國、美國空間為多,因為這些區(qū)域?qū)W(wǎng)站接入沒有硬性規(guī)定,于是就變成了我們現(xiàn)實中稱之為免備案的網(wǎng)站空間了。
、什么是爬蟲?
它是指向網(wǎng)站發(fā)起請求,獲取資源后分析并提取有用數(shù)據(jù)的程序;
爬蟲的步驟:
1、發(fā)起請求
使用http庫向目標(biāo)站點發(fā)起請求,即發(fā)送一個Request
Request包含:請求頭、請求體等
2、獲取響應(yīng)內(nèi)容
如果服務(wù)器能正常響應(yīng),則會得到一個Response
Response包含:html,json,圖片,視頻等
3、解析內(nèi)容
解析html數(shù)據(jù):正則表達(dá)式(RE模塊),第三方解析庫如Beautifulsoup,pyquery等
解析json數(shù)據(jù):json模塊
解析二進(jìn)制數(shù)據(jù):以wb的方式寫入文件
4、保存數(shù)據(jù)
數(shù)據(jù)庫(MySQL,Mongdb、Redis)文件
二、本次選擇爬蟲的數(shù)據(jù)來源于鏈家,因為本人打算搬家,想觀察一下近期的鏈家租房數(shù)據(jù)情況,所以就直接爬取了鏈家數(shù)據(jù),相關(guān)的代碼如下:
from bs4 import BeautifulSoup as bs
from requests.exceptions import RequestException
import requests
import re
from DBUtils import DBUtils
def main(response): #web頁面數(shù)據(jù)提取與入庫操作
html = bs(response.text, 'lxml')
for data in html.find_all(name='div',attrs={"class":"content__list--item--main"}):
try:
print(data)
Community_name = data.find(name="a", target="_blank").get_text(strip=True)
name=str(Community_name).split(" ")[0]
sizes=str(Community_name).split(" ")[1]
forward=str(Community_name).split(" ")[2]
flood = data.find(name="span",class_="hide").get_text(strip=True)
flood=str(flood).replace(" ","").replace("/","")
sqrt= re.compile("\d\d+㎡")
area=str(data.find(text=sqrt)).replace(" ","")
maintance=data.find(name="span",class_="content__list--item--time oneline").get_text(strip=True)
maintance=str(maintance)
price=data.find(name="span",class_="content__list--item-price").get_text(strip=True)
price=str(price)
print(name,sizes,forward,flood,maintance,price)
insertsql = "INSERT INTO test_log.`information`(Community_name,size,forward,area,flood,maintance,price) VALUES " \
"('"+name+"','"+sizes+"','"+forward+"','"+area+"','"+flood+"','"+maintance+"','"+price+"');"
insert_sql(insertsql)
except:
print("have an error!!!")
def insert_sql(sql): #數(shù)據(jù)入庫操作
dbconn=DBUtils("test6")
dbconn.dbExcute(sql)
def get_one_page(urls): #獲取web頁面數(shù)據(jù)
try:
headers = {"Host": "bj.lianjia.com",
"Connection": "keep-alive",
"Cache-Control": "max-age=0",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"Sec-Fetch-Site": "none",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-User": "?1",
"Sec-Fetch-Dest": "document",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Cookie": "lianjia_uuid=fa1c2e0b-792f-4a41-b48e-78531bf89136; _smt_uid=5cfdde9d.cbae95b; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2216b3fad98fc1d1-088a8824f73cc4-e353165-2710825-16b3fad98fd354%22%2C%22%24device_id%22%3A%2216b3fad98fc1d1-088a8824f73cc4-e353165-2710825-16b3fad98fd354%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E8%87%AA%E7%84%B6%E6%90%9C%E7%B4%A2%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22https%3A%2F%2Fwww.baidu.com%2Flink%22%2C%22%24latest_referrer_host%22%3A%22www.baidu.com%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC%22%7D%7D; _ga=GA1.2.1891741852.1560141471; UM_distinctid=17167f490cb566-06c7739db4a69e-4313f6b-100200-17167f490cca1e; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1588171341; lianjia_token=2.003c978d834648dbbc2d3aa4b226145cd7; select_city=110000; lianjia_ssid=fc20dfa1-6afb-4407-9552-2c4e7aeb73ce; CNZZDATA1253477573=1893541433-1588166864-https%253A%252F%252Fwww.baidu.com%252F%7C1591157903; CNZZDATA1254525948=1166058117-1588166331-https%253A%252F%252Fwww.baidu.com%252F%7C1591154084; CNZZDATA1255633284=1721522838-1588166351-https%253A%252F%252Fwww.baidu.com%252F%7C1591158264; CNZZDATA1255604082=135728258-1588168974-https%253A%252F%252Fwww.baidu.com%252F%7C1591153053; _jzqa=1.2934504416856578000.1560141469.1588171337.1591158227.3; _jzqc=1; _jzqckmp=1; _jzqy=1.1588171337.1591158227.1.jzqsr=baidu.-; _qzjc=1; _gid=GA1.2.1223269239.1591158230; _qzja=1.1313673973.1560141469311.1588171337488.1591158227148.1591158227148.1591158233268.0.0.0.7.3; _qzjto=2.1.0; srcid=eyJ0Ijoie1wiZGF0YVwiOlwiMThmMWQwZTY0MGNiNTliNTI5OTNlNGYxZWY0ZjRmMmM3ODVhMTU3ODNhNjMwODhlZjlhMGM2MTJlMDFiY2JiN2I4OTBkODA0M2Q0YTM0YzIyMWE0YzIwOTBkODczNTQwNzM0NTc1NjBlM2EyYTc3NmYwOWQ3OWQ4OWJjM2UwYzAwY2RjMTk3MTMwNzYwZDRkZTc2ODY0OTY0NTA5YmIxOWIzZWQyMWUzZDE3ZjhmOGJmMGNmOGYyMTMxZTI1MzIxMGI4NzhjNjYwOGUyNjc3ZTgxZjA2YzUzYzE4ZjJmODhmMTA1ZGVhOTMyZTRlOTcxNmNiNzllMWViMThmNjNkZTJiMTcyN2E0YzlkODMwZWIzNmVhZTQ4ZWExY2QwNjZmZWEzNjcxMjBmYWRmYjgxMDY1ZDlkYTFhMDZiOGIwMjI2NTg1ZGU4NTQyODBjODFmYTUyYzI0NDg5MjRlNWI0N1wiLFwia2V5X2lkXCI6XCIxXCIsXCJzaWduXCI6XCI2Yzk3M2U5M1wifSIsInIiOiJodHRwczovL2JqLmxpYW5qaWEuY29tL2RpdGllenVmYW5nL2xpNDY0NjExNzkvcnQyMDA2MDAwMDAwMDFsMSIsIm9zIjoid2ViIiwidiI6IjAuMSJ9"}
response = requests.get(url=urls, headers=headers)
main(response)
except RequestException:
return None
if __name__=="__main__":
for i in range(64): #遍歷翻頁
if(i==0):
urls = "https://bj.lianjia.com/ditiezufang/li46461179/rt200600000001l1/"
get_one_page(urls)
else:
urls = "https://bj.lianjia.com/ditiezufang/li46461179/rt200600000001l1/".replace("rt","pg"+str(i))
get_one_page(urls)
說明:本代碼中使用了《Python之mysql實戰(zhàn)》的那篇文章,請注意結(jié)合著一起來看。
三、以下是獲取到的數(shù)據(jù)入庫后的結(jié)果圖
結(jié)論:爬蟲是獲取數(shù)據(jù)的重要方式之一,我們需要掌握多種方式去獲取數(shù)據(jù)。機器學(xué)習(xí)是基于數(shù)據(jù)的學(xué)習(xí),我們需要為機器學(xué)習(xí)做好數(shù)據(jù)的準(zhǔn)備,大家一起加油!
*請認(rèn)真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。