于平行網(wǎng)頁尋源,前面我們對(duì)其做了一些最基本的介紹,包括什么是平行網(wǎng)頁、怎么去尋找平行網(wǎng)頁。
我們知道,平行網(wǎng)頁找到了,任務(wù)已經(jīng)完成一半了,剩下的任務(wù)你只需要把分站間的內(nèi)容互譯頁面找出來提交即可,看似簡單,其實(shí)這一步難度還是比較大的,平臺(tái)要求3對(duì)互譯頁面,并且只要有一對(duì)不滿足互譯頁面的要求,平臺(tái)也不會(huì)采納,我們前期做的工作都將功虧一簣。
也許你會(huì)說可以使用語言翻譯工具,看下頁面是否是互譯的,在我看來,這也有些不太現(xiàn)實(shí),做過平行網(wǎng)頁尋源任務(wù)的同學(xué)知道,平行網(wǎng)頁要求的語言有很多,比如西班牙語、俄語、越南語、葡萄牙語、法語、土耳其等語言,這么多語言如何去翻譯,并且任務(wù)的數(shù)量是一定的,每個(gè)任務(wù)也有一定時(shí)間的限制,很顯然,使用翻譯工具不是一個(gè)好辦法。那我們是否有其他辦法呢?
今天,我們就聊這個(gè)話題。找到平行網(wǎng)頁后,如何快速找到分站間的內(nèi)容互譯頁面?
其實(shí),瀏覽器在打開網(wǎng)頁后,我們是有辦法查看到此網(wǎng)頁的源代碼的,例如:Apple 的主站https://www.apple.com/, 使用 Google Chrome 瀏覽器打開,在頁面上點(diǎn)擊右鍵,會(huì)彈出一個(gè)對(duì)話框,可以看到“查看網(wǎng)頁源代碼”一項(xiàng)。
點(diǎn)擊會(huì)重新彈出一個(gè)頁面,這個(gè)頁面就是 https://www.apple.com/ 主站的源代碼了。
仔細(xì)看下這個(gè)網(wǎng)頁的源代碼,不難發(fā)現(xiàn),這些信息非常有助于我們?nèi)ゴ_定網(wǎng)頁的內(nèi)容是否是互譯的。現(xiàn)在,以 Apple 的中國主站與西班牙主站為例,來介紹如何通過網(wǎng)頁源碼來初步定位頁面內(nèi)容是否是互譯的。
Apple 中國分站的源碼片段:
Apple 西班牙分站的源碼片段:
對(duì)比這兩個(gè)分站,紅色方框的內(nèi)容,我們會(huì)注意到有一個(gè)關(guān)鍵字 href, HTML 語法中較常見,其屬性值可以是任何有效文檔的相對(duì)或絕對(duì)的 URL,換句話說href 后面的值指向的是另一個(gè)站點(diǎn),分別點(diǎn)擊 href 后面的值 ”cn/mac”, ” es/mac”, 我們會(huì)看到重新彈出兩個(gè)網(wǎng)頁。
大致看下頁面,盡管我們不懂西班牙語,但是從圖片以及顯示的內(nèi)容看,這就是一對(duì)標(biāo)準(zhǔn)的互譯頁面。
同時(shí),從 href 后面的值”cn/mac”, ” es/mac”, 也能夠發(fā)現(xiàn),cn, es 后面緊跟的 “mac”, 這個(gè)鏈接下面的內(nèi)容大概率是跟 mac 內(nèi)容強(qiáng)相關(guān), 也能夠初步判斷這兩個(gè)鏈接下面的內(nèi)容是互譯的。
所以,從上面的描述看, 快速找到分站間的內(nèi)容互譯頁面可以簡單概括為如下幾個(gè)步驟:
(1) 確定網(wǎng)頁主站對(duì)應(yīng)的分站;
(2) 使用 Google Chrome 瀏覽器打開分站,查看分站的源代碼;
(3) 搜索關(guān)鍵字 href, 找到其后面的屬性值,并點(diǎn)擊打開其對(duì)應(yīng)的鏈接;
(4) 對(duì)打開的鏈接網(wǎng)頁內(nèi)容進(jìn)行查看,確定是否是互譯頁面;
作者簡介:一個(gè)專注于記錄互聯(lián)網(wǎng)兼職 任務(wù)的學(xué)生,公眾號(hào)《做點(diǎn)事吧》,歡迎關(guān)注。
今年國慶假期終于可以憋在家里了不用出門了,不用出去看后腦了,真的是一種享受。這么好的光陰怎么浪費(fèi),睡覺、吃飯、打豆豆這怎么可能(耍多了也煩),完全不符合我們程序員的作風(fēng),趕緊起來把文章寫完。
這篇文章比較基礎(chǔ),在國慶期間的業(yè)余時(shí)間寫的,這幾天又完善了下,力求把更多的前端所涉及到的關(guān)于文件上傳的各種場(chǎng)景和應(yīng)用都涵蓋了,若有疏漏和問題還請(qǐng)留言斧正和補(bǔ)充。
以下是本文所涉及到的知識(shí)點(diǎn),break or continue ?
原理很簡單,就是根據(jù) http 協(xié)議的規(guī)范和定義,完成請(qǐng)求消息體的封裝和消息體的解析,然后將二進(jìn)制內(nèi)容保存到文件。
我們都知道如果要上傳一個(gè)文件,需要把 form 標(biāo)簽的enctype設(shè)置為multipart/form-data,同時(shí)method必須為post方法。
那么multipart/form-data表示什么呢?
multipart互聯(lián)網(wǎng)上的混合資源,就是資源由多種元素組成,form-data表示可以使用HTML Forms 和 POST 方法上傳文件,具體的定義可以參考RFC 7578。
multipart/form-data 結(jié)構(gòu)
看下 http 請(qǐng)求的消息體
Content-Type: multipart/form-data; boundary=----WebKitFormBoundaryDCntfiXcSkPhS4PN 表示本次請(qǐng)求要上傳文件,其中boundary表示分隔符,如果要上傳多個(gè)表單項(xiàng),就要使用boundary分割,每個(gè)表單項(xiàng)由———XXX開始,以———XXX結(jié)尾。
每一個(gè)表單項(xiàng)又由Content-Type和Content-Disposition組成。
Content-Disposition: form-data 為固定值,表示一個(gè)表單元素,name 表示表單元素的 名稱,回車換行后面就是name的值,如果是上傳文件就是文件的二進(jìn)制內(nèi)容。
Content-Type:表示當(dāng)前的內(nèi)容的 MIME 類型,是圖片還是文本還是二進(jìn)制數(shù)據(jù)。
解析
客戶端發(fā)送請(qǐng)求到服務(wù)器后,服務(wù)器會(huì)收到請(qǐng)求的消息體,然后對(duì)消息體進(jìn)行解析,解析出哪是普通表單哪些是附件。
可能大家馬上能想到通過正則或者字符串處理分割出內(nèi)容,不過這樣是行不通的,二進(jìn)制buffer轉(zhuǎn)化為string,對(duì)字符串進(jìn)行截取后,其索引和字符串是不一致的,所以結(jié)果就不會(huì)正確,除非上傳的就是字符串。
不過一般情況下不需要自行解析,目前已經(jīng)有很成熟的三方庫可以使用。
至于如何解析,這個(gè)也會(huì)占用很大篇幅,后面的文章在詳細(xì)說。
使用 form 表單上傳文件
在 ie時(shí)代,如果實(shí)現(xiàn)一個(gè)無刷新的文件上傳那可是費(fèi)老勁了,大部分都是用 iframe 來實(shí)現(xiàn)局部刷新或者使用 flash 插件來搞定,在那個(gè)時(shí)代 ie 就是最好用的瀏覽器(別無選擇)。
DEMO
這種方式上傳文件,不需要 js ,而且沒有兼容問題,所有瀏覽器都支持,就是體驗(yàn)很差,導(dǎo)致頁面刷新,頁面其他數(shù)據(jù)丟失。
HTML
<form method="post" action="http://localhost:8100" enctype="multipart/form-data">
選擇文件:
<input type="file" name="f1"/> input 必須設(shè)置 name 屬性,否則數(shù)據(jù)無法發(fā)送<br/>
<br/>
標(biāo)題:<input type="text" name="title"/><br/><br/><br/>
<button type="submit" id="btn-0">上 傳</button>
</form>
復(fù)制代碼
服務(wù)端文件的保存基于現(xiàn)有的庫koa-body結(jié)合 koa2實(shí)現(xiàn)服務(wù)端文件的保存和數(shù)據(jù)的返回。
在項(xiàng)目開發(fā)中,文件上傳本身和業(yè)務(wù)無關(guān),代碼基本上都可通用。
在這里我們使用koa-body庫來實(shí)現(xiàn)解析和文件的保存。
koa-body 會(huì)自動(dòng)保存文件到系統(tǒng)臨時(shí)目錄下,也可以指定保存的文件路徑。
然后在后續(xù)中間件內(nèi)得到已保存的文件的信息,再做二次處理。
NODE
/**
* 服務(wù)入口
*/
var http=require('http');
var koaStatic=require('koa-static');
var path=require('path');
var koaBody=require('koa-body');//文件保存庫
var fs=require('fs');
var Koa=require('koa2');
var app=new Koa();
var port=process.env.PORT || '8100';
var uploadHost=`http://localhost:${port}/uploads/`;
app.use(koaBody({
formidable: {
//設(shè)置文件的默認(rèn)保存目錄,不設(shè)置則保存在系統(tǒng)臨時(shí)目錄下 os
uploadDir: path.resolve(__dirname, '../static/uploads')
},
multipart: true // 開啟文件上傳,默認(rèn)是關(guān)閉
}));
//開啟靜態(tài)文件訪問
app.use(koaStatic(
path.resolve(__dirname, '../static')
));
//文件二次處理,修改名稱
app.use((ctx)=> {
var file=ctx.request.files.f1;//得道文件對(duì)象
var path=file.path;
var fname=file.name;//原文件名稱
var nextPath=path+fname;
if(file.size>0 && path){
//得到擴(kuò)展名
var extArr=fname.split('.');
var ext=extArr[extArr.length-1];
var nextPath=path+'.'+ext;
//重命名文件
fs.renameSync(path, nextPath);
}
//以 json 形式輸出上傳文件地址
ctx.body=`{
"fileUrl":"${uploadHost}${nextPath.slice(nextPath.lastIndexOf('/')+1)}"
}`;
});
/**
* http server
*/
var server=http.createServer(app.callback());
server.listen(port);
console.log('demo1 server start ...... ');
復(fù)制代碼
CODE
https://github.com/Bigerfe/fe-learn-code/
么是HTML / HTM文件?他們相差一個(gè)字母有什么區(qū)別嗎,如何查看或編輯源代碼以及如何轉(zhuǎn)換成其他格式,例如DOCX,PDF,JPG 等,針對(duì)這些問題編程獅W3Cschool整理以下資料希望能對(duì)你有所幫助:
HTM / HTML 文件是超文本標(biāo)記語言(Hyper Text Markup Language)文件,是 Internet 上的標(biāo)準(zhǔn)網(wǎng)頁文件類型。
由于 HTM 文件是純文本文件,因此它們僅包含文本(例如您現(xiàn)在正在閱讀的內(nèi)容)以及對(duì)其他外部文件的文本引用(例如本文中的配圖)。
HTM 和 HTML 文件還可以引用其他文件,例如視頻,CSS 或 JS 文件。
HTM 與 HTML 沒有本質(zhì)意義的區(qū)別,只是為了滿足 DOS 僅能識(shí)別 8+3 的文件名而已,因?yàn)橐恍├系南到y(tǒng) (win32) 不能識(shí)別四位文件名,所以某些網(wǎng)頁服務(wù)器要求 index.html 最后一個(gè) l 不能省略。MSIE 能自動(dòng)識(shí)別和打開這些文件,但編寫網(wǎng)頁地址的時(shí)候必須是完全對(duì)應(yīng)的,也就是說 index.htm 和 index.html 是兩個(gè)不同的文件,對(duì)應(yīng)著不同的地址。值得一提的是 UNIX 系統(tǒng)中對(duì)大小寫敏感,不吻合的話就可能報(bào)沒有文件或者找不到文件。
任何 Web 瀏覽器,例如 Edge,F(xiàn)irefox,Chrome,Opera,IE,360 安全瀏覽器等,都可以打開并正確顯示 HTM 和 HTML 文件。換句話說,在瀏覽器中打開這些文件并“解碼(decode)” HTM 或 HTML 文件使其能正確顯示。
現(xiàn)在有很多簡化編輯和創(chuàng)建 HTM / HTML 文件的工具。一些著名的免費(fèi) HTML 編輯器包括 Eclipse ,Komodo Edit 和 Bluefish 。另一個(gè)流行的具有許多高級(jí)功能的 HTM / HTML 編輯器是 Adobe Dreamweaver ,不過它是收費(fèi)的。
雖然 Windows 系統(tǒng)自帶的記事本等簡單的文本編輯器的功能不如專用的 HTM 編輯器那么豐富,但是對(duì) HTM 或 HTML 文件進(jìn)行簡單編輯修改還是可以的。不過,W3Cschool還是建議大家使用專用的編輯器,如 WebStorm、VS Code 等,它具更多專業(yè)功能。
這是一個(gè)非常簡單的 HTML 頁面以文本形式顯示的示例:
源碼:
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>什么是HTM或HTML文件? - 編程獅(w3cschool.cn)</title>
</head>
<body>
<h1>什么是HTM或HTML文件?</h1>
<p>HTM / HTML 文件是超文本標(biāo)記語言(Hyper Text Markup Language)文件,是 Internet 上的標(biāo)準(zhǔn)網(wǎng)頁文件類型。</p>
<p>由于 HTM 文件是純文本文件,因此它們僅包含文本(例如您現(xiàn)在正在閱讀的內(nèi)容)以及對(duì)其他外部文件的文本*引用*(例如本文中的配圖)。</p>
<p>HTM 和 HTML 文件還可以引用其他文件,例如視頻,CSS 或 JS 文件。</p>
</body>
</html>
當(dāng) Web 瀏覽器呈現(xiàn)信息時(shí),HTML 文件的源代碼被“轉(zhuǎn)換”為真實(shí)的網(wǎng)頁(盡管源代碼已很精簡了)。
HTM 文件以特定的語法(規(guī)則)構(gòu)成,以使其中的代碼和文本在瀏覽器中打開時(shí)能夠正確顯示。因此,將 HTM / HTML 文件轉(zhuǎn)換為另一種格式可能會(huì)丟失頁面上的所有功能。
如果你想要做的是將一個(gè) HTM / HTML 文件轉(zhuǎn)換為方便離線查看的文件,這時(shí)圖片或 PDF 格式會(huì)方便很多。
在 Chrome 中,鼠標(biāo)右鍵單擊網(wǎng)頁,出現(xiàn)的選項(xiàng)菜單中進(jìn)入 “打印(P)...”(快捷鍵:CTRL + P) ,在打印選項(xiàng)中選擇另存為 PDF,以將窗口中的頁面轉(zhuǎn)換為 PDF 文件。Chrome 瀏覽器的擴(kuò)展功能也稱為“全屏截屏”,可將 Chrome 瀏覽器中所有打開的 HTM / HTML 文件轉(zhuǎn)換為 PNG 文件。
其他瀏覽器具有類似的功能,例如 Firefox 的 “另存為 PDF” 加載項(xiàng)。
您也可以使用專門用于 HTM / HTML 進(jìn)行圖像文件轉(zhuǎn)換的網(wǎng)站,例如iWeb2Shot 或Web-capture 。
一個(gè)免費(fèi)的文件轉(zhuǎn)換器可以用來轉(zhuǎn)換并保存 HTM / HTML 文件到您的計(jì)算機(jī)。如 FileZigZag 是一個(gè)免費(fèi)的文檔轉(zhuǎn)換器網(wǎng)站,可將 HTM 轉(zhuǎn)換為RTF,EPS,CSV,PDF 和許多其他格式。
HTM / HTML 文件不能轉(zhuǎn)換為文本文件格式以外的任何格式。例如,HTML 文件永遠(yuǎn)不能轉(zhuǎn)換為 MP3 音頻文件。
HTML / HTM 文件應(yīng)該很容易打開,因?yàn)樗鼈冎皇侨魏?Web 瀏覽器都可以查看的文本文件。如果您的文件沒有從上面建議的任何程序打開,則很有可能正在打開的這個(gè)文件并非超文本標(biāo)記語言文件。
某些文件格式使用的文件擴(kuò)展名與 HTML / HTM 非常相似,但實(shí)際上并非相同。一個(gè)主要的示例是用于壓縮 HTML 電子書文件的 HTMLZ 文件擴(kuò)展名。有 HTML 文件在內(nèi)的 HTMLZ 文件,但整個(gè)包的格式為 ZIP,不會(huì)在 Web 瀏覽器或文本編輯器打開。
在此示例中,您需要特定的 HTMLZ 文件查看器,例如Caliber 。或者,由于此文件格式實(shí)際上是存檔,因此您可以使用 7-Zip 之類的文件解壓縮器將其打開,然后您可以使用網(wǎng)絡(luò)瀏覽器或上述任何其他 HTML 查看器/編輯器打開任何單獨(dú)的 HTML 文件。
TMLANGUAGE 是另一個(gè)可能與 HTML / HTM 文件混淆的文件擴(kuò)展名。這些實(shí)際上是TextMate 用于 macOS 的 TextMate 語言語法文件。
以上就是編程獅W3Cschool為你整理的關(guān)于《什么是HTM或HTML文件?如何打開、編輯和轉(zhuǎn)換HTM和HTML文件?》的全部內(nèi)容,現(xiàn)希望可以幫到你~
*請(qǐng)認(rèn)真填寫需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。