常,我們使用Python 在文本中進(jìn)行關(guān)鍵詞查找或替換時,會使用 re 模塊以正則的形式實現(xiàn)。在文本數(shù)量、文本內(nèi)容、關(guān)鍵詞數(shù)量較小時,該方法能夠滿足我們程序的功能、性能需要。但當(dāng)在大規(guī)模的文本或者對大量關(guān)鍵詞語料查找或者替換,re 實現(xiàn)方案的性能將成為瓶頸,本文我們將介紹一種新的關(guān)鍵詞搜索和替換的算法:Flashtext 算法,它是一個高效的字符搜索和替換算法。
有多高效呢?如下,是通過隨機(jī)生方式生成10000個單詞組成的文本,我們分別在該文本中查找由 0, 500, 1000, 5000, 10000, 50000, 100000, 200000, 400000 個關(guān)鍵詞組成的關(guān)鍵詞庫,我們來感受一下兩者的性能差異:
我們發(fā)現(xiàn)隨著關(guān)鍵詞查詢數(shù)量的增加,F(xiàn)lashtext 與 re 的時間消耗存在百倍乃至千倍以上的差異 。
為何存在這么大的差異呢?Flashtext 算法的時間復(fù)雜度不依賴于查找或替換的字符的數(shù)量。如,對于一個文檔有 N 個字符,和一個有 M 個詞的關(guān)鍵詞庫,那么時間復(fù)雜度就是 O(N) 。而正則匹配的時間復(fù)雜度是 O(M * N) 。這也是兩者在性能上的差異隨著關(guān)鍵詞數(shù)量增多而拉大的原因。
因此,在一些大數(shù)據(jù)下的內(nèi)容檢索和替換,我們更傾向于選擇 Flashtext 算法 ,比如,自然語言處理領(lǐng)域中數(shù)據(jù)清洗是一項必須的操作。經(jīng)常涉及使用標(biāo)準(zhǔn)的關(guān)鍵詞替換一些非標(biāo)準(zhǔn)的詞,如,將Javascript替換成JavaScript。或者我們需要判斷文本中是否存在JavaScript 關(guān)鍵詞等等。
接下來,就讓我們了解一下,如何使用Flashtext 實現(xiàn)關(guān)鍵詞的查找和替換。
Flashtext 算法主要分為三部分,我們接下來將對每一部分進(jìn)行單獨(dú)分析:
構(gòu)建 Trie 字典 (這部分不理解不影響我們使用Flashtext )
Flashtext 是一種基于 Trie 字典數(shù)據(jù)結(jié)構(gòu)和 Aho Corasick 的算法。它的工作方式是,首先它將所有相關(guān)的關(guān)鍵詞作為輸入,使用這些關(guān)鍵詞建立一個 trie 字典。
為了構(gòu)建 trie 字典,F(xiàn)lashtext 創(chuàng)建一個空的節(jié)點(diǎn)指向空字典。這個節(jié)點(diǎn)被用作所有關(guān)鍵詞的起點(diǎn)。我們在字典中插入一個關(guān)鍵詞。這個關(guān)鍵詞中的下一個字符在本字典中作為關(guān)鍵詞,并且這個指針需要再次指向一個空字典。這個過程不斷重復(fù),直到我們達(dá)到單詞中的最后一個字符。當(dāng)我們到達(dá)單詞的末尾時,我們插入一個特殊的字符(eot)來表示詞尾,如下:
start 和 eot 是兩個特殊的字符,用來定義關(guān)鍵詞的邊界,因此,也可知 Flashtext 只匹配完整的單詞,這個 trie 字典就是我們后面要用來搜索和替換的數(shù)據(jù)結(jié)構(gòu)。
我們舉一個簡單的例子,假設(shè)我們有一個包含3個單詞的句子 “I like Python”,和一個有4個關(guān)鍵詞的語料庫 corpus = [Python,Java,J2ee,Ruby]。
Flashtext 算法將對于句子中的每一個單詞,檢查其是否在語料庫中出現(xiàn),如下:
如果句子 N 個單詞,意味著需要做 N 次的循環(huán)操作。在這個例子中所需的時間步取決于句子中的單詞數(shù)。
如上,因為將文本中的每個字符串進(jìn)行匹配,由于這是一個字符匹配過程,因為 start 并沒有和 l 相連,因此可以快速的跳過的I、like的匹配,這使得跳過缺失單詞的過程變得非常快。
因此,F(xiàn)lashText 算法不受 corpus 中關(guān)鍵詞數(shù)量的影響。
使用 Flashtext 進(jìn)行搜索
我們對輸入文本中的字符進(jìn)行逐個遍歷,當(dāng)我們在文檔中的字符 word 匹配到字典中的 <start>word<eot> 時,則認(rèn)為這是一個完整匹配。我們將匹配到的字符序列所對應(yīng)的標(biāo)準(zhǔn)關(guān)鍵詞進(jìn)行輸出,具體如下:
代碼示例如下:
使用 Flashtext 進(jìn)行替換
Flashtext 對輸入文本中的字符進(jìn)行逐個遍歷,F(xiàn)lashtext 先創(chuàng)建一個空的字符串,當(dāng)字符序列中的 word 無法在 Trie 字典中找到匹配時,那么Flashtext 就簡單的原始字符復(fù)制到返回字符串中。但當(dāng)Flashtext 可以從 Trie 字典中找到匹配時,那么Flashtext 將把匹配到的字符的標(biāo)準(zhǔn)字符復(fù)制到返回字符串中。因此,返回字符串是輸入字符串的一個副本,唯一的不同是替換了匹配到的字符序列,具體如下:
代碼示例如下:
性能比對
在本文開始,我們首先介紹了使用 re模塊與 flashtext 模塊在不同數(shù)量的關(guān)鍵詞語料庫下,兩者的耗時情況差異,具體性能比對實現(xiàn)的源碼如下:
輸出結(jié)果:
add_keyword
添加關(guān)鍵詞。
語法
參數(shù)
示例
天要講的主題是歐洲小站點(diǎn)關(guān)鍵詞的查找。很多人覺得不懂小站點(diǎn)語言,一個字“難”,看也看不懂,翻譯起來也很麻煩,索性直接放棄了小站點(diǎn)這幾塊肥肉,或者直接的用英文谷歌翻譯上架,可是結(jié)果證明這樣的效果并不好。
據(jù)了解,在過去三年中,德國在亞馬遜全球市場中的比重不斷上漲,成為了繼美國之后亞馬遜的第二大市場。亞馬遜每年在德國的銷售額達(dá)到了120億美元,其中包括AWS服務(wù)銷售額。隨著市場比重上升,亞馬遜應(yīng)該會進(jìn)一步加大對德國的投資。在法國,亞馬遜是法國唯一一個受到半數(shù)以上消費(fèi)者歡迎的網(wǎng)站,它也是法國十大電商里唯一一個非本地企業(yè)。西班牙、意大利站點(diǎn)也讓很多賣家都嘗到了甜頭。
今天講的重點(diǎn)是小站的標(biāo)題和關(guān)鍵詞的查找,其實查找方法和英文站點(diǎn)的查找方式差不多,但是小站點(diǎn)需要查找要更耐心更細(xì)心,它們的不同之處就在于以下幾個方面:
對于不懂小站點(diǎn)市場語言的運(yùn)營人員,google翻譯是不能少的,在不懂語言的情況下,我們還是要善于利用翻譯工具Google翻譯。但這里有個誤區(qū),一開始大家都喜歡把一句句長句直接Copy去翻譯,這樣的效果是很差的,而且很多都翻譯不了,直接翻譯成了英文或者是不認(rèn)識的字符,這樣的話還不如直接英文的上架呢。
那我們該怎么做呢?
1.先要明確你的產(chǎn)品有哪些英文的表達(dá)方式,然后輸入到谷歌翻譯搜索框。翻譯出來的詞放到亞馬遜搜索框去檢索,通過亞馬遜前臺搜索量及展現(xiàn)的產(chǎn)品判斷,展現(xiàn)量越高,且產(chǎn)品是相似的,說明這個詞是一個比較精準(zhǔn)的詞匯。譬如說shower curtain,德語翻譯為Duschvorhang, Waterproof shower curtain,德語谷歌翻譯的是Wasserdicht Duschvorhang。
2. 通過標(biāo)題尋找關(guān)鍵詞。
比如我們輸入Duschvorhang會發(fā)現(xiàn)有很多詞語一直反復(fù)性的出現(xiàn),把這些詞提取出來,Duschvorh?nge,Badezimmer,Vorhang,Anti-Schimmel,antibakteriell,Duschvorh?nge, Duschvorhangringe,duschvorhang waschbar等等,通過標(biāo)題和亞馬遜搜索的下拉框,利用自動提示下拉框的詞匯幫我們整合一些關(guān)鍵詞短語,如下:
duschvorhang anti schimmel
duschvorhang antibakteriell
Waschbar duschvorhang
duschvorhang badewanne
duschvorhang badezimmer
duschvorhang für badewanne
Duschvorhangringe für Badezimmer
duschvorhang robust
Wasserabweisend Duschvorh?nge
duschvorhang wasserabweisend
Duschvorhang 180 x 180
Duschvorhang 180 x 200
duschvorhang anti schimmel waschbar
Duschvorh?nge Badewannenvorhang
3. 對于精細(xì)化上架的產(chǎn)品,我一直強(qiáng)調(diào)的當(dāng)?shù)氐恼Z言,那我們也可以從review比較多的listing中查詢關(guān)鍵詞。認(rèn)真查看Q&A和review界面,不僅能讓我們查找關(guān)鍵詞,更能直接的了解客戶關(guān)心的點(diǎn),譬如是尺寸,是否掉色,柔軟度,是否防水,是不是金屬扣。把客戶關(guān)心的點(diǎn)直接放入到我們的五點(diǎn)詳情中,打消買家的顧慮,提高訂單轉(zhuǎn)化率。
比如Anti-Schimmel, Vorh?nge, Duschvorhangringe Duschvorhang Wasser abweisend 等等
4. 對于FBA的產(chǎn)品,不僅僅是在亞馬遜的平臺上,我都要求自己去其他的小站點(diǎn)平臺多去研究關(guān)鍵詞,如
Ebay:http://www.ebay.de
http://www.amz123.com/亞馬遜賣家之家,很多亞馬遜的導(dǎo)航。
Wannenvorhang,
Badewannenvorhang
Badevorhang
Wannenvorhang
5. 當(dāng)然缺少不了關(guān)鍵詞工具,這里也推薦給大家
http://www.keywordtooldominator.com/k/amazon-keyword-tool這個不錯,而且小站點(diǎn)詞匯也比較多,但每天只能有三次機(jī)會。
https://www.scientificseller.com/zh/
www.scientificseller.com
https://app.wordtracker.com/
6.如果產(chǎn)品的展現(xiàn)量不高,優(yōu)化的時候我們也可以嘗試去站外找關(guān)鍵詞。
比如說facebook以及http://www.dragon-guide.net/,龍之向?qū)I(yè)收錄世界各個國家的外貿(mào)B2B網(wǎng)站、國際商業(yè)黃頁等各種優(yōu)秀的外貿(mào)網(wǎng)站及電子商務(wù)平臺,提供簡單便捷的外貿(mào)導(dǎo)航服務(wù),可用于找關(guān)鍵詞等等。
7.大家不要忘了,英文的核心關(guān)鍵詞也要寫在關(guān)鍵詞欄里,可以提高展現(xiàn)量,很多小站點(diǎn)客戶也常常用英語來搜索產(chǎn)品。
如:shower curtain
Waterproof show curtain
Show curtain for bathroom
當(dāng)然,每個人的思路和方法都不同,能夠多出單才是關(guān)鍵。希望以上的方法能對大家有幫助,祝大家訂單多多,歐元也多多。(來源: CSS平臺)
以上內(nèi)容屬作者個人觀點(diǎn),不代表雨果網(wǎng)立場!如有侵權(quán),請聯(lián)系我們。
電商的人都希望自己的產(chǎn)品盡快的賣出去,既然要賣出去那首先得讓買家找到我們的產(chǎn)品,買家是怎么在平臺上找到我們的產(chǎn)品然后下單的呢?比較多的就是用詞匯搜索,然后找到需要的產(chǎn)品,那么這個搜索的詞匯就是對我們產(chǎn)品很重要的關(guān)鍵詞。下面就跟大家聊聊我在尋找產(chǎn)品關(guān)鍵詞的一些思路。
1.在平臺的搜索框中尋找關(guān)鍵詞
這是最常見的找到我們Listing的方式。關(guān)鍵詞的設(shè)置可以包含產(chǎn)品的屬性、材質(zhì)、特點(diǎn)、促銷信息等。賣家可以在亞馬遜搜索欄或者其他平臺查找和自己產(chǎn)品相關(guān)的最近的熱門關(guān)鍵詞,也可以在平臺的熱銷產(chǎn)品中尋找。
2.在競爭對手的Listing中尋找關(guān)鍵詞
當(dāng)你找到同款產(chǎn)品賣的比較好的競爭對手的Listing,細(xì)心的你一定會發(fā)現(xiàn)這個產(chǎn)品的另外的一種表達(dá)方式,那么說不定哪一個詞就會成為推的詞語。
這個只是在產(chǎn)品的標(biāo)題中尋找,其實還可以擴(kuò)展到對手的五點(diǎn)、長描述、Q&A和評論中尋找。
3.在廣告的中尋找關(guān)鍵詞
下面是手動廣告中的系統(tǒng)推薦詞匯:
其實我們還可以在建立的自動廣告的報告中的“Customer Search Terms
”找到客戶習(xí)慣搜索的詞匯。
4.分類中尋找關(guān)鍵詞
在前期大家千萬不要忽視這些類目詞匯,在新品引流中他們會起到一定的作用。
5.關(guān)鍵詞工具尋找關(guān)鍵詞
以下是常用的關(guān)鍵詞工具:
希望這些可以對大家有用!!!(來源: CSS平臺)
以上內(nèi)容屬作者個人觀點(diǎn),不代表雨果網(wǎng)立場!如有侵權(quán),請聯(lián)系我們。
有任何亞馬遜問題,請關(guān)注微信號【cifnewspayoneer】
更多跨境進(jìn)出口消息請點(diǎn)擊:雨果網(wǎng)-跨境電商智能服務(wù)平臺
*請認(rèn)真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。