品來啦!
福利也來啦!
點擊收聽
書香盒子創始人宇紅媽媽
與新品之間的趣事吧
Hello 各位書香媽媽們,轉眼就快要到新春啦,悄悄告訴你們,最近書香盒子市場團隊一直在為老用戶們“密謀”新年福利呢
!
第一彈驚喜福利,今天就要揭曉啦!
家有書香盒子兒童書架增高版的寶媽們,是不是心心念念想要充分利用好三下層的囤書層呢?這不,書香盒子經過半年的用心設計和反復打磨,與書香盒子兒童書架增高版相配套的新品終于要亮相啦!
而且,這次我們準備要為書香媽媽們送禮,只要參與本次【秀書架,贏新品】活動,就有機會免費獲得新品——書香盒子書架配套之繪本收納盒!包郵到家哦!
新品先睹為快
早在很久前,就收到很多媽媽的反饋:
書香盒子兒童書架真的很能裝,上三層展示書,下三層囤書,非常實用。不過如果有專用的配套收納盒就更好了。
從那時起,書香盒子就一直在為書架的配套收納作各種嘗試,從最開始的純手工編織筐,后來再推出環保布藝收納筐,滿足了很多媽媽們的需求。但是追求完美的書香盒子,總覺得沒有最好,只有更好。直到這款 繪本收納盒(馬卡龍系列) 被研發出來,我們內部所有的媽媽員工看到這款收納新品,都有同感:就是它了!
一個既能保持囤書干凈整潔,又通透方便找書,孩子自己就能輕松取書的書架配套收納盒,非它莫屬。
其實一個真正靈活方便的收納用品,
就是配套使用可以,
單獨使用也非常實用。
小編就是打算單獨使用,
特別節省空間,真心贊
常年囤書的人都知道,
假如沒有防塵措施,書放久了都會蒙塵。
有了收納盒,就可以有效防塵啦。
滑蓋門的設計是從孩子的角度來考慮的,
書籍本身就有重量,
如果還要翻箱倒柜地找書
孩子吃力,媽媽也費勁。
有了滑蓋門,告別取書煩惱。
材質的安全性,
永遠是書香盒子產品的最嚴把關。
書香盒子兒童書架增高版的完美搭檔,
書香盒子創始人宇紅媽媽家里已經用上啦!
自己用著好,才是真的好。
馬卡龍藍色調,清雅大方
?
馬卡龍粉色調,賞心悅目
?
書籍一目了然,拿放方便
?
SO,我們準備了50套(1套3個)繪本收納盒,
要送給一直支持信任書香盒子的媽媽們!
本文由書香盒子發布,原文來自:http://www.shuxianghezi.com/news/355.html
讀
2015年,美國官方解密了一系列有關本·拉登的文件,其中最引人矚目的,是美國國家情報總監辦公室在其官網上列出的“本·拉登的書架”。曝光的這份閱讀清單涉及書籍和其他材料400余種。
其中包含了已解密的書信等文檔103份、公開發表的美國政府文件75份等。本文關注的重點,是如何分析已經解密的103份書信等文檔。
——EarlGrey@編程派
在本文中,我們將學習如何分析PDF文檔,并且利用AlchemyAPI來進行實體抽取分析,看看本·拉登在這些信件中最常提到的10個實體是什么。
01
什么是AlchemyAPI?
AlchemyAPI是IBM旗下的一家公司,具有深度學習的自然語言處理和圖片識別技術,可利用人工智能分析理解網頁、文檔、電子郵件、微博等形式的內容。它還將同Google 一樣的神經網絡分析技術應用其中。
AlchemyAPI目前共提供了12個文本分析功能:實體抽取(entitiy extraction),情感分析,關鍵字抓取,概念標識,關系提取,分類識別,作者提取,語言識別,文本提取,微格式分析,訂閱內容識別,數據連接等。
接下來,我們開始進行準備工作。
本文中的代碼大部分來自automatingosint,我對源代碼進行更新。目前的腳本支持Python 3。
2
安裝依賴包
由于美國ODNI公開的本·拉登信件都是PDF格式的,因此我們首先必須要安裝能夠處理PDF文檔的Python包。這里,我使用的是PyPDF2。我們通過pip包管理器進行安裝:
pip install pypdf2
另外,你肯定不想一封一封地手動103封書信吧?!省時省力的辦法就是寫個腳本把這些文檔都爬取下來。由于要訪問網頁和解析網頁,我們選擇使用兩個常用的第三方庫:requests和BeautifulSoup 4:
pip install requests beautifulsoup4
3
獲取免費AlchemyAPI Key
AlchemyAPI有一個免費的基礎服務包,每天的事務處理上限為1000次。在本文中,我們將使用他們的實體抽取服務來執行文本分析。
獲取免費AlchemyAPI Key非常簡單,只需要填寫一個表單即可,輸入自己的郵箱地址。
申請處理完成之后,你就可以在郵箱中看到發送給你的API Key了。
4
安裝AlchemyAPI Python SDK
獲得API Key之后,我們可以通過AlchemyAPI提供的Python SDK和HTTP REST接口調用其提供的文本分析服務。在本文中,我們選擇安裝SDK的方式。
PyPI上之前有AlchemyAPI包,但是后來移除了下載包,因此我們不能使用pip來安裝,只能通過Git克隆Python SDK的代碼庫或是直接下載代碼庫:
git clone https://github.com/AlchemyAPI/alchemyapi_python.git
接下來,我們要把申請到的API Key與SDK關聯起來。打開終端,進入SDK文件夾,然后按下面的示例執行alchemyapi.py文件:
cd alchemyapi_python python alchemyapi.py YOUR_API_KEY
# 將YOUR_API_KEY替換成你收到的Key
為確保SDK正常安裝,可以按照提示運行example.py查看演示程序:
python example.py
如果最后出現了下圖的文字,就證明SDK安裝正確,API Key也可以使用。
5
下載文檔
然后就到了怎么自動將103份PDF文檔下載到本地了。
我們可以寫一個簡單的Python腳本來完成這項工作,但是我選擇把它封裝在download_bld_documents這個函數里,因為我想把所有的代碼都放在一個腳本里,這樣大家就可以直接運行這個腳本,等待一段時間,就可以看到最后的結果了。
這個函數寫的比較簡單,但是已經能夠滿足我們的需求了。
def download_bld_documents: """Download Bin Laden's Declassified documents from ODNI.""" import os
import time
import requests
from bs4 import BeautifulSoup
# 創建一個名為“pdfs”的文件夾,用于保存所有下載的PDF文檔。 try: os.mkdir("pdfs") except: pass
# 獲取ODNI網站上有關本·拉登書架的網頁,
# 將其交給Beautiful Soup,以進行HTML解析。 response = requests.get( "http://www.dni.gov/index.php/resources/bin-laden-bookshelf?start=1") if response.status_code == 200: html = BeautifulSoup(response.content) link_list =
# 從網頁中第54個超鏈接開始,我們遍歷所有的文檔鏈接,
# 僅保留那些我們所需要的鏈接:即含有“pdf”但不包含“Arabic”
# 字樣的鏈接。我們將滿足要求的鏈接保存到列表`link_list`中。 for i in html.findAll("a")[54:]: if "pdf" in i['href'] and "Arabic" not in i.text: link_list.append("http://www.odni.gov%s" % i['href'])
# 接下來,我們遍歷列表中所有的元素,
# 從原鏈接中獲取PDF的文件名,
#然后從ODNI網站下載相應的文檔。 for i in link_list: response = requests.get(i) file_name = i.split("/")[::-1][0] fd = open("pdfs/%s" % file_name, "wb") fd.write(response.content) fd.close time.sleep(1)
由于文件數量比較多,因此在最終執行腳本時,耗費在文件下載的時間可能會比較長。如果你從ODNI網站下載的速度非常慢,那么可以前往我的百度網盤下載,但是在最終執行時要對腳本做修改。只需要執行下文中的函數即可。
在微信號中,回復“laden”即可獲得分享鏈接及提取碼。
6
處理文檔
下面,我們就可以正式對下載的PDF文檔進行分析了。我們將要利用Alchemy API提供的強大工具,對這些PDF文檔進行實體抽取(entitiy extraction)分析。通過實體分析,我們可以了解本·拉登在這些信件和文件中,談到最多的人、地方或東西是什么。
所以,我們要一一打開這些PDF文件,從文檔中提取所有的文本,然后將其提交至Alchemy進行分析處理。在處理每一個文檔時,我們可以得到其中的實體數據,最后將所有文檔的分析數據結合在一起,就可以得到出現頻率最高的實體了。
我們將這部分代碼封裝在process_documents函數中:
def process_documents: """Process downloaded documents using AlchemyAPI.""" # 導入所需要的模塊,包括我們安裝的PyPDF2和AlchemyAPI。 import PyPDF2
import glob
import time
from collections import Counter
from alchemyapi import AlchemyAPI alchemyapi = AlchemyAPI # 初始化AlchemyAPI。 file_list = glob.glob("pdfs/*.pdf")
# 通過`glob`模塊獲取我們下載的所有PDF文件的文件名。 entities = {}
# 我們要使用`entities`字典來保存每個PDF文檔的分析結果。 # 下面的for循環將遍歷所有的PDF文件 for pdf_file in file_list: # read in the PDF print("[*] Parsing %s" % pdf_file) # 初始化一個PyPDF2對象,用于保存從PDF文檔中提取的文本數據 pdf_obj = PyPDF2.PdfFileReader(open(pdf_file, "rb")) # 創建一個空字符串,用于后續構建這個PDF的全部文本數據 full_text = "" # 從每頁中提取文本數據 for page in pdf_obj.pages: full_text += page.extractText # 接下來我們使用Alchemy API進行實體抽取 print("[*] Sending %d bytes to the Alchemy API" % len(full_text)) # 調用AlchemyAPI,并明確我們提交的是文本數據(第一個參數)
# 然后傳入需要分析的文本,第三個參數代表禁用情感分析功能,
# 因為本文中我們只關注頻率最??的實體。 response = alchemyapi.entities('text', full_text, {'sentiment': 0}) if response['status'] == 'OK': # 遍歷返回的全部實體數據。
# Alchemy返回的每個實體中,都包含有`count`數據,
# 我們要確保在`entities`字典中,將所有相同實體的count相加 for entity in response['entities']: # add each entity to our master list if entity['text'] in entities: entities[entity['text']] += int(entity['count']) else: entities[entity['text']] = int(entity['count']) print("[*] Retrieved %d entities from %s" % (len(entities), pdf_file)) else: print("[!] Error receiving Alchemy response: %s" % response['statusInfo']) time.sleep(1) # 上面的循環執行結束,我們可以統計最常見的實體,
# 并把相關的結果打印出來了! entity_counter = Counter(entities) top_entities = entity_counter.most_common # 接下來就開始打印本·拉登提到次數最多的實體吧! for top_entity in top_entities[0:10]: # most_common returns a tuple (entity,count) print("%s => %d" % (top_entity[0], top_entity[1]))
微信閱讀代碼不方便的話,請點擊閱讀原文。
上面函數的最后,我們使用了Counter類來加載entities字典,并且很容易地就得出了最常見的實體。
7
快速執行數據分析
最后執行腳本時,一定要注意:要把腳本放在alchemyapi_python這個文件夾里。這是因為AlchemyAPI SDK并沒有在Python的PATH上。
為了讓大家少復制粘貼,我已經把相關的操作寫在一個bash腳本里。大家下載腳本后修改API KEY即可。
curl https://raw.githubusercontent.com/bingjin/funscripts/master/laden/bld.sh --output bld.sh sh bld.sh
上圖就是正在執行的腳本。想不想看看最終的分析結果?
我直接告訴你們就太沒趣了,大家可以運行腳本自己看,等待的同時可以品嘗一杯咖啡。當然,劇透也是有的:伊斯蘭教先知穆罕默德居然才排第七!
你分析的結果是怎樣的,留言告訴大家本·拉登提到次數最多的三個實體吧!
9
結語
本文中僅使用了AlchemyAPI的實體提取功能,其他諸如關鍵詞分析、情感分析、圖像分析等功能都沒有涉及。大家可以在本文的基礎上,進一步發揮自己的想象力,看看還能從本·拉登的書架中得到什么信息。
...
Python核心開發者:print為什么從語句變成了函數?
月17日,在安徽博物院文物科技保護中心紙質文物修復室,工作人員對古籍文物進行補全。新華社記者周牧攝
新華社記者劉亢、蔣芳
歷經13年辛苦編撰,《江蘇歷代方志全書》近日在南京首發。這一全國體量最大的省域舊志整理工程,是我國對古籍保護利用重視程度不斷提升的縮影。
習近平總書記不久前在中國人民大學考察時強調,要運用現代科技手段加強古籍典藏的保護修復和綜合利用,深入挖掘古籍蘊含的哲學思想、人文精神、價值理念、道德規范,推動中華優秀傳統文化創造性轉化、創新性發展。
今年以來,“加強文物古籍保護利用和非物質文化遺產保護傳承”首次被寫入政府工作報告,中共中央辦公廳、國務院辦公廳還印發了《關于推進新時代古籍工作的意見》。新華社記者近期在多地調研,探尋古籍保護利用在新時代如何溫“故”知“新”。
讓沉寂的典籍“動”起來
走進陜西師范大學圖書館古籍閱覽室,香樟木的味道讓人寧心靜氣。打開書柜,一冊冊線裝書籍排列整齊。
如今,借助數字化技術,隨時隨地查閱古籍早已不是難事。2016年9月,“中華古籍資源庫”開通運行,累計發布古籍及特藏數字資源10萬部(件),查閱近乎“零門檻”。
2021年以來,陜西師范大學歷史文化學院研發了中文古籍光學字符識別(OCR)系統,點校整理古籍的效率大幅提高。
“從卷帙浩繁的古籍中找資料耗時耗力,最大程度發揮文獻價值,數字化工作還要加快。”陜師大圖書館館長沙武田教授說。
技術賦能,珍貴的不可再生文物不僅可以永駐云端,甚至可以“七十二變”。
一幅橫向流動的《千里江山圖》上,標注了“涑水”“濂溪”“玉山”等地名,數百個衣袂飄飄的儒生正在“趕路”。他們從一地挪到另一地的軌跡,代表其求學歷程和所屬學派。這是北京大學可視化與可視計算實驗室學生馬源等向首屆“北京大學數字人文作品展”提交的展品——用JavaScript完成的H5習作,取名為“宋元學案傳承可視化系統”。
“如果不是專業研究,幾乎沒人會有興趣翻閱《宋元學案》這樣的大部頭。我們想通過類游戲界面,吸引年輕人了解古籍。”馬源說。
技術賦能,古籍不僅能像游戲一樣動起來,更能讓研究者如虎添翼。
打開浙江大學“智慧古籍平臺”,點擊文中的陌生地名,地理定位立即跳出;點擊年號、干支等傳統紀年,對應的現代公歷日期立即換算;遇到古代官職、典故及疑難詞語,后臺工具書隨即關聯、顯示。
“智能技術支持下的古典文獻研究,是未來古籍研究的重要方向之一。有助于培養跨學科人才,推動學術成果轉化為大眾共享的文化資源。”浙江大學中國古代文學與文化研究所徐永明教授介紹說。
讓冷門絕學“熱”出圈
紀錄片《但是還有書籍》的熱播,帶火了南京圖書館的沈燮元老先生——一位99歲高齡,仍然每天要工作八九個小時的古籍版本目錄學家。面對突如其來的“人氣”,老先生一時還頗難適應。
沈燮元曾是《中國古籍善本目錄》的子部主編,也是慧眼如炬的版本鑒定專家。在南圖幾十年,沈燮元采購數千種古籍善本,“鎮館之寶”十大珍品古籍中有兩部都是他買回的。
如今,這位九旬老翁,仍在爭分奪秒。不久前,沈燮元完成了八十多萬字的《士禮居題跋》,這本書囊括了他從世界各地搜集到的800多個書影,以及新發現的數十則“黃跋”。接下來,他還要整理黃丕烈詩文集和年譜。
近年來,許多古籍研究者的事跡“火”起來。東巴文化研究院院長李德靜搶救翻譯并整理東巴古籍;國家圖書館的古籍修復專家杜偉生等人修復《永樂大典》;浙江大學敦煌學研究中心主任張涌泉將分散于世界各地的敦煌碎片殘卷進行拼接、綴合。越來越多的年輕人也在抖音、B站等社交平臺,圍繞這些古籍展開二次創作,讓冷門題材有了“破圈”的熱度。
作為沈燮元的后輩,南圖的年輕人也在創新。從2020年暑假起,該館歷史文獻部館員韓超、史星宇,把清代《隨園食單》里的文字“翻譯”成一道道活色生香的菜肴,梨炒雞、豬里肉、蔣侍郎豆腐等等,吸引人們在線“催更”。
“吃貨眼中的古籍別有魅力。”史星宇說,例如,南宋時期以菜蔬食譜為主的《山家清供》,適宜當下的輕食愛好者;清代《食憲鴻秘》中的食譜側重養生,適合當下愛泡枸杞的“養生咖”。
古籍經典正引發新的關注,激蕩著更多青年的靈感。
讓千年古籍“典”亮未來
今年4月,住房和城鄉建設部主辦的“中國傳統村落數字博物館”上線,其中“高遷數字記憶”項目受到關注。
浙江省臺州市仙居縣高遷村是中國歷史文化名村,歷代書香傳承。中國人民大學信息資源管理學院馮惠玲教授研究團隊挖掘散落的家譜和地方志,編纂了10個具有中國傳統價值觀念的故事,圍繞傳統村落文化精神采集多媒體,構建了一個古村落文化的數字化全景。
“從平面閱讀到數字空間閱讀,傳統文獻學也要進行數字轉型,借助各種媒介增強人們對文化的理解和感知。”中國人民大學數字人文教研室主任梁繼紅說。
面向未來,千年典藏承擔新使命,面臨新課題。
——培養更多跨界人才。
醫學著作《本草綱目》至今仍是中醫案頭必備,百科全書《天工開物》被翻譯成多種文字……中國古籍擁有龐大且復雜的知識體系,有豐富治理經驗,也包含中藥、養生、服飾、飲食等生活智慧。
“古籍研究、保護缺人才,更缺跨界人才。”北京大學古典文獻學專業學生杜怡然等人建議,加快整合相關學科資源,打破研究壁壘,培養古籍事業的綜合性人才。
——進一步打破資源封閉。
過去,不同典藏機構“井水不犯河水”。如今,古籍數字化、公共化不僅惠及社會,更能促進傳承。
徐永明希望“智慧古籍平臺”能改變古籍整理個體作業的范式,讓世界各地的專業人士在線合作。“《全明詩》《全明文》這樣浩大的工程,按傳統模式,我們這一代人很難看到它完成,利用眾包技術才有希望。”
——更大范圍共享。
近年來,一批散落海外的中國古籍實現數字化回歸。例如四川大學、中國國家圖書館、美國加州大學伯克利分校等機構合作開展“漢典重光”項目,首批即完成20萬頁古籍的數字化、公共化工作。
“不僅整理國故,而且古為今用,要讓更多中國古籍走進大眾視野,促進中華文化與世界文化交流互鑒。”陜西省古籍整理出版專家委員會主任周天游說。
來源: 新華每日電訊
*請認真填寫需求信息,我們會在24小時內與您取得聯系。