寫在文章前:本系列文章用于博主自己歸納復習一些基礎知識,同時也分享給可能需要的人,因為水平有限,肯定存在諸多不足以及技術性錯誤,請大佬們及時指正。
11、存儲過程
存儲過程是事先經過編譯并存儲在數據庫中的一段SQL語句的集合。想要實現相應的功能時,只需要調用這個存儲過程就行了(類似于函數,輸入具有輸出參數)。
優點:
缺點:
Drop/Delete/的區別?
Delete用來刪除表的全部或者部分數據,執行delete之后,用戶需要提交之后才會執行,會觸發表上的DELETE觸發器(包含一個OLD的虛擬表,可以只讀訪問被刪除的數據),DELETE之后表結構還在,刪除很慢,一行一行地刪,因為會記錄日志,可以利用日志還原數據;
刪除表中的所有數據,這個操作不能回滾,也不會觸發這個表上的觸發器。操作比DELETE快很多(直接把表drop掉,再創建一個新表,刪除的數據不能找回)。如果表中有自增()列,則重置為1。
Drop命令從數據庫中刪除表,所有的數據行,索引和約束都會被刪除。不能回滾,不會觸發觸發器。
觸發器是什么?
觸發器(TRIGGER)是由事件(比如INSERT/UPDATE/DELETE)來觸發運行的操作(不能被直接調用,不能接收參數)。在數據庫里以獨立的對象存儲,用于保證數據完整性(比如可以檢驗或轉換數據)。
有哪些約束類型?
約束()類型:
12、視圖、游標
視圖:
? 從數據庫的基本表中通過查詢選取出來的數據組成的虛擬表(數據庫中只存放視圖的定義,而不存放視圖的數據)。可以對其進行增/刪/改/查等操作。視圖是對若干張基本表的引用,一張虛表,查詢語句執行的結果,不存儲具體的數據(基本表數據發生了改變,視圖也會跟著改變)。
可以跟基本表一樣,進行增刪改查操作(增刪改操作有條件限制,一般視圖只允許查詢操作),對視圖的增刪改也會影響原表的數據。它就像一個窗口,透過它可以看到數據庫中自己感興趣的數據并且操作它們。好處:
游標(Cursor):
? 用于定位在查詢返回的結果集的特定行,以對特定行進行操作。使用游標可以方便地對結果集進行移動遍歷,根據需要滾動或對瀏覽/修改任意行中的數據。主要用于交互式應用。它是一段私有的SQL工作區,也就是一段內存區域,用于暫時存放受SQL語句影響的數據,簡單來說,就是將受影響的數據暫時放到了一個內存區域的虛表當中,這個虛表就是游標。
? 游標是一種能從包括多條數據記錄的結果集中每次提取一條記錄的機制。即游標用來逐行讀取結果集。游標充當指針的作用。盡管游標能遍歷結果中的所有行,但他一次只指向一行。
? 游標的一個常見用途就是保存查詢結果,以便以后使用。游標的結果集是由SELECT語句產生,如果處理過程需要重復使用一個記錄集,那么創建一次游標而重復使用若干次,比重復查詢數據庫要快的多。通俗來說,游標就是能在sql的查詢結果中,顯示某一行(或某多行)數據,其查詢的結果不是數據表,而是已經查詢出來的結果集。
簡單來說:游標就是在查詢出的結果集中進行選擇性操作的工具。
13、SQL語句的優化
? 讓緩存更高效。對于連接查詢,如果其中一個表發生變化,那么整個查詢緩存就無法使用。而分解后的多個查詢,即使其中一個表發生變化,對其它表的查詢緩存依然可以使用。分解成多個單表查詢,這些單表查詢的緩存結果更可能被其它查詢使用到,從而減少冗余的查詢。減少鎖競爭。
14、索引
? 索引是對數據庫表中一列或多列的值進行排序的一種結構(說明是在列上建立的),使用索引可快速訪問數據庫表中的特定信息。如果想按特定職員的姓來查找他或她,則與在表中搜索所有的行相比,索引有助于更快地獲取信息。索引的一個主要目的就是加快檢索表中數據,亦即能協助信息搜索者盡快的找到符合限制條件的記錄ID的輔助數據結構。
? 當表中有大量記錄時,若要對表進行查詢,第一種搜索信息方式是全表搜索,是將所有記錄一一取出,和查詢條件進行一一對比,然后返回滿足條件的記錄,這樣做會消耗大量數據庫系統時間,并造成大量磁盤I/O操作。第二種就是在表中建立索引,然后在索引中找到符合查詢條件的索引值,最后通過保存在索引中的ROWID(相當于頁碼)快速找到表中對應的記錄。
例如這樣一個查詢:select * from table1 where id=10000。如果沒有索引,必須遍歷整個表,直到ID等于10000的這一行被找到為止。有了索引之后(必須是在ID這一列上建立的索引),即可在索引中查找。由于索引是經過某種算法優化過的,因而查找次數要少的多。可見,索引是用來定位的。
從應用上分,主鍵索引(聚集),唯一索引(聚集/非聚集),普通索引,組合索引,單列索引和全文索引
索引的優點:
索引的缺點:
索引失效的情況?
哪些地方適合創建索引?
創建索引需要注意的:
機器學習&深度學習資料匯總(含文檔,數據集,代碼等)(三)
介紹: 1)詞頻與其降序排序的關系,最著名的是語言學家齊夫(Zipf,1902-1950)1949年提出的Zipf‘s law,即二者成反比關系. 曼德勃羅(,1924- 2010)引入參數修正了對甚高頻和甚低頻詞的刻畫 2)Heaps' law: 詞匯表與語料規模的平方根(這是一個參數,英語0.4-0.6)成正比
介紹: Jürgen 在Reddit上的AMA(Ask Me )主題,有不少RNN和AI、ML的干貨內容,關于開源&思想&方法&建議……耐心閱讀,相信你也會受益匪淺.
介紹: 成G上T的學術數據,HN近期熱議話題,主題涉及機器學習、NLP、SNA等。下載最簡單的方法,通過BT軟件,RSS訂閱各集合即可
介紹: Scikit-Learn官網提供,在原有的Cheat Sheet基礎上加上了Scikit-Learn相關文檔的鏈接,方便瀏覽
介紹: 深度學習的全面硬件指南,從GPU到RAM、CPU、SSD、PCIe
介紹: paper & data
介紹: 【神經科學碰撞人工智能】在臉部識別上你我都是專家,即使細微的差別也能辨認。研究已證明人類和靈長類動物在面部加工上不同于其他物種,人類使用梭狀回面孔區(FFA)。Khaligh-Razavi等通過計算機模擬出人臉識別的FFA活動,堪稱神經科學與人工智能的完美結合。
介紹: 神經網絡C++教程,本文介紹了用可調節梯度下降和可調節動量法設計和編碼經典BP神經網絡,網絡經過訓練可以做出驚人和美妙的東西出來。此外作者博客的其他文章也很不錯。
介紹:官網提供的實際應用場景NN選擇參考表,列舉了一些典型問題建議使用的神經網絡。
介紹:一個深度學習項目,提供了Python, C/C++, Java, Scala, Go多個版本的代碼
介紹:深度學習教程,github
介紹:自然語言處理的發展趨勢——訪卡內基梅隆大學愛德華·霍威教授.
介紹:Google對 的有力回擊—— FaceNet,在LFW(Labeled Faces in the Wild)上達到99.63%準確率(新紀錄),FaceNet 可用于人臉識別、鑒別和聚類.
介紹:本文來自公司網站的一篇博客文章,由Joseph Bradley和Manish Amde撰寫,文章主要介紹了Random Forests和-Boosted Trees(GBTs)算法和他們在MLlib中的分布式實現,以及展示一些簡單的例子并建議該從何處上手.中文版.
介紹:華盛頓大學Pedro 團隊的DNN,提供論文和實現代碼.
介紹:基于神經網絡的自然語言依存關系解析器(已集成至 CoreNLP),特點是超快、準確,目前可處理中英文語料,基于《A Fast and Parser Using Neural 》思路實現.
介紹:本文根據神經網絡的發展歷程,詳細講解神經網絡語言模型在各個階段的形式,其中的模型包含NNLM[Bengio,2003]、 NNLM[Bengio, 2005], Log-[Hinton, 2007],SENNA等重要變形,總結的特別好.
介紹:經典問題的新研究:利用文本和可讀性特征分類垃圾郵件。
介紹:Kaggle腦控計算機交互(BCI)競賽優勝方案源碼及文檔,包括完整的數據處理流程,是學習Python數據處理和Kaggle經典參賽框架的絕佳實例
介紹:IPOL(在線圖像處理)是圖像處理和圖像分析的研究期刊,每篇文章都包含一個算法及相應的代碼、Demo和實驗文檔。文本和源碼是經過了同行評審的。IPOL是開放的科學和可重復的研究期刊。我一直想做點類似的工作,拉近產品和技術之間的距離.
介紹:出自MIT,研究加密數據高效分類問題.
介紹:新加坡LV實驗室的神經網絡并行框架Purine: A bi-graph based deep ,支持構建各種并行的架構,在多機多卡,同步更新參數的情況下基本達到線性加速。12塊Titan 20小時可以完成的訓練。
介紹:這是一個機器學習資源庫,雖然比較少.但蚊子再小也是肉.有突出部分.此外還有一個由zheng Rui整理的機器學習資源.
介紹:Chase Davis在NICAR15上的主題報告材料,用Scikit-Learn做監督學習的入門例子.
介紹:這是一本自然語言處理的詞典,從1998年開始到目前積累了成千上萬的專業詞語解釋,如果你是一位剛入門的朋友.可以借這本詞典讓自己成長更快.
介紹:通過分析1930年至今的比賽數據,用計算世界杯參賽球隊排行榜.
介紹:R語言教程,此外還推薦一個R語言教程An to R.
介紹:經典老文,復雜網絡社區發現的高效算法,Gephi中的[ ](The Louvain method for in large )即基于此.
介紹: 一個面向 .net 的開源機器學習庫,github地址
介紹: 支持node.js的JS神經網絡庫,可在客戶端瀏覽器中運行,支持LSTM等github地址
介紹: 決策樹
介紹: 討論深度學習自動編碼器如何有效應對維數災難,國內翻譯
介紹: CMU的優化與隨機方法課程,由A. Smola和S. Sra主講,優化理論是機器學習的基石,值得深入學習國內云(視頻)
介紹: "面向視覺識別的CNN"課程設計報告集錦.近百篇,內容涉及圖像識別應用的各個方面
介紹:用Spark的MLlib+GraphX做大規模LDA主題抽取.
介紹: 基于深度學習的多標簽分類,用基于RBM的DBN解決多標簽分類(特征)問題
介紹: 論文集錦
介紹: 一個開源語音識別工具包,它目前托管在上面
介紹: 免費電子書《數據新聞手冊》, 國內有熱心的朋友翻譯了中文版,大家也可以在線閱讀
介紹: 零售領域的數據挖掘文章.
介紹: 深度學習卷積概念詳解,深入淺出.
介紹: 非常強大的Python的數據分析工具包.
介紹: 2015文本分析(商業)應用綜述.
介紹: 深度學習框架、庫調研及Theano的初步測試體會報告.
介紹: MIT的Yoshua Bengio, Ian , Aaron 著等人講深度學習的新書,還未定稿,線上提供Draft 收集反饋,超贊!強烈推薦.
介紹: Python下開源可持久化樸素貝葉斯分類庫.
介紹:Paracel is a for machine , graph and in C++.
介紹: 開源漢語言處理包.
介紹: 使用Ruby實現簡單的神經網絡例子.
介紹:神經網絡黑客入門.
介紹:好多數據科學家名人推薦,還有資料.
介紹:實現項目已經開源在github上面Crepe
介紹:作者發現,經過調參,傳統的方法也能和取得差不多的效果。另外,無論作者怎么試,GloVe都比不過.
介紹:深度學習與自然語言處理課程,Richard Socher主講.
介紹:機器學習中的重要數學概念.
介紹:用于改進語義表示的樹型LSTM遞歸神經網絡,句子級相關性判斷和情感分類效果很好.實現代碼.
介紹:卡耐基梅隆Ryan 和Larry 開設的機器學習課程,先修課程為機器學習(10-715)和中級統計學(36-705),聚焦統計理論和方法在機器學習領域應用.
介紹:《哈佛大學蒙特卡洛方法與隨機優化課程》是哈佛應用數學研究生課程,由V Kaynig-Fittkau、P 主講,Python程序示例,對貝葉斯推理感興趣的朋友一定要看看,提供授課視頻及課上IPN講義.
介紹:生物醫學的SPARK大數據應用.并且伯克利開源了他們的big data 系統ADAM,其他的內容可以關注一下官方主頁.
介紹:對自然語言處理技術或者機器翻譯技術感興趣的親們,請在提出自己牛逼到無以倫比的idea(自動歸納翻譯規律、自動理解語境、自動識別語義等等)之前,請通過谷歌學術簡單搜一下,如果谷歌不可用,這個網址有這個領域幾大頂會的論文列表,切不可斷章取義,胡亂假設.
介紹:論文+代碼:基于集成方法的Twitter情感分類,實現代碼.
介紹:NIPS CiML 2014的PPT,NIPS是神經信息處理系統進展大會的英文簡稱.
介紹:斯坦福的深度學習課程的 每個人都要寫一個論文級別的報告 里面有一些很有意思的應用 大家可以看看 .
介紹:R語言線性回歸多方案速度比較具體方案包括lm()、nls()、glm()、()、nls()、mle2()、optim()和Stan’s ()等.
介紹:文中提到的三篇論文(機器學習那些事、無監督聚類綜述、監督分類綜述)都很經典,的機器學習課也很精彩
介紹:萊斯大學(Rice )的深度學習的概率理論.
介紹:基于馬爾可夫鏈自動生成啤酒評論的開源Twitter機器人,github地址.
介紹:視頻+講義:深度學習用于自然語言處理教程(NAACL13).
介紹:用機器學習做數據分析,David Taylor最近在McGill 研討會上的報告,還提供了一系列講機器學習方法的ipn,很有價值GitHub.國內
介紹:基于CNN+LSTM的視頻分類,google演示.
介紹:Quora怎么用機器學習.
介紹:亞馬遜在機器學習上面的一些應用,代碼示例.
介紹:并行機器學習指南(基于scikit-learn和IPython).
介紹:的機器學習基本概念教學.
介紹:一個基于OpenGL實現的卷積神經網絡,支持Linux及Windows系統.
介紹:基于Mahout和的推薦系統.
介紹:Francis X. Diebold的《(經濟|商業|金融等領域)預測方法.
介紹:Francis X. Diebold的《時序計量經濟學》.
介紹:基于Yelp數據集的開源情感分析工具比較,評測覆蓋Naive Bayes、、CoreNLP等 .
介紹:國內Pattern And Machine 讀書會資源匯總,各章pdf講稿,博客.
介紹:用于Web分析和數據挖掘的概率數據結構.
介紹:機器學習在導航上面的應用.
介紹:Neural 系列視頻,Stephen Welch制作,純手繪風格,淺顯易懂,國內云.
介紹:{swirl}數據訓練營:R&數據科學在線交互教程.
介紹:關于深度學習和RNN的討論 to with Neural .
介紹:Deep .
介紹:()Scikit-Learn機器學習教程, Machine with scikit-learn and IPython.
介紹:PDNN: A Python Toolkit for Deep .
介紹:15年春季學期CMU的機器學習課程,由Alex Smola主講,提供講義及授課視頻,很不錯.國內鏡像.
介紹:大數據處理課.內容覆蓋流處理、、圖算法等.
介紹:用Spark MLlib實現易用可擴展的機器學習,國內鏡像.
介紹:以往上千行代碼概率編程(語言)實現只需50行.
介紹:ggplot2速查小冊子,另外一個,此外還推薦《A new data for R: dplyr, , tidyr, ggplot2》.
介紹:用結構化模型來預測實時股票行情.
介紹:國際人工智能聯合會議錄取論文列表,大部分論文可使用Google找到.
介紹:一般矩陣乘法(GEMM)對深度學習的重要性.
介紹:A of awesome Machine C++ .
介紹:免費電子書,第一版(1998),第二版(2015草稿),相關課程資料, .
介紹:免費書:Azure ML使用精要.
介紹:A Deep : From to Deep .
介紹:有趣的機器學習:最簡明入門指南,中文版.
介紹:深度學習簡明介紹,中文版.
介紹:, and machine .
介紹:CNN開源實現橫向評測,參評框架包括Caffe 、Torch-7、CuDNN 、 、fbfft、Nervana Systems等,表現突出.
介紹:卡耐基梅隆大學計算機學院語言技術系的資源大全,包括大量的NLP開源軟件工具包,基礎數據集,論文集,數據挖掘教程,機器學習資源.
介紹:Twitter情感分析工具,視頻+講義.
介紹:華盛頓大學的Machine Paper .
介紹:機器學習速查表.
介紹:最新的Spark summit會議資料.
介紹:最新的Spark summit會議資料.
介紹:Ebook Spark.
介紹:Ebook with Spark, Early Release Edition.
介紹:清華大學副教授,是圖挖掘方面的專家。他主持設計和實現的是國內領先的圖挖掘系統,該系統也是多個會議的支持商.
介紹:遷移學習的國際領軍人物.
介紹:在半監督學習,multi-label學習和集成學習方面在國際上有一定的影響力.
介紹:信息檢索,自然語言處理,機器翻譯方面的專家.
介紹:吳軍博士是當前Google中日韓文搜索算法的主要設計者。在Google其間,他領導了許多研發項目,包括許多與中文相關的產品和自然語言處理的項目,他的新個人主頁.
介紹:喵星人相關論文集.
介紹:如何評價機器學習模型系列文章,How to Machine Models, Part 2a: Metrics,How to Machine Models, Part 2b: Ranking and Metrics.
介紹:Twitter新trends的基本實現框架.
介紹:Storm手冊,國內有中文翻譯版本,謝謝作者.
介紹:Java機器學習算法庫.
介紹:機器翻譯學術論文寫作方法和技巧,Simon Peyton Jones的How to write a good paper同類視頻How to Write a Great Paper,how to paper talk.
介紹:神經網絡訓練中的Tricks之高效BP,博主的其他博客也挺精彩的.
介紹:作者是NLP方向的碩士,短短幾年內研究成果頗豐,推薦新入門的朋友閱讀.
介紹:UCLA的Jens 根據Google Scholar建立了一個計算機領域的H-index牛人列表,我們熟悉的各個領域的大牛絕大多數都在榜上,包括1位諾貝爾獎得主,35位圖靈獎得主,近百位美國工程院/科學院院士,300多位ACM Fellow,在這里推薦的原因是大家可以在google通過搜索牛人的名字來獲取更多的資源,這份資料很寶貴.
介紹:用大型語料庫學習概念的層次關系,如鳥是鸚鵡的上級,鸚鵡是虎皮鸚鵡的上級。創新性在于模型構造,用因子圖刻畫概念之間依存關系,因引入兄弟關系,圖有環,所以用有環擴散(loopy )迭代計算邊際概率( ).
介紹: 這是一款貝葉斯分析的商業軟件,官方寫的貝葉斯分析的手冊有250多頁,雖然R語言 已經有類似的項目,但畢竟可以增加一個可選項.
PS. 目前極市擁有上千名視覺算法開發者,分別來自騰訊,華為,百度,網易,聯想,努比亞等名企,以及北大,清華,北航,中科院,交大等名校,歡迎從業者加入極市專業CV開發者微信群,請填寫下表申請入群~
*請認真填寫需求信息,我們會在24小時內與您取得聯系。