整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          數據庫 之數據庫設計淺知識 -- 設計概述、概念結構設計(E-R模型概述)、邏輯結構設計(函數依賴和范式)、物理結構設計

          文章目錄

          1. 數據庫設計概述

          數據庫設計的目標是為用戶和各種應用系統提供一個信息基礎設施和高效率的運行環境

          1.1 數據庫設計的特點:結構和行為分離的設計

          在這里插入圖片描述

          1.2 數據庫設計方法

          典型方法

          新奧爾良(New Orleans)方法

          基于E-R模型的數據庫設計方法

          3NF(第三范式)的設計方法

          面向對象的數據庫設計方法

          統一建模語言(UML)方法

          1.3 數據庫設計的基本步驟

          在這里插入圖片描述

          數據庫概念設計的典型模型_典型的數據模型_典型模型庫概念數據設計方法

          1.4 數據庫設計過程中的各級模式

          在這里插入圖片描述

          2. 需求分析 2.1 需求分析的任務

          1、新系統必須充分考慮今后可能的擴充和改變

          2、獲得用戶對數據庫的要求

          (1)信息要求

          用戶需要從數據庫中獲得信息的內容與性質

          由信息要求可以導出數據要求,即在數據庫中需要存儲哪些數據

          (2)處理要求

          用戶要完成的處理功能

          對處理性能的要求

          (3)安全性與完整性要求

          2.2 需求分析的方法

          結構化分析方法( ,簡稱SA方法)

          SA方法從最上層的系統組織機構入手,采用自頂向下、逐層分解的方式分析系統

          需求分析過程:

          在這里插入圖片描述

          2.3 數據字典

          1、數據字典是關于數據庫中數據的描述,即元數據(不是數據本身),注意和關系數據庫管理系統中數據字典的區別和聯系(關系數據庫中的數據字典是數據庫的定義)

          2、數據字典的內容

          3、數據項描述={數據項名,數據項含義說明,別名,數據類型,長度,取值范圍,取值含義,與其他數據項的邏輯關系, 數據項之間的聯系}

          4、數據結構描述={數據結構名,含義說明,組成:{數據項或數據結構}}

          5、數據流描述={數據流名,說明,數據流來源,數據流去向,組成:{數據結構},平均流量,高峰期流量}

          6、數據存儲描述={數據存儲名,說明,編號,輸入的數據流 ,輸出的數據流, 組成:{數據結構},數據量,存取頻度,存取方式}

          7、處理過程描述={處理過程名,說明,輸入:{數據流}, 輸出:{數據流},處理:{簡要說明}}

          3. 概念結構設計(概念模式,E-R圖)

          概念結構設計:將用戶需求抽象為信息結構

          3.1 概念模型 3.2 E-R模型 1、實體之間的聯系

          (1)兩個實體型之間的聯系:

          ①一對一聯系(1∶1)

          ②一對多聯系(1∶n)

          ③多對多聯系(m∶n)

          (2)兩個以上的實體型之間的聯系

          一般地,兩個以上的實體型之間也存在著一對一、一對多、多對多聯系

          (3)單個實體型內的聯系

          同一個實體集內的各實體之間也可以存在一對一、一對多、多對多的聯系

          2、E-R 圖

          E-R圖提供了表示實體型、屬性和聯系的方法

          實體型:矩形

          屬性:橢圓

          典型的數據模型_數據庫概念設計的典型模型_典型模型庫概念數據設計方法

          聯系:菱形(聯系可以具有屬性)

          實例:某個工廠物資管理的概念模型

          在這里插入圖片描述

          在這里插入圖片描述

          在這里插入圖片描述

          3、實體與屬性的劃分原則

          為了簡化E-R圖的處置,現實世界的事物能作為屬性對待的,盡量作為屬性對待

          兩條準則:

          (1)作為屬性,不能再具有需要描述的性質。屬性必須是不可分的數據項,不能包含其他屬性

          (2)屬性不能與其他實體具有聯系,即E-R圖中所表示的聯系是實體之間的聯系

          實例分析:

          4、E-R 圖的集成

          1、兩步:合并 --> 修改和重構

          2、合并時主要有三類沖突:①屬性沖突 ②命名沖突 ③結構沖突

          屬性沖突:屬性域沖突,即屬性值的類型、取值范圍或取值集合不同;屬性取值單位沖突

          命名沖突:同名異義;異名同義;命名沖突

          結構沖突:同一對象在不同應用中具有不同的抽象(如在A處為實體,在B處為屬性);同一實體在不同子系統的E-R圖中所包含的屬性個數和屬性排列次序不完全相同;實體間的聯系在不同的E-R圖中為不同的類型(如在A處為一對多聯系,在B處為多對多聯系)

          3、合并時消除冗余的方法

          ①以數據字典和數據流圖為依據,根據數據字典中關于數據項之間邏輯關系的說明來消除冗余

          ②用規范化理論來消除冗余

          確定分E-R圖實體之間的數據依賴FL;然后求FL的最小覆蓋GL,差集為 D=FL-GL,逐一考察D中的函數依賴,確定是否是冗余的聯系,若是,就把它去掉

          4. 邏輯結構設計(邏輯模式、外模式)

          把基本E-R圖轉換為與選用數據庫管理系統產品所支持的數據模型相符合的邏輯結構

          4.1 E-R圖向關系模型的轉換

          關系模型的邏輯結構是一組關系模式的集合

          將E-R圖轉換為關系模型:將實體型、實體的屬性和實體型之間的聯系轉化為關系模式

          1、轉換原則

          (1)一個實體型轉換為一個關系模式

          關系的屬性:實體的屬性

          關系的碼:實體的碼

          (2)實體型間的聯系有以下不同情況

          4.2 數據模型的優化

          得到初步數據模型后,還應該適當地修改、調整數據模型的結構,以進一步提高數據庫應用系統的性能,這就是數據模型的優化

          優化數據模型的方法:

          (1)確定數據依賴

          (2)對于各個關系模式之間的數據依賴進行極小化處理,消除冗余的聯系

          (3)按照數據依賴的理論對關系模式進行分析,考察是否存在部分函數依賴、傳遞函數依賴、多值依賴等,確定各關系模式分別屬于第幾范式

          (4)按照需求分析階段得到的各種應用對數據處理的要求,分析對于這樣的應用環境這些模式是否合適,確定是否要對它們進行合并或分解(并不是規范化程度越高的關系就越優)

          (5)對關系模式進行必要分解,提高數據操作效率和存儲空間的利用率。常用分解方法:水平分解(把(基本)關系的元組分為若干子集合,定義每個子集合為一個子關系),垂直分解(把關系模式R的屬性分解為若干子集合,形成若干子關系模式)

          補充: 函數依賴和范式

          一、函數依賴

          1、部分函數依賴:設X,Y是關系R的兩個屬性集合,存在X→Y,若X’是X的真子集,存在X’→Y,則稱Y部分函數依賴于X。

          舉個例子:學生基本信息表R中(學號,身份證號,姓名)當然學號屬性取值是唯一的,在R關系中,(學號,身份證號)->(姓名),(學號)->(姓名),(身份證號)->(姓名);所以姓名部分函數依賴與(學號,身份證號);

          2、完全函數依賴:設X,Y是關系R的兩個屬性集合,X’是X的真子集,存在X→Y,但對每一個X’都有X’!→Y,則稱Y完全函數依賴于X。

          例子:學生基本信息表R(學號,班級,姓名)假設不同的班級學號有相同的,班級內學號不能相同,在R關系中,(學號,班級)->(姓名),但是(學號)->(姓名)不成立,(班級)->(姓名)不成立,所以姓名完全函數依賴與(學號,班級);

          3、傳遞函數依賴:設X,Y,Z是關系R中互不相同的屬性集合,存在X→Y(Y !→X),Y→Z,則稱Z傳遞函數依賴于X。

          例子:在關系R(學號 ,宿舍, 費用)中,(學號)->(宿舍),宿舍!=學號,(宿舍)->(費用),費用!=宿舍,所以符合傳遞函數的要求。

          4、平凡函數依賴:存在X→Y,且Y含于X,則稱X→Y是平凡的函數依賴(對于任一關系模式,平凡函數依賴都是必然成立的,它不反映新的語義)

          例子:(學號,課程號)→學號

          5、非平凡函數依賴:存在X→Y,但Y不含于X,則稱X→Y是非平凡的函數依賴

          例子:(學號,課程號)→成績

          6、多值依賴:設R(U)是一個屬性集合U上的一個關系模式,X, Y, 和Z是U的子集,并且Z=U-X-Y,多值依賴X→→Y成立當且僅當對R的任一個關系r,r在(X,Z)上的每個值對應一組Y的值,這組值僅僅決定于X值而與Z值無關。

          若X→→Y,而Z=空集,則稱X→→Y為平凡的多值依賴。否則,稱X→→Y為非平凡的多值依賴。

          (定義很繞~~腦闊疼)

          數據庫概念設計的典型模型_典型的數據模型_典型模型庫概念數據設計方法

          舉個例子,通俗理解一下:一個關系(課程C,教師T,參考書B),其中,課程確定教師且與參考書無關(即對于C的每一個值,T有 一組 值與之對應,而不論B取何值)

          教師T多值依賴于課程C

          二、范式 1 、第一范式(1NF) 在任何一個關系數據庫中,第一范式(1NF)是對關系模式的基本要求,不滿足第一范式(1NF)的數據庫就不是關系數據庫。 所謂第一范式(1NF)是指數據庫**表的每一列(即每個屬性)都是不可分割的基本數據項**,同一列中不能有多個值,即實體中的某個屬性不能有多個值或者不能有重復的屬性。簡而言之,第一范式就是無重復的列。 2、 第二范式(2NF) 第二范式(2NF)是在第一范式(1NF)的基礎上建立起來的,即滿足第二范式(2NF)必須先滿足第一范式(1NF)。第二范式(2NF)要求數據庫**表中的每個實例或行必須可以被唯一地區分**。為實現區分通常需要為表加上一個列,以存儲各個實例的唯一標識。員工信息表中加上了員工編號(emp_id)列,因為每個員工的員工編號是唯一的,因此每個員工可以被唯一區分。這個**唯一屬性列被稱為主關鍵字或主鍵、主碼**。 **第二范式(2NF)要求實體的屬性完全依賴于主關鍵字**。所謂完全依賴是指不能存在僅依賴主關鍵字一部分的屬性,如果存在,那么這個屬性和主關鍵字的這一部分應該分離出來形成一個新的實體,新實體與原實體之間是一對多的關系。為實現區分通常需要為表加上一個列,以存儲各個實例的唯一標識。簡而言之,第二范式就是非主屬性完全依賴于碼。 3 、第三范式(3NF) 滿足第三范式(3NF)必須先滿足第二范式(2NF)。在滿足第二范式的基礎上,且**不存在傳遞函數依賴**,那么就是第三范式。簡而言之,每一個非主屬性既不部分依賴于碼也不傳遞依賴于碼。 4、BC范式(BCNF) BCNF 在第三范式的基礎上,數據庫表中如果不存在任何字段對任一候選關鍵字段的傳遞函數依賴則符合第三范式。

          *所有非主屬性對每一個碼都是完全函數依賴;

          *所有的主屬性對于每一個不包含它的碼,也是完全函數依賴;

          *沒有任何屬性完全函數依賴于非碼的任何一組屬性

          >5、第四范式(4NF)

          設R是一個關系模型,D是R上的多值依賴集合。如果D中存在凡多值依>賴X->Y時,X必是R的超鍵,那么稱R是第四范式的模式。

          最后簡單的總結一下:

          1、第一范式(1NF):一個關系模式R的所有屬性都是不可分的基本數據項

          2、第二范式(2NF):關系模式R屬于第一范式,且每個非主屬性都完全函數依賴于鍵碼(簡單說 建立在第一范式基礎上,消除部分依賴)

          3、第三范式(3NF):關系模式R屬于第一范式,且每個非主屬性都不傳遞依賴于鍵碼(簡單說 建立在第二范式基礎上,消除傳遞依賴)

          4、 BC范式(BCNF):關系模式R屬于第一范式,且每個屬性都不傳遞依賴于R的候選鍵

          在這里插入圖片描述

          4.3 設計用戶子模式

          定義用戶外模式時應該更注重考慮用戶的習慣與方便。包括三個方面:

          (1)使用更符合用戶習慣的別名

          (2)針對不同級別的用戶定義不同的視圖,以保證系統的安全性

          (3)簡化用戶對系統的使用

          5. 物理結構設計(內模式)

          為一個給定的邏輯數據模型選取一個最適合應用要求的物理結構的過程,就是數據庫的物理設計。

          數據庫物理設計的步驟:

          (1)確定數據庫的物理結構:在關系數據庫中主要指存取方法和存儲結構

          (2)對物理結構進行評價:評價的重點是時間和空間效率

          5.2 關系模式存取方法選擇

          1、數據庫管理系統常用存取方法

          (1)B+樹索引存取方法

          (2)Hash索引存取方法

          (3)聚簇存取方法

          2、選擇索引存取方法的主要內容

          (1)對哪些屬性列建立索引

          (2)對哪些屬性列建立組合索引

          (3)對哪些索引要設計為唯一索引

          3、選擇索引存取方法的一般規則

          (1)一個(或一組)屬性經常在查詢條件中出現

          (2)一個屬性經常作為最大值和最小值等聚集函數的參數

          (3)一個(或一組)屬性經常在連接操作的連接條件中出現

          4、選擇Hash存取方法的規則

          如果一個關系的屬性主要出現在等值連接條件中或主要出現在等值比較選擇條件中,而且滿足下列兩個條件之一

          (1)該關系的大小可預知,而且不變

          (2)該關系的大小動態改變,但所選用的數據庫管理系統提供了動態Hash存取方法

          5、聚簇存取

          為了提高某個屬性(或屬性組)的查詢速度,把這個或這些屬性(稱為聚簇碼)上具有相同值的元組集中存放在連續的物理塊中稱為聚簇。該屬性(或屬性組)稱為聚簇碼

          (1)聚簇索引

          建立聚簇索引后,基表中數據也需要按指定的聚簇屬性值的升序或降序存放,在一個基本表上最多只能建立一個聚簇索引

          (2)聚簇存取方法

          5.3 確定數據庫的存儲結構

          確定數據庫物理結構主要指確定數據的存放位置和存儲結構

          基本原則:根據應用情況,將易變部分與穩定部分分開存放,將經常存取部分與存取頻率較低部分分開存放

          例如:可以將比較大的表分別放在兩個磁盤上,以加快存取速度,這在多用戶環境下特別有效;可以將日志文件與數據庫對象(表、索引等)放在不同的磁盤以改進系統的性能

          5.4 評價物理結構

          對數據庫物理設計過程中產生的多種方案進行評價,從中選擇一個較優的方案作為數據庫的物理結構

          評價方法:定量估算各種方案的存儲空間、存取時間、維護代價

          相關性分析的6種方法,不止卡方檢驗和線性相關系數哦

          從事質量行業的朋友一定經常需要對數據進行分析,這也是一項最基礎的技能。那么你知道幾種數據相關性分析的方法呢?

          做數據分析時,為了提煉觀點,相關性分析是必不可少,而且尤為重要的一個環節。但是,對于不同類型的數據,相關性分析的方法都各不相同。本文,主要按照不同的數據類型,來對各種相關性分析方法進行梳理總結。

          相關性分析是指對兩個或多個具備相關性的變量元素進行分析,相關性不等于因果性。

          一、離散與離散變量之間的相關性1、卡方檢驗

          卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬于非參數檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析。其根本思想就是在于比較理論頻數和實際頻數的吻合程度或擬合優度問題。

          它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

          常用的表示變量之間關系的方法有_變量之間關系的表示方法的特點_常用的表示變量之間關系的方法有

          (1)假設,多個變量之間不相關

          (2)根據假設計算得出每種情況的理論值,根據理論值與實際值的差別,計算得到卡方值 及 自由度

          df=(C-1)(R-1)

          變量之間關系的表示方法的特點_常用的表示變量之間關系的方法有_常用的表示變量之間關系的方法有

          (3)查卡方表,求p值

          卡方值越大,P值越小,變量相關的可能性越大,當P0時,表明 X與Y 正相關;

          當 cov(X, Y)

          當 cov(X, Y)=0時,表明X與Y不相關。

          協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。

          協方差通過數字衡量變量間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變量時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。

          2、線性相關系數

          也叫Pearson相關系數, 主要衡量兩個變量線性相關的程度。

          r=cov(X,Y)/(D(X)D(Y))

          常用的表示變量之間關系的方法有_常用的表示變量之間關系的方法有_變量之間關系的表示方法的特點

          相關系數是用協方差除以兩個隨機變量的標準差。相關系數的大小在-1和1之間變化。再也不會出現因為計量單位變化,而數值暴漲的情況了。

          線性相關系數必須建立在因變量與自變量是線性的關系基礎上,否則線性相關系數是無意義的。

          三、連續與離散變量之間的相關性1、連續變量離散化

          將連續變量離散化,然后,使用離散與離散變量相關性分析的方法來分析相關性。

          2、箱形圖

          使用畫箱形圖的方法,看離散變量取不同值,連續變量的均值與方差及取值分布情況。

          如果,離散變量取不同值,對應的連續變量的箱形圖差別不大,則說明,離散變量取不同值對連續變量的影響不大,相關性不高;反之,相關性高。

          -----文章轉自微信公眾號《品質人生質量開講》

          -----盈飛無限實時SPC軟件解決方案提供商。


          主站蜘蛛池模板: 麻豆精品人妻一区二区三区蜜桃| 亚洲国产AV一区二区三区四区 | 国内精品视频一区二区八戒| 国产在线精品一区二区高清不卡| 精品久久久久久无码中文字幕一区| 色妞色视频一区二区三区四区| 中文字幕亚洲一区二区三区| 国产成人高清精品一区二区三区| 人成精品视频三区二区一区 | 国产伦精品一区二区三区免费下载| 欧美日本精品一区二区三区| 国产一区二区三区小说| 精品国产一区二区三区无码| 日韩一区二区超清视频| 国产精品香蕉一区二区三区| 日韩一区二区视频| 日本一区中文字幕日本一二三区视频 | 国产成人一区二区三区| 午夜性色一区二区三区不卡视频| 免费精品一区二区三区在线观看 | 91久久精品一区二区| 国产精品一区二区久久| 无码日韩人妻av一区免费| 国产在线一区二区杨幂| 久久精品国产第一区二区| 亚洲欧洲∨国产一区二区三区| 性无码免费一区二区三区在线| 亚洲国产一区在线观看| 国产日产久久高清欧美一区| 国产伦精品一区二区三区在线观看| 精品国产一区二区三区久久蜜臀| 国产成人无码AV一区二区| 久久久精品人妻一区二区三区蜜桃 | 久久se精品一区二区| 亚洲色偷偷偷网站色偷一区| 成人免费视频一区| AV天堂午夜精品一区| 亚洲高清美女一区二区三区| 日韩在线视频不卡一区二区三区| 国产福利电影一区二区三区,亚洲国模精品一区 | 人妻无码久久一区二区三区免费|