整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          PS Cloud Web模塊之部件屬性與輔助工具的介

          PS Cloud Web模塊之部件屬性與輔助工具的介紹

          潮ERP PS Cloud的屬性類似與普通對象的屬性。可以在對象上設置數據,但有個額外的功能:屬性值改變時將觸發事件。

          start:function(){

          this.widget=...

          this.widget.on("change:name",this,this.name_changed);

          this.widget.set("name","Nicolas");

          },

          name_changed:function(){

          console.log("The new value of the property'name'is",this.widget.get("name"));

          }

          Widget.set(name,value)方法設置某個屬性的值。如果該值改變(或以前沒有值),對象將觸發一個事件change:xxx。xxx是屬性名稱。

          接下來是部件的jQeruy選擇器:

          find()方法

          this.$el.find("input.my_input")

          $()方法

          this.$("input.my_input")

          說明:我們強烈建議你也不要使用,全局jQuery函數$()。這種全局選擇器滿足簡單應用,但在真正的大型web應用程序中不好。原因很簡單:當你創建一個新部件,你永遠不知道它會實例化多少次。由于$()全局函數是操作瀏覽器中的全部HTML,如果你實例化一個部件兩次,該函數會搞混兩個部件的個內容。這就是為什么,大部分時間里,你在定位部件里的HTML時,必須限制jQuery選擇器的選擇范圍。

          出于同樣的邏輯,你也可以猜測到,不能夠在部件里使用HTML id。如果widget被實例化的兩次,在應用程序里將有兩個相同id,但卻是不同的HTML元素的情況。而這本身就是一個錯誤。所以,在所有的情況下,你應該堅持使用用CSS類去標記HTML標簽。

          evExtreme Complete Subscription官方最新版免費下載試用,歷史版本下載,在線文檔和幫助文件下載-慧都網

          在v20.1版本更新時,官方技術團隊為DevExtreme的HTML/Markdown 編輯器提供了一個多行工具欄選項。使用時,HTML/Markdown 編輯器會根據可用空間寬度跨多行排列其工具欄項目,當用戶調整其網絡瀏覽器窗口的大小或更改為移動設備方向時,可以自動添加/刪除新行。

          配置

          您可以通過新的toolbar.multiline選項啟用或禁用編輯器的多行工具欄模式:

          {
          toolbar: {
          multiline: true
          }
          }

          注意:默認啟用此新模式,因為它提高了整體可用性。 如果您想回滾到舊的溢出菜單模式,只需將 toolbar.multiline 選項設置為“false”。

          進一步增強

          官方技術團隊已改進工具欄組配置和相關操作,引入簡化的配置API,并允許您將分組的項目一起移動到新行。

          DevExtreme

          DevExtreme擁有高性能的HTML5 / JavaScript小部件集合,使您可以利用現代Web開發堆棧(包括React,Angular,ASP.NET Core,jQuery,Knockout等)構建交互式的Web應用程序。從Angular和Reac,到ASP.NET Core或Vue,DevExtreme包含全面的高性能和響應式UI小部件集合,可在傳統Web和下一代移動應用程序中使用。 該套件附帶功能齊全的數據網格、交互式圖表小部件、數據編輯器等。

          概述

          本文主要是針對UIS一體機硬件設備出現故障時,更換硬件方法的配置指導。主要包括更換網卡、硬盤等部件的操作方法。

          1.1 適用范圍及注意事項

          使用本文檔時,請關注如下事項。

          · 本文檔中所述操作均存在一定風險,可能會損壞已有環境。因此本文檔僅適用于H3C服務工程師以及具備相應資質和技術水平的工程師。

          · 本文檔主要介紹集群節點部件更換過程中軟件側的相關操作,具體的硬件安裝拆卸方法請參見對應服務器機型的用戶指南。

          · 由于產品版本升級或其他原因,本文檔內容會不定期進行更新,如需獲取最新版本,請聯系技術支持。

          · 由于產品版本升級或其他原因,產品界面和功能參數可能會變化,請以產品的實際支持情況為準。

          · 根據本文檔執行部件更換操作前,建議先參考《H3C UIS超融合管理平臺 巡檢配置指導》手冊,對現場進行巡檢并記錄相關信息。

          · 進行某些部件更換時(如CPU、主板和網卡),可能會使設備的硬件信息變更,從而導致產品的授權失效。請聯系技術支持提交授權變更申請,更改授權綁定的硬件設備信息。

          · 本文檔中介紹的陣列卡相關操作方法僅適用于H3C服務器,其他品牌服務器的陣列卡操作方法請聯系相應廠家獲取。

          1.2 部件更換工具列表

          表1 部件更換工具列表



          圖示


          名稱

          說明






          T25 Torx星型螺絲刀


          用于智能掛耳上的松不脫螺釘(一字螺絲刀也可用于該螺釘)

          T30 Torx星型螺絲刀

          用于CPU散熱器上的松不脫螺釘




          T15 Torx星型螺絲刀(隨服務器發貨)




          用于CPU主板上的固定螺釘等


          T10 Torx星型螺絲刀(隨服務器發貨)

          用于拆卸智能掛耳固定螺釘等

          一字螺絲刀

          用于更換系統電池等

          十字螺絲刀

          用于硬盤支架的固定螺釘等




          防靜電腕帶

          用于操作服務器時使用




          防靜電手套




          防靜電服

          1.3 部件更換注意事項

          更換部件時,請注意如下事項:

          · 更換部件時,優先使用同構部件,即新舊部件BOM相同,型號規格完全相同。僅當無法獲取到同構部件時,聯系技術支持使用異構部件進行更換。

          · 部件更換是在已有可靠性基礎上進行部件更換,如果現有的可靠性機制無法保證業務無損,則建議提前預警。

          · 在進行更換硬件操作時,嚴禁從UIS系統中刪除主機。

          2 更換熱插拔部件

          UIS支持換盤向導功能,支持的軟件版本、一體機型號和操作步驟可參考2.1章節。支持換盤向導時,“節點管理”頁面有<更換硬盤>按鈕,不支持時,則無該按鈕。


          · 如果使用UIS 2000 G3系列一體機,硬盤更換的方法請參考《H3C UIS 2000 G3系列超融合一體機操作配置指導》手冊中的“UIS2000 G3 故障盤監測及更換”章節。

          · 不支持換盤向導的版本或一體機型號,請參考2.2-2.5章節進行硬盤更換。

          2.1 使用換盤向導更換硬盤

          某些服務器(如R4900,其他支持在線更換硬盤的主機型號請參考兼容性列表)安裝了E0716P03及之后版本的UIS軟件時支持使用換盤向導更換磁盤,除主機型號外,磁盤需滿足下列要求。如果需要更換NVMe緩存盤,需要先正常關機后更換硬盤,再在換盤向導中進行更換操作。

          表2 更換磁盤的場景要求


          維護對象

          具體情形

          插拔要求

          容量要求

          接口要求

          插槽要求

          SATA或SAS接口的數據盤、緩存盤

          槽位不變,更換磁盤

          可帶電拔插,對業務無要求

          新盤容量不小于原盤容量

          新盤接口類型與原盤保持一致

          磁盤和槽位同時更換

          可帶電拔插,對業務無要求

          新盤容量不小于原盤容量

          新盤接口類型與原盤保持一致

          (1) 確認槽位信息。請根據所用一體機的硬件手冊,確認硬盤的槽位信息,使其與界面中顯示的位置信息對應。

          (2) 選擇頂部“存儲”頁簽,選擇左側的節點管理,進入存儲節點管理界面。首先選擇需要更換硬盤的主機節點,單擊<同步磁盤>按鈕,避免因為未同步導致的異常。

          (3) 同步完成后,界面上顯示了故障節點,選擇故障節點可以看到該節點下故障的硬盤。故障盤的槽位為5。此時可以手動點亮故障盤的磁盤燈,輔助定位故障磁盤的位置。


          (4) 進入機房,拔下槽位5故障盤,插入新盤。然后再次回到軟件界面。單擊<同步磁盤>按鈕和<刷新>按鈕,直到識別到新盤,新盤的盤符可能發生變化,但是新盤的槽位號和原故障盤是保持一致的。

          如果新盤中存在已有分區,應先清理分區。在系統后臺執行后臺sgdisk -o /dev/sdd(sdd為壞盤的盤符,需根據實際壞盤的盤符進行調整)命令,清理分區。

          (5) 選中計劃更換的故障盤,單擊<更換磁盤>按鈕。

          (6) 在跳轉界面先選中故障盤。此時盤可能只有一些殘留信息了,看不到原來的完整信息,但是只能選擇到被單擊換盤的數據盤,因此此處就直接選擇唯一可選的那塊盤。

          (7) 然后選擇插入的新盤。注意查看新盤的容量,類型信息是否正確,槽位號是否正確。

          (8) 選擇完成后,單擊<下一步>按鈕。

          (9) 單擊<完成>按鈕,系統會自動開始換盤任務。

          (10) 單擊<完成>后,打開任務臺查看進度,等待換盤任務完成。

          (11) 當換盤任務完成,單擊存儲節點和磁盤的<刷新>按鈕可以看到存儲節點和硬盤均顯示為正常了。


          2.2 判斷硬盤類型

          硬盤類型分為系統盤、journal加速SSD、flashcache加速SSD、Scache加速SSD/NVMe以及數據盤幾種類型。若更換硬盤時對硬盤類型不明確,請參考本章節進行判斷。

          2.2.1 通過硬盤槽位號查詢硬盤在操作系統下對應的盤符

          · 如果已知待更換硬盤槽位號,但不知道硬盤在操作系統下的盤符,請參考本章節進行查詢。

          · 如果已知在操作系統下的盤符,請跳過本章節。

          · 某些情況下硬盤徹底故障,會導致陣列完全離線,這種情形下系統下無法查詢到盤符。若無法查詢到盤符、又不知道待更換硬盤是什么類型,請聯系技術服務獲取幫助。

          · 不同陣列卡型號的查詢方法不同,請參考對應章節。

          1. PMC陣列卡(PM8060)

          (1) 首先查詢陣列卡編號。執行arcconf list命令,輸出信息中的Controller ID代表陣列卡編號。如圖所示,查詢到陣列卡編號為1。



          (2) 執行arcconf getconfig 1 ld命令(1為步驟1中查到的陣列卡編號),找到對應slot號的硬盤的Logical Device number。如圖所示,查詢到槽位號為Enclosure 0,Slot 6的硬盤對應的Logical Device Number為7。



          (3) 執行lsscsi命令,前面方括號中的4位數字中的第3位即為Logical Device Number,末尾的/dev/sdx表示此邏輯陣列在系統下對應的盤符。如圖所示,查詢到Logical Device Number為4的邏輯陣列,其在操作系統下對應的盤符為sde。



          2. PMC陣列卡(P460)

          (1) 首先查詢陣列卡編號。執行arcconf list命令,輸出信息中的Controller ID代表陣列卡編號。如圖所示,查詢到陣列卡編號為1。



          (2) 執行arcconf getconfig 1 ld命令(1為上一步中查到的陣列卡編號),找到對應slot號的硬盤的Logical Device number和Disk Name。如圖所示,查詢到槽位號為Enclosure 0,Slot 6的硬盤對應的Logical Device Number為8,其對應的Disk Name即為操作系統下的盤符sdi。



          3. LSI陣列卡

          (1) 首先查詢陣列卡編號,執行/opt/MegaRAID/storcli/storcli64 show命令,輸出信息中的“Ctl”下方的數字代表陣列卡編號。如圖所示,查詢到陣列卡編號為0。


          (2) 執行/opt/MegaRAID/storcli/storcli64 /c0 /vall show all命令(0為上一步中查詢到的陣列卡編號),找到對應slot號的硬盤的Virtual Drive編號。如圖所示,查詢到槽位號為Enclosure 252,Slot 2的硬盤對應的Virtual Drive為3。



          4. HP SSA陣列卡

          (1) 首先查詢陣列卡編號,執行ssacli ctrl all show命令,輸出信息中的Slot號代表陣列卡編號。如圖所示,查詢到陣列卡編號為1。



          (2) 執行ssacli ctrl slot=x physicaldrive all show detail命令,顯示物理盤slot號與邏輯陣列的對應關系。如圖所示,1I:2:2對應的邏輯陣列為array A。



          (3) 執行ssacli ctrl slot=x logicaldrive all show detail命令,顯示對應的邏輯陣列編號和系統下盤符的對應關系。如圖表示array A對應sda。



          2.2.2 通過分區和掛載判斷硬盤類型

          1. 系統盤

          執行lsblk命令,查看結果。有掛載到“/”的分區的磁盤為系統盤。如圖sda為系統盤。



          2. journal加速SSD

          僅UIS 6.0版本會有journal加速SSD,UIS 6.5及以上版本不存在journal加速SSD。

          執行lsblk命令,查看結果。journal加速SSD的第一個分區大小為15MB或16MB,其余的多個分區大小相同,且分區沒有掛載。如圖所示,sdf為journal加速SSD。


          3. flashcache加速SSD

          · UIS 6.0版本

          執行lsblk命令,查看結果。flashcache加速SSD的第一個分區大小為15MB或16MB,其余的多個分區大小相同,且分區下有較長的uuid,其后顯示掛載路徑/var/lib/ceph/osd/ceph-x(x為osd編號)。如圖所示,sdo為flashcache加速SSD。

          · UIS 6.5及以上版本

          執行lsblk命令,查看結果。flashcache加速SSD的第一個分區大小為15MB或16MB,其余的多個分區大小相同,且分區下有較長的uuid,其后沒有掛載。如圖sdo為flashcache加速SSD。


          4. Scache加速SSD/NVMe

          SSD盤給HDD盤做緩存加速以及NVMe盤給SSD盤做緩存加速兩種情況的查詢方法一致,僅盤符處存在區別。

          (1) 執行lsblk命令。存在一個固定為2G的磁盤分區,以及另外兩個被拆分的緩存分區,即為Scache加速緩存SSD,如本例中的sdd。

          sdd 8:48 0 447.1G 0 disk

          ├─sdd2 8:50 0 132G 0 part

          ├─sdd3 8:51 0 66G 0 part

          ├─sdd1 8:49 0 16M 0 part

          └─sdd4 8:52 0 2G 0 part

          (2) 再執行fdisk-l命令,可以看到查詢信息如下,可確認sdd為緩存加速分區。

          [root@E0721P03Node1 ~]# fdisk -l /dev/sdd

          WARNING: fdisk GPT support is currently new, and therefore in an experimental phase. Use at your own discretion.

          # Start End Size Type Name

          1 2048 34815 16M unknown scache default HDD

          2 34816 276858879 132G unknown Flashcache

          3 276858880 415270911 66G unknown ceph block.db

          4 415270912 419465215 2G unknown ceph block.wal

          5. 數據盤

          (1) 執行lsblk命令,查看結果,查詢信息與下圖sdf類似的即為數據盤,可以看到對應的OSD編號。

          (2) 如果無法找到故障盤,則需要執行mount|grep sdg(sdg指故障盤盤符)命令,可以查看OSD編號。

          [root@cvknode1 ~]# mount |grep sdg

          /dev/sdg1 on /var/lib/ceph/osd/ceph-2 type xfs (rw,noatime,attr2,inode64,noquota)

          sdg 8:96 1 1.8T 0 disk

          ├─sdg1 8:97 1 100M 0 part /var/lib/ceph/osd/ceph-2

          └─sdg2 8:98 1 1.8T 0 part

          (3) 執行ceph osd tree命令,確認OSD2的狀態處于DOWN,即可定位故障的數據盤。

          [root@cvknode1 ~]# ceph osd tree

          ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF

          -10 0 root maintain

          -9 7.84584 root diskpool_ssd

          -11 7.84584 rack rack0.diskpool_ssd

          -15 5.22926 host cvknode1.diskpool_ssd

          2 ssd 1.74309 osd.2 down 1.00000 1.00000

          5 ssd 1.74309 osd.5 up 1.00000 1.00000

          6 ssd 1.74309 osd.6 up 1.00000 1.00000

          -7 0.87219 host cvknode2.diskpool_ssd

          1 ssd 0.43610 osd.1 up 1.00000 1.00000

          4 ssd 0.43610 osd.4 up 1.00000 1.00000

          2.3 操作前檢查

          進行換盤操作前,請務必執行本章的所有檢查項,確認符合前置條件后,再進行更換硬盤操作。

          2.3.1 檢查集群健康狀態

          (1) 登錄UIS管理頁面,在“存儲”頁面,確認存儲健康度為100%。若集群健康度不為100%,請等待集群自動恢復或排除故障后再操作。若等待一段時間仍然沒有恢復進度,請聯系技術支持。

          圖1 確認存儲健康度

          (2) 在集群中任意節點后臺執行watch ceph –s命令持續觀察集群健康狀態,正常情況下狀態為Health_OK。觀察一分鐘左右,確認健康狀態正常。若健康狀態不為Health_OK,請聯系技術支持進行確認。

          圖2 后臺確認集群健康狀態


          2.3.2 檢查集群業務壓力

          1. 檢查iostat 狀態

          使用ssh登錄至到集群中所有主機的后臺。執行iostat -x 1命令,持續觀察所有節點的CPU使用率和磁盤壓力。該命令每秒會刷新輸出iostat,建議每臺主機觀察2 min左右。

          · 空閑的CPU %idle應該在40以上。

          · %util(磁盤IO繁忙度)需在40%以下。

          · svctm(平均每次IO請求的處理時間)需在20以下(單位為ms)。

          · await(平均IO等待時間)和 r_await(平均讀操作等待時間),以及w_await(平均寫操作等待時間)需在20以下(單位為ms)。

          如果偶有超過上限的情況,屬于正常現象,但如果持續保持在上限以上,則需要等待業務壓力變小或暫停部分業務,直到集群業務壓力滿足條件。

          圖3 iostat輸出


          2. 檢查內存使用率

          執行free –m命令檢查內存使用率。內存使用率需要在80%以下。

          內存使用率為第一行的used值與內存總容量的比值。

          圖4 內存使用情況


          2.3.3 檢查配置

          以下操作在存儲集群中每臺服務器的后臺執行。如果檢查結果與預期不符,請聯系技術支持處理。

          1. PMC陣列卡(PM8060)

          (1) 檢查硬盤寫緩存是否關閉。執行arcconf getconfig 1 pd | grep -i “write cache”命令(1為陣列卡編號,按實際情況修改),所有的輸出結果應為Disabled (write-through)。


          (2) 檢查所有HDD陣列卡讀寫緩存是否開啟并設置為掉電保護模式,所有SSD陣列卡讀寫緩存是否關閉。執行arcconf getconfig 1 ld命令,進行查詢(1為陣列卡編號,按實際情況修改)。

          ? 對于HDD硬盤,如下為正常情況。

          ? 對于SSD硬盤,如下為正常情況。


          2. PMC陣列卡(P460)

          (1) 檢查硬盤寫緩存是否關閉。執行arcconf getconfig 1 ad |grep " Physical Drive Write Cache Policy Information" -A4命令(1為陣列卡編號,按實際情況修改),所有的輸出結果應為Disabled。

          (2) 檢查所有HDD陣列卡讀寫緩存是否開啟并設置為掉電保護模式,所有SSD陣列卡讀寫緩存是否關閉。

          a. 首先執行arcconf getconfig 1 ad | grep -i cache命令,查詢陣列卡配置(1為陣列卡編號,按實際情況修改),默認情況Read Cache為10%,Write Cache為90%,No-Battery Write Cache為Disabled。

          b. 然后執行arcconf getconfig 1 ld命令,進行查詢(1為陣列卡編號,按實際情況修改)。

          - 對于HDD,如下為正常情況。

          - 對于SSD,如下為正常情況。


          3. LSI陣列卡

          檢查硬盤寫緩存和陣列卡緩存狀態。執行/opt/MegaRAID/storcli/storcli64 /c0 /eall /sall show命令(0為陣列卡編號,按實際情況修改)。

          · 對于HDD,如下為正常情況。

          · 對于SSD,如下為正常情況。


          4. HP SSA陣列卡

          (1) 檢查硬盤寫緩存是否關閉。執行ssacli ctrl all show config detail | grep -i cache命令,未做過特殊調整的情況下,Cache Ratio應為10%讀,90%寫;Drive Write Cache 應為Disabled;No-Battery Write Cache應為Disabled。

          (2) 檢查各陣列的緩存模式設置是否正確。執行ssacli ctrl slot=n ld all show detail命令(其中n為陣列卡槽位號,請按照實際情況修改),查看結果。

          ? 對于HDD,LD Acceleration Method應為Controller Cache。

          ? 對于SSD,LD Acceleration Method應為Disabled或Smart IO Path。

          (3) 檢查陣列卡是否設置為Max Performance模式。執行ssacli ctrl all show config detail | grep -i Power命令,其中Current Power Mode應設置為MaxPerformance模式。


          2.3.4 檢查集群硬件狀態

          登錄集群中所有節點的HDM/iLO,檢查是否有硬件報錯。若有除了此次待更換的硬件之外的硬件報錯,請聯系技術支持確認。

          2.4 硬盤更換

          不同類型的硬盤對應的更換方法不同,請根據需要對應的硬盤類型參考相應的章節。

          UIS 6.0及部分UIS 6.5版本的緩存盤的更換方法,請參考2.4.3或2.4.4章節。

          UIS E0716及UIS 7.0版本的緩存盤更換方法,請參考2.4.5章節。

          2.4.1 系統盤更換

          1. 只有一塊系統盤故障

          (1) UIS系統盤通常為RAID 1,在只有一塊系統盤故障的情況下,拔下故障盤,插上新盤即可自動開始重建(可通過硬盤燈狀態判斷,具體參考服務器的用戶手冊)。若系統盤不為RAID 1,請聯系技術支持處理。

          (2) 若插上新盤后未自動重建,則需要重啟后進入BIOS手動選擇重建,關機及開機步驟請參照《H3C UIS超融合產品正常開關機配置指導》,在BIOS中選擇重建的操作請參考對應機型的BIOS使用手冊。

          2. 兩塊系統盤都故障

          如果是管理節點或仲裁節點故障,請參考《H3C UIS超融合產品雙機熱備配置指導》中的“雙機常用操作”章節進行恢復。如果是其他節點故障,需要先將故障節點在管理平臺中移除,重裝UIS軟件后再將其加回集群機。

          這種情況下系統分區中的數據(如/vms分區等)無法恢復。

          (1) 將故障主機從管理平臺中刪除。單擊頂部“主機”頁簽,選擇左側導航樹的[主機管理]菜單項,選中對應的主機,進入該主機概要頁面。單擊<…更多操作>按鈕,選擇彈出下拉框的“刪除主機”選項。

          刪除主機前請先確認主機中是否存在未被遷移的虛擬機。如有,請先聯系技術支持處理遺留虛擬機,再更換硬盤、重裝系統。

          (2) 更換故障硬盤。如果系統盤已損壞,請更換主機中已損壞的硬盤。如果硬盤未損壞,則無需更換。

          (3) 為主機重新安裝與集群中其他主機相同版本的UIS軟件,具體方法請參考對應版本的《H3C UIS超融合管理平臺安裝部署指導》。

          (4) 安裝完成后可將其加回集群,具體方法請參考《H3C UIS超融合產品擴容與縮容配置指導》中的“

          集群主機擴容”章節。


          3. 更換M.2 SSD系統盤

          系統盤使用M.2 SSD硬盤時,由于這類硬盤內置在服務器中,無法通過常規的點燈識并插拔硬盤的方式進行換盤,需要關機后打開機箱更換硬盤,本章節主要介紹如何區分正常和故障的M.2 SSD硬盤。M.2 SSD系統盤更換的其他事項請參考2.4.1 1. 只有一塊系統盤故障及2.4.1 2. 兩塊系統盤都故障章節。

          圖5 M.2 SSD硬盤

          UIS一體機中通常只有兩塊M.2 SSD硬盤,分別插在插槽上的兩側。因此需要根據磁盤的S/N 號,確認需要更換的硬盤(故障盤)。本章節提供兩種確認方法,如果兩種方法均無法確認,請聯系技術支持處理。

          (1) 查詢硬盤S/N號,區分正常硬盤和故障硬盤。

          方法一:在UIS主機頁面中確認

          a. 選擇頂部“主機”頁簽,進入主機管理信息頁面。若系統中有多個集群,還需在左側導航樹選擇目標主機所在的集群,進入主機集群管理頁面。

          b. 選擇目標主機,進入主機的概要信息頁面。選擇“硬件監控”頁簽,進入主機硬件摘要信息頁面。

          c. 選擇[硬盤]菜單項,進入主機硬件監控的硬盤信息頁面,查詢正常工作的硬盤。

          d. 如圖所示,M.2 SSD硬盤的“位置”參數顯示為“/dev/sd*”,“陣列卡”參數顯示為“-”,其中“序列號”參數即為M.2 SSD硬盤的S/N號。如果硬盤故障,通常在此頁面無法查看到硬盤信息,可通過該方法區分正常硬盤和故障硬盤。

          圖6 查看主機硬盤信息

          方法二:登錄系統后臺確認

          a. 登錄系統后臺,通過M.2 SSD硬盤的raid名稱查看硬盤信息。例如,raid名稱為md126,則執行mdadm –D /dev/md126命令,查看md126中的硬盤信息。如果硬盤信息的“State”處不為“active sync”則說明硬盤處于異常狀態。

          圖7 查看硬盤信息

          b. 查看正常硬盤的S/N號。執行smartctl -i /dev/sd*命令查看正常磁盤的S/N 號,sd*即為在上一步中查詢到的信息。

          圖8 查看硬盤S/N號

          c. 查詢到正常硬盤的S/N號后,即可分辨正常硬盤和故障硬盤。

          (2) 關閉一體機電源。

          關機及開機步驟請參照《H3C UIS超融合產品正常開關機配置指導》。

          (3) 根據查詢到的S/N號,更換故障硬盤。

          (4) 更換完成后開啟主機。

          2.4.2 數據盤更換

          更換硬盤前,需要先刪除故障盤。

          1. 通過前臺頁面刪除故障盤

          當故障硬盤的掛載路徑丟失的情況下,在前臺頁面會無法刪除,此情況下可以通過后臺命令行刪除。

          (1) 硬盤故障會,UIS主機硬盤狀態會顯示為異常。

          (2) 在前臺頁面刪除故障硬盤:確保存儲的健康度是100%,單擊異常硬盤的刪除按鈕,等待刪除過程完成。

          每次只能在一個節點操作。刪除完一個節點的故障盤后,需等待數據平衡完畢,才能繼續刪除其他節點的故障盤。考慮到數據平衡需要一定時間,建議在備件到達現場之前提前一天完成此操作。


          2. UIS 6.0后臺刪除換分分區方法

          (1) 通過ssh方法登錄到故障節點的后臺,執行ceph osd tree命令,找到狀態為down的osd編號,如圖所示,故障的osd編號為1。

          (2) 如果硬盤是帶有journal或flashcache加速的數據盤,還需要找到對應的加速分區,待后續刪除用。查詢硬盤是否有journal或flashcache加速的方法請參考2.2.2 判斷硬盤類型。

          · 確認硬盤帶有journal加速后,首先需要確定journal SSD上哪個分區是待更換硬盤對應的加速分區。

          ? 查詢方法一(推薦):

          a. 執行cat /var/lib/ceph/osd/ceph-x/journal_uuid命令(x為故障的osd號),找出待刪除硬盤緩存分區的uuid。

          b. 執行ll /dev/disk/by-partuuid/命令,查看所有磁盤分區對應的uuid。

          c. 在步驟b的輸出結果中找到和步驟a相同的,該磁盤分區即為需要刪除的寫緩存分區。例如:下圖中,sdf6即為待更換硬盤sdb對應的寫緩存分區。

          ? 查詢方法二:

          如果執行cat /var/lib/ceph/osd/ceph-x/journal_uuid命令查找不到,此時可以先對應出此臺服務器上的其他活動的數據盤對應的寫緩存分區,那么剩下沒有對應關系的寫緩存分區就是被刪除的硬盤對應的寫緩存分區了。

          如下圖所示,對應出osd.5的寫緩存分區為sdf3,osd.8的寫緩存分區為sdf4,osd.11的寫緩存分區為sdf5,那么sdf上還剩下sdf1和sdf6,其中sdf1只有15M,是標識sdf為寫緩存SSD的分區,因此sdf6就是被刪除的硬盤的寫緩存分區。

          · 確認硬盤帶有flashcache加速后,需要確定flashcache SSD上哪個分區是待更換硬盤對應的加速分區。

          執行lsblk命令查看osd的掛載路徑和軟連接信息。例如下圖中查詢的osd.11對應的數據盤為sde,通過uuid比對,與sde下面的uuid相同的flashcache 加速分區為sdf8。

          若使用此方法查詢不到故障osd對應的uuid,則需要使用排除法,將所有正常的osd對應的flashcache加速分區找出來,那么剩下的加速分區則屬于故障osd。

          查詢完畢之后,執行以下命令移除flashcache軟連接。

          umount /var/lib/ceph/osd/ceph-x//x為故障osd編號

          dmsetup remove /dev/mapper/xxxx-xxxx-xxxx//xxxx-xxxx-xxxx為flashcache加速分區下的一長串uuid

          (3) osd可能還有掛載殘留,執行umount /var/lib/ceph/osd/ceph-x命令(其中x為osd編號,按照實際情況修改),取消掛載。如果執行此命令后提示“umount: /var/lib/ceph/osd/ceph-x: not mounted”,屬于正常情況。

          (4) 執行如下命令將osd刪除。其中x為osd編號,按照實際情況修改,注意不要刪錯。

          ceph osd crush remove osd.x

          ceph auth del osd.x

          ceph osd rm osd.x

          (5) 將步驟2中查詢到的加速SSD分區刪除。

          使用parted /dev/sdx和rm y命令(sdx為加速SSD的盤符,y為分區號,按實際情況修改),刪除上文確認過的故障硬盤對應的讀寫緩存分區,如需要刪除sdo2分區。

          (6) 確認分區是否已經刪除

          (7) 刪除完畢后,刷新管理界面查看,確認該故障盤已經消失,并等待集群健康度恢復100%。

          3. UIS 6.5版本后臺刪除緩存分區方法

          (1) 取消故障硬盤的掛載。

          a. 通過ssh方法登錄到該節點,執行ceph osd tree命令,查看故障的osd(如圖中osd 7)。

          b. 執行mount命令查看該osd的掛載信息。

          c. 執行umount命令,取消被拔硬盤的掛載(圖中以osd 7為例)。

          (2) 執行如下命令,將故障osd刪除,其中x為osd編號,按照實際情況修改,注意不要刪錯。

          ceph osd crush remove osd.x

          ceph auth del osd.x

          ceph osd rm osd.x

          (3) 刪除flashcache標識碼和緩存盤上的緩存分區

          a. 確認被故障盤的flashcahe 標識碼。

          若系統下已沒有了故障盤的盤符,則可以執行lsblk | grep “緩存盤的flashcahce標識碼”命令。結果只有1條記錄的,則說明該flashcahce標識碼為故障硬盤的flashcahce標識碼,而唯一被掛載的分區為故障盤對應的讀緩存分區。

          執行lsblk命令,查看緩存盤下flashcache的標識碼。(如下圖所示,兩個SSD緩存盤sdk、sdj)。

          執行lsblk |grep “flashcache標識碼”命令,只有一條記錄的即為被拔掉硬盤的flashcache分區的標識碼,圖中e3abd762-ad2e-4221-b6d6-e9a29b6eae82標識碼即為故障盤對應的標識碼,而對應的sdk2分區為故障盤對應的讀緩存分區。

          b. 使用命令ls /proc/sys/dev/flashcache命令,查看是否有殘留的flashhcahde信息,如果有則刪除。否則則跳過下一步。

          執行ls /proc/sys/dev/flashcache |grep “flashcache標識碼”命令,查找flashcache信息。

          c. 執行如下命令,移除該硬盤上的flashcache信息。

          sysctl -w dev.flashcache.f28c1e04-cf71-4853-b628-8017db519b4a+e3abd762-ad2e-4221-b6d6-e9a29b6eae82.fast_remove=1

          dmsetup remove e3abd762-ad2e-4221-b6d6-e9a29b6eae82

          d. 執行parted /dev/sdk -s rm 2命令,刪除對應緩存盤的分區。

          e. 檢查緩存盤信息是否被刪除干凈。

          執行lsblk命令,查看對應的緩存盤,(圖中sdk的第二個分區已經被刪除)


          4. UIS 7.0版本(被Scache加速的數據盤)后臺刪除緩存分區方法

          (1) 取消故障硬盤的掛載。

          a. SSH登錄到該節點,執行ceph osd tree命令,查看故障的osd(如圖中osd 7)。

          b. 執行mount命令,查看該osd的掛載信息。

          (2) 插入的新盤做raid(如果使用NVMe硬盤,則不需要做raid),并且關閉硬盤緩存。

          (3) 清除異常磁盤的殘留osd信息。

          umount /var/lib/ceph/osd/ceph-7 //刪除osd 7

          · 如果原磁盤異常之后,掛載也自動消失,可以不執行umount操作。

          · 后臺刪除OSD的殘留信息,會更新osdmap表,觸發數據均衡。刪除之后需要趕緊將新盤加回集群。

          [root@node127 ~]# ceph osd crush remove osd.7

          removed item names 'osd.7' from crush map

          [root@node127 ~]# ceph auth del osd.7

          updated

          [root@node127 ~]# ceph osd rm osd.7

          removed osd.8

          (4) 找到異常磁盤的殘留緩存加速分區。

          UIS 7.0使用的是用戶態的scache加速,與之前版本的內核態flashcache識別和刪除緩存分區差異比較大。

          方法一:如圖9所示,請依次執行如下命令,查詢異常OSD對應的緩存分區。本例中故障盤對應的緩存分區為sdl5、sdl6、sdl7。

          ll /var/lib/ceph/osd-cache-config/ceph-x

          cd /var/lib/ceph/osd-cache-config/ceph-x

          cat block.db_uuid

          cat block.wal_uuid

          cat fcache_uuid

          如果當前使用的是老版本升級而來的環境,則僅需執行cat fcache_uuid這一條命令。刪除緩存盤對應的分區時,也僅需要刪除一個緩存分區。

          圖9 查詢緩存分區

          方法二

          a. 緩存分區沒有記錄對應OSD的uuid。需要根據當前正常的OSD的緩存分區,反向排查找到異常磁盤的緩存分區。通過lsblk命令查看緩存盤盤符,本例中緩存盤盤符為sdl,該緩存盤共存在1~5五個分區。。

          b. 執行for i in `cat /var/lib/ceph/osd/ceph-*/fcache_uuid`; do ll /dev/disk/by-partuuid/ | grep $i ; done命令,查詢緩存賦能去信息,執行結果如下所示。

          c. 根據該結果對比所有的緩存盤分區,該命令沒有顯示的非分區1的緩存分區也就是異常磁盤對應的分區。

          (5) 刪除異常磁盤的殘留緩存加速分區。根據上一步反向排查找到的緩存分區(/dev/sdk2),刪除osd.7對應的緩存分區。

          執行sudo parted /dev/sdk -s rm 2命令,刪除對應緩存盤的分區。

          執行partprobe命令,更新磁盤分區信息。

          (6) block.wal_uuid以及block.db_uuid對應的緩存分區,也需要對應處理。

          如果磁盤已經被拔出或者異常,該掛載目錄可能無法訪問,需要反向通過已存在OSD的編號,找到異常磁盤對應的緩存分區。(E3322版本已經優化修改,就算磁盤異常也可以直接查詢到異常磁盤的緩存分區ID),方法如下:通過3個命令依次查詢該節點正常磁盤對應的緩存分區信息,

          for i in `cat /var/lib/ceph/osd/ceph-*/fcache_uuid`; do ll /dev/disk/by-partuuid/ | grep $i ; done;

          for i in `cat /var/lib/ceph/osd/ceph-*/block.wal_uuid`; do ll /dev/disk/by-partuuid/ | grep $i ; done;

          for i in `cat /var/lib/ceph/osd/ceph-*/ block.db_uuid `; do ll /dev/disk/by-partuuid/ | grep $i ; done;

          上述結果和lsblk 查詢所有的緩存分區的分區進行對比,沒有顯示的非分區1的緩存分區就是異常緩存盤對應的分區。

          5. 拔下故障盤,換上新盤

          PMC陣列卡或HP SSA陣列卡

          (1) 若故障盤已經亮橙燈,則直接插拔即可。

          (2) 若故障盤未亮燈,可以在管理界面單擊磁盤右側點燈按鈕點亮硬盤燈。若單擊按鈕無法點亮硬盤燈,請聯系技術支持處理。

          (3) 拔下故障盤,換上新盤。

          (4) 更換完畢后,界面上會出現一塊“未配置”狀態的新盤。單擊右側“配置”按鈕,將其加入集群。若此步驟執行失敗,請聯系技術支持進行處理。

          LSI陣列卡

          (1) 若故障盤已經亮橙燈,則直接插拔即可。

          (2) 若故障盤未亮燈,可以在管理界面單擊磁盤右側點燈按鈕點亮硬盤燈。

          (3) 拔下故障盤,換上新盤。

          (4) 清除緩存殘留數據。執行/opt/MegaRAID/storcli/storcli64 /cN show preservedcache(N代表陣列卡編號,按實際情況修改)命令,獲取殘留緩存所屬的邏輯陣列編號,如圖表示殘留緩存屬于邏輯陣列1。

          (5) 然后執行/opt/MegaRAID/storcli/storcli64 /cN /vx delete preservedcache(N代表陣列卡編號,x為上一條命令查詢到的邏輯陣列編號,按實際情況修改)命令清除殘留數據。

          (6) 更換完畢后,界面上會出現一塊狀態為“未配置”的新磁盤。單擊右側<配置>按鈕,將其加入集群。


          2.4.3 緩存加速盤更換-journal加速SSD

          1. 拔下故障盤,換上新盤

          參考2.4.2 5. 拔下故障盤,換上新盤進行操作。

          2. 恢復journal 加速盤的分區

          journal 加速SSD故障后,原本它加速的所有OSD都會down(如果沒有業務的情況下down會有延遲)。

          (1) 執行ceph osd tree命令,定位down狀態的OSD號,如圖所示,osd.1和osd.2狀態為down,進行記錄。

          (2) 執行ll /var/lib/ceph/osd/ceph-1命令,分別查看這些OSD的目錄,可以看到軟連接為紅色,即為損壞狀態。

          (3) 手動創建SSD盤的第一個16M分區。

          執行ceph-disk marktype --journal --dev /dev/sdx(其中sdx為新換上的SSD的盤符,按照實際情況修改)命令。

          (4) 創建腳本文件,執行vim makejournalssd.sh命令,將以下內容寫入腳本文件中。

          #!/bin/bash

          osds="1 2"

          journal_disk=/dev/sdp

          num=2

          for osd_id in $osds ; do

          journal_uuid=$(sudo cat /var/lib/ceph/osd/ceph-$osd_id/journal_uuid)

          sgdisk --new=$num:0:+10240M --change-name=$num:'ceph journal' --partition-guid=$num:$journal_uuid --typecode=$num:45b0969e-9b03-4f30-b4c6-b4b80ceff106 --mbrtogpt $journal_disk

          num=$(($num+1))

          done

          其中,osds=”1 2”這里的數字代表之前查詢到的down掉的osd編號,journal_disk=/dev/sdp代表新換上的SSD的盤符,10240M為此前的journal SSD上每個分區的大小,按照實際情況修改。

          (5) 創建完畢后,執行bash makejournalssd.sh命令,恢復journal SSD的分區。

          3. 拉起journal 加速盤

          (1) 需要在主機上創建腳本,執行vim addjournalssd.sh命令,將以下內容寫入腳本文件中。

          #!/bin/bash

          osds="1 2"

          journal_disk=/dev/sdp

          num=1

          for osd_id in $osds ; do

          sudo ceph-osd --mkjournal -i $osd_id

          sudo start ceph-osd id=$osd_id

          num=$(($num+1))

          done

          其中osds=”1 2”這里的數字代表之前查詢到的down掉的osd編號,journal_disk=/dev/sdp代表新換上的SSD的盤符,按照實際情況修改。

          (2) 創建完畢后,執行bash addjournalssd.sh命令。完成后,執行ceph osd tree命令查詢,down掉的osd均已恢復up且in的狀態。等待數據遷移至平衡后,集群恢復健康。

          2.4.4 緩存加速盤更換-flashcache加速SSD

          1. 刪除數據盤,并刪除flashcache軟連接

          (1) 執行lsblk命令,查看待更換的flashcache SSD盤分區下的16進制字符組成的軟連接。

          (2) 比較軟連接,相同的則代表有對應關系。

          如示例中硬盤sde,對應的讀緩存分區為sdf8,且sde的掛載路徑為/var/lib/ceph/osd/ceph-11,表示sde對應了osd.11。記錄下這里的數據盤盤符及對應的osd編號。

          如果flashcahce SSD在系統下已經無法查詢到,則聯系技術支持確認環境中的對應關系。

          當flashcahce SSD故障后,所有被其加速的OSD均down。

          (3) 執行ceph osd tree命令,找到down狀態的osd號,如圖為osd.1和osd.2,進行記錄。正常情況下,這里查到的osd編號應該與上一步中找到的數據盤一一對應(例如sde對應osd.11)。

          (4) 刪除這些down掉的osd,具體方法參考2.4.2 1. 通過前臺頁面刪除故障盤。

          (5) 然后執行以下兩條命令刪除軟連接:

          umount /var/lib/ceph/osd/ceph-x//x為故障加速盤所加速的osd編號

          dmsetup remove /dev/mapper/xxxx-xxxx-xxxx//xxxx-xxxx-xxxx為flashcache加速分區下的一長串uuid

          2. 拔下故障盤,換上新盤

          參考2.4.2 5. 拔下故障盤,換上新盤進行操作。

          3. 將數據盤重新加回集群

          (1) 將數據盤格式化。

          (2) 執行ceph-disk zap /dev/sdx命令,格式化數據盤。

          注意:sdx為2.4.4 1. 刪除數據盤,并刪除flashcache軟連接中查找到的數據盤盤符,請嚴格按查找到的盤符操作,切勿寫錯。此命令會清除這塊數據盤上的所有數據。

          (3) 將數據盤重新加回集群。參考2.4.2 5. 拔下故障盤,換上新盤進行操作。

          2.4.5 緩存加速盤更換-Scache加速SSD/NVMe

          1. 刪除數據盤,并刪除Scache軟連接

          (1) 執行ceph osd tree命令查看故障的硬盤,發現被緩存盤加速的數據盤OSD 狀態為DOWN。

          (2) 刪除數據盤對應的scache信息。反向查找異常磁盤對應的scache信息。

          緩存盤異常更換新盤對應緩存盤的分區是空的,執行該步驟主要是再次確認信息。

          異常緩存盤所在的節點后臺執行如下命令:

          for i in `cat /var/lib/ceph/osd/ceph-*/fcache_uuid`

          do ll /dev/disk/by-partuuid/ | grep $i ; done

          上述結果和lsblk查詢所有的緩存分區的分區進行對比,沒有顯示的分區就是異常緩存盤對應的分區。

          (3) umount對應的OSD目錄,然后刪除被緩存加速的數據盤osd的殘留信息。

          OSD的刪除會造成集群性能下降,建議在離線的情況下進行。如果有在線拔插硬盤的需求,請及時聯系總部評估對性能的影響!

          #刪除osd 7

          [root@node127 ~]# umount /var/lib/ceph/osd/ceph-7

          [root@node127 ~]# ceph osd crush remove osd.7

          removed item names 'osd.7' from crush map

          [root@node127 ~]# ceph auth del osd.7

          updated

          [root@node127 ~]# ceph osd rm osd.7

          removed osd.7

          #刪除osd 11

          [root@node127 ~]# umount /var/lib/ceph/osd/ceph-11

          [root@node127 ~]# ceph osd crush remove osd.11

          removed item names 'osd.11' from crush map

          [root@node127 ~]# ceph auth del osd.11

          updated

          [root@node127 ~]# ceph osd rm osd.11

          removed osd.7

          (4) 格式化對應的數據盤,本例中osd.7和osd.11分別對應/dev/sdf和/dev/sdg。

          [root@node127 ~]# ceph-disk zap /dev/sdf

          [root@node127 ~]# ceph-disk zap /dev/sdg

          2. 拔下故障盤,換上新盤

          參考2.4.2 5. 拔下故障盤,換上新盤進行操作。

          3. 將數據盤重新加回集群

          (1) 將數據盤重新加回集群。參考2.4.2 5. 拔下故障盤,換上新盤進行操作。

          (2) 等待集群恢復平衡后,SSD硬盤即可更換成功。

          2.5 一鍵巡檢檢查是否更換成功

          更換完畢后,待數據平衡完畢、存儲狀態恢復100%后,在UIS管理界面執行一鍵巡檢,若無報錯表示更換成功。若有報錯,可通過報錯提示判斷報錯原因。若無法確認,請聯系技術支持確認。


          3 更換非熱插拔部件

          UIS一體機的中CPU、內存等部件不支持熱插拔更換,請根據本章節進行更換此類部件。

          3.1 操作前檢查

          在更換部件前,請務必執行本章的所有檢查項,確認符合前置條件后,再進行操作。檢查方法請參考2.3 操作前檢查。

          3.2 故障節點未關機

          若故障節點未因硬件故障導致宕機,則參考本小節操作。

          3.2.1 遷移虛擬機

          將待關機節點的虛擬機以更改主機方式遷移到其他節點。

          (1) 選擇頂部“虛擬機”頁簽,若系統中有多個集群,還需在左側導航樹選擇目標集群,進入虛擬機管理頁面。

          (2) 選擇目標虛擬機,在虛擬機卡片上單擊<更多>按鈕,選擇[遷移]菜單項或者進入虛擬機概要信息頁面,單擊<遷移>按鈕,彈出遷移虛擬機對話框。

          (3) 根據配置向導完成虛擬機的遷移,遷移類型需選擇更改主機。

          遷移超時時長建議設置為0,防止虛擬機因遷移超時而暫停。


          3.2.2 暫停共享存儲池

          將故障主機上的所有共享存儲池暫停。

          (1) 選擇頂部“主機”頁簽,進入主機管理信息頁面。若系統中有多個集群,還需在左側導航樹選擇目標主機所在的集群,進入主機集群管理頁面。

          (2) 選擇故障主機,進入主機的概要信息頁面。選擇“存儲”頁簽,進入主機的存儲池列表頁面。

          (3) 在存儲池列表中選擇類型為的存儲池“共享文件系統”的存儲池,依次單擊對應操作列的

          圖標,將共享存儲池暫停。


          3.2.3 進入維護模式

          1. E0709(不含)之前版本

          (1) 開啟主機維護模式。選擇頂部“主機”頁簽,選擇目標主機,進入主機概要信息頁面,單擊<進入維護模式>按鈕。

          (2) 開啟存儲維護模式。ssh登錄集群中任意正常節點的后臺,執行ceph osd set noout和ceph osd set noup命令。

          (3) 執行完畢后,執行ceph –s命令,檢查狀態;狀態變為Health_WARN,且提示noout,noup flags set,即表示配置完成,如下圖所示。


          2. E0709及之后版本

          (1) 開啟主機維護模式。選擇頂部“主機”頁簽,選擇目標主機,進入主機概要信息頁面,單擊<進入維護模式>按鈕,彈出進入維護模式對話框。

          (2) 進入維護模式選項,選擇“關閉數據平衡”。

          此處的主機維護模式已經包含存儲的維護模式,無需單獨開啟存儲維護模式。

          3.2.4 手動停止osd

          (1) 停止故障節點osd。

          ? 對于UIS 6.0版本,在故障節點執行stop ceph-osd-all命令。

          ? 對于UIS 6.5及之后版本,在故障節點執行systemctl stop ceph-osd.target命令。

          (2) 等待約1分鐘,執行ceph osd tree命令,確認只有故障節點的所有osd狀態變為down,其他節點的osd狀態仍為up。

          (3) 執行ceph –s命令,確認pg狀態中不存在pg peering、pg stale、pg activating、pg imcomplete,或pg inactive中的任一狀態。

          pg peering、pg stale、pg activating屬于停止OSD后,pg的中間狀態,通常在幾秒到十幾秒之間就會結束,如果等待1分鐘左右還未消失,請聯系技術支持進行處理。

          3.2.5 將故障節點斷網

          拔掉故障節點的管理網、存儲網及業務網網線。

          注意記住網線、網口的順序及安裝位置,以便部件更換完畢后恢復網絡。


          3.2.6 備份網卡配置文件

          1. UIS 6.0版本

          UIS 6.0環境,按如下步驟執行。

          (1) 為防止更換網卡和主板后mac地址改變,需要備份網卡配置文件/etc/udev/rules.d/70-persistent-net.rules。

          (2) 進入/etc/udev/rules.d/目錄下,執行cp 70-persistent-net.rules 70-persistent-net.rules.bak命令備份此配置文件。

          root@cvm2:~# cd /etc/udev/rules.d/

          root@cvm2:/etc/udev/rules.d# cp 70-persistent-net.rules 70-persistent-net.rules.bak

          root@cvm2:/etc/udev/rules.d# ll

          total 32

          drwxr-xr-x 2 root root 4096 May 9 15:17 ./

          drwxr-xr-x 3 root root 4096 Apr 30 17:34 ../

          -rw-r--r-- 1 root root 541 Apr 30 17:37 70-custom-net.rules

          -rw-r--r-- 1 root root 536 Apr 30 17:33 70-persistent-cd.rules

          -rw-r--r-- 1 root root 683 May 9 01:46 70-persistent-net.rules

          -rw-r--r-- 1 root root 683 May 9 15:35 70-persistent-net.rules.bak

          -rw-r--r-- 1 root root 496 Oct 24 2018 71-persistent-fcoe.rules

          -rw-r--r-- 1 root root 1157 Apr 6 2012 README

          2. UIS 6.5及之后版本

          UIS 6.5及之后版本,請按照如下方式備份網卡配置。

          (1) 執行ls-l /sys/class/net/命令,記錄硬件更換前的網卡情況。

          (2) 如下圖所示,以更換前網卡有eth0、eth1、eth6、eth7為例。


          3.2.7 手動關機

          (1) 執行sync命令,將內存下刷。

          (2) 執行hwclock –w命令,將時鐘寫入BIOS。

          (3) 執行shutdown -h now命令,將服務器正常關機。

          關機過程中建議關注HDM頁面電源狀態,避免出現關機命令執行失敗或關機命令執行卡住的情況。

          3.2.8 更換硬件

          (1) 待正常關機后,將故障節點下電,正常更換硬件。

          (2) 更換完畢后,將服務器上電開機。檢查HDM頁面是否有硬件報錯,并通過HDM頁面登錄遠程控制臺,查看開機自檢過程中是否有報錯。

          (3) 若無報錯,可繼續進行下一步;若有報錯,請排除故障后再繼續。

          3.2.9 啟動服務器

          (1) 系統正常啟動后,通過HDM遠程控制臺登錄到操作系統命令行界面,使用date命令查看當前節點時間與集群內其他節點是否一致。

          (2) 若不一致,則執行date –s命令手動設置時間,保證與其他節點的時間偏差在7s以內。然后執行hwclock –w命令將時鐘同步到硬件。

          (3) 執行ifconfig –a命令,查看更換硬件后的物理網卡名稱是否改變。

          ? 若網卡名稱未改變,則連上管理網網線,然后測試故障節點的管理網能否ping通。若能ping通,則繼續下一步。若無法ping通,則排查網口狀態及鏈路。

          ? 若網卡名稱改變,需要按照以下方法處理。

          1. UIS 6.0版本

          (1) 查看/etc/udev/rules.d/70-persistent-net.rules文件,更換網卡后操作系統會自動更新網卡配置文件(70-persistent-net.rules)。如下圖所示,系統將新增網卡標記為eth2和eth3,而eth0和eth1是已經被替換掉的舊網卡。

          (2) 查看之前備份的/etc/udev/rules.d/70-persistent-net.rules.bak文件。

          (3) 找到更換后新網卡與要替換的舊網卡的對應關系。例如,如果要用新網卡eth3替換eth0,用eth2替換eth1,則修改/etc/udev/rules.d/70-persistent-net.rules文件,將eth0對應的ATTR{address}字段替換為eth3的mac地址,將eth1對應的ATTR{address}字段替換為eth2的mac地址。

          (4) 確認配置正確后,保存,退出,然后執行reboot重啟服務器。重啟后,再次檢查網卡名稱是否恢復到更換之前的名稱。

          2. UIS 6.5及之后版本

          (1) 更換完硬件后,發現原有的網卡不存在,新增了兩個網卡,例如新增了eth8、eth9。

          (2) 此時需要將原有的網口和網絡的綁定關系重新設置。

          ? 針對單網口情況:

          例如由之前的eth0換成eth1。

          ovs-vsctl del-port eth0//刪除之前ovs上的端口

          ovs-vsctl add-port eth1//在ovs上新增新的端口

          ? 針對多網口聚合情況。例如更換vswitch0上的聚合口vswitch0_bond,之前的網卡名為eth1+eth2,現在變成eth2+eth3,聚合組模式為靜態基本。

          ovs-vsctl del-port vswitch0 vswitch0_bond//刪除之前ovs上的聚合口

          /opt/bin/ovs_bridge.sh mod vswitch0 vswitch0_bond --iface=eth2 --iface=eth3 --lacp=off --bond_mode=balance-slb//將新網卡名加入ovs聚合

          (3) 將此前拔掉的網線按原有順序插好,使用ifup 物理網口名手動啟動物理網口,然后執行ip addr命令查看各物理網口狀態是否為UP。例如:

          ifup ethB03-0//ethB03-0為物理網口名

          (4) 檢查該節點的存儲網和業務網能否與集群中其他節點互相ping通;檢查該節點業務網能否ping通客戶端。建議持續ping一分鐘,若無丟包則為正常。若無法ping通或有丟包,先排除網絡故障后再繼續下一步。

          3.2.10 關閉維護模式

          1. E0709(不含)以前的版本

          (1) 關閉存儲維護模式。ssh登錄集群中任意正常節點的后臺,執行ceph osd unset noout和ceph osd unset noup命令。

          (2) 執行ceph osd tree命令,查看當前節點的osd狀態是否全部變為up狀態。

          如果發現有osd未恢復為up,在osd未up的節點,執行ceph-disk activate-all命令將osd拉起。然后再次執行ceph osd tree命令,檢查osd是否變為up。

          (3) 關閉主機維護模式。確認所有osd都恢復為up之后,選擇頂部“主機”頁簽,選擇目標主機,進入主機概要信息頁面,單擊<退出維護模式>按鈕。

          2. E0709及之后版本

          (1) 關閉主機維護模式。選擇頂部“主機”頁簽,選擇目標主機,進入主機概要信息頁面,單擊<退出維護模式>按鈕。

          (2) 執行ceph osd tree命令,查看當前節點的osd狀態是否全部變為up狀態。

          如果發現有osd未恢復為up,在osd未up的節點,執行ceph-disk activate-all命令將osd拉起。然后再次執行ceph osd tree命令,檢查osd是否變為up。

          3.2.11 檢查集群狀態

          登錄管理界面,持續觀察集群健康度,直到集群健康度恢復100%且所有告警消除。

          3.2.12 啟動共享存儲池,恢復業務

          (1) 選擇頂部“主機”頁簽,進入主機管理信息頁面。若系統中有多個集群,還需在左側導航樹選擇目標主機所在的集群,進入主機集群管理頁面。

          (2) 選擇故障主機,進入主機的概要信息頁面。選擇“存儲”頁簽,進入主機的存儲池列表頁面。

          (3) 在存儲池列表中選擇類型為的存儲池“共享文件系統”的存儲池,依次單擊對應操作列的

          圖標,啟動存儲池。

          (4) 將之前遷到其他主機的虛擬機以遷移主機的方式遷移回本主機。

          3.3 故障節點已關機

          若故障節點已因硬件故障導致關機,則參考本章節操作。

          3.3.1 將故障節點斷網

          拔掉故障節點的管理網、存儲網及業務網網線。

          注意記住網線、網口的順序及安裝位置,以便部件更換完畢后恢復網絡。

          3.3.2 開啟維護模式

          因為故障主機已經關機,無法開啟主機維護模式,此時僅開啟存儲維護模式即可。

          (1) 開啟存儲維護模式。ssh登錄集群中任意正常節點的后臺,執行ceph osd set noout和ceph osd set noup命令。

          (2) 執行完畢后,執行ceph –s命令,檢查狀態;狀態變為Health_WARN,且提示noout,noup flags set,即表示配置完成,如下圖所示。


          3.3.3 更換硬件

          (1) 將故障節點下電,正常更換硬件。

          (2) 更換完畢后,將服務器上電開機。檢查HDM頁面是否有硬件報錯,并通過HDM頁面登錄遠程控制臺,查看開機自檢過程中是否有報錯。

          (3) 若無報錯,可繼續進行下一步;若有報錯,請排除故障后再繼續。

          3.3.4 啟動服務器

          (1) 系統正常啟動后,通過HDM遠程控制臺登錄到操作系統命令行界面,使用date命令查看當前節點時間與集群內其他節點是否一致。

          (2) 若不一致,則執行date –s命令手動設置時間,保證與其他節點的時間偏差在7s以內。然后執行hwclock –w命令將時鐘同步到硬件。

          (3) 執行ifconfig –a命令,查看更換硬件后的物理網卡名稱是否改變。

          ? 若網卡名稱未改變,則連上管理網網線,然后測試故障節點的管理網能否ping通。若能ping通,則繼續下一步。若無法ping通,則排查網口狀態及鏈路。

          ? 若網卡名稱改變,需要按照以下方法處理。

          2. UIS 6.0版本

          (1) 查看/etc/udev/rules.d/70-persistent-net.rules文件,更換網卡后操作系統會自動更新網卡配置文件(70-persistent-net.rules)。如下圖所示,系統將新增網卡標記為eth2和eth3,而eth0和eth1是已經被替換掉的舊網卡。

          (2) 查看之前備份的/etc/udev/rules.d/70-persistent-net.rules.bak文件。

          (3) 找到更換后新網卡與要替換的舊網卡的對應關系。例如,如果要用新網卡eth3替換eth0,用eth2替換eth1,則修改/etc/udev/rules.d/70-persistent-net.rules文件,將eth0對應的ATTR{address}字段替換為eth3的mac地址,將eth1對應的ATTR{address}字段替換為eth2的mac地址。

          (4) 確認配置正確后,保存,退出,然后執行reboot重啟服務器。重啟后,再次檢查網卡名稱是否恢復到更換之前的名稱。

          3. UIS 6.5及之后版本

          (1) 更換完硬件后,發現原有的網卡不存在,新增了兩個網卡,例如新增了eth8、eth9。


          (2) 此時需要將原有的網口和網絡的綁定關系重新設置。

          ? 針對單網口情況:

          例如由之前的eth0換成eth1。

          ovs-vsctl del-port eth0//刪除之前ovs上的端口

          ovs-vsctl add-port eth1//在ovs上新增新的端口

          ? 針對多網口聚合情況。例如更換vswitch0上的聚合口vswitch0_bond,之前的網卡名為eth1+eth2,現在變成eth2+eth3,聚合組模式為靜態基本。

          ovs-vsctl del-port vswitch0 vswitch0_bond//刪除之前ovs上的聚合口

          /opt/bin/ovs_bridge.sh mod vswitch0 vswitch0_bond --iface=eth2 --iface=eth3 --lacp=off --bond_mode=balance-slb//將新網卡名加入ovs聚合

          (3) 將此前拔掉的網線按原有順序插好,使用ifup 物理網口名手動啟動物理網口,然后執行ip addr查看各物理網口狀態是否為UP。例如:

          ifup ethB03-0//ethB03-0為物理網口名

          (4) 檢查該節點的存儲網和業務網能否與集群中其他節點互相ping通;檢查該節點業務網能否ping通客戶端。建議持續ping一分鐘,若無丟包則為正常。若無法ping通或有丟包,先排除網絡故障后再繼續下一步。

          3.3.5 關閉維護模式

          (1) 關閉存儲維護模式。ssh登錄集群中任意正常節點的后臺,執行ceph osd unset noout和ceph osd unset noup命令

          (2) 執行ceph osd tree命令,查看當前節點的osd狀態是否全部變為up狀態。


          如果發現有osd未恢復為up,在osd未up的節點,執行ceph-disk activate-all命令將osd拉起。然后再次執行ceph osd tree命令,檢查osd是否變為up。

          (3) 重新連接故障主機。確認所有osd都恢復為up之后,選擇頂部“主機”頁簽,選擇目標主機,進入主機概要信息頁面,查看故障主機狀態是否正常。若顯示為紅叉狀態,單擊<更多操作>按鈕,選擇[連接主機]菜單項,連接主機。

          3.3.6 檢查集群狀態

          登錄管理界面,持續觀察集群健康度,直到集群健康度恢復100%且所有告警消除。

          3.3.7 啟動共享存儲池,恢復業務

          (1) 選擇頂部“主機”頁簽,進入主機管理信息頁面。若系統中有多個集群,還需在左側導航樹選擇目標主機所在的集群,進入主機集群管理頁面。

          (2) 選擇故障主機,進入主機的概要信息頁面。選擇“存儲”頁簽,進入主機的存儲池列表頁面。

          (3) 在存儲池列表中選擇類型為的存儲池“共享文件系統”的存儲池,依次單擊對應操作列的

          圖標,啟動存儲池。

          (4) 將之前遷到其他主機的虛擬機以遷移主機的方式遷移回本主機。

          3.4 一鍵巡檢檢查是否更換成功

          更換完畢后,在UIS管理界面執行一鍵巡檢,若無報錯表示更換成功。若有報錯,可通過報錯提示判斷報錯原因。若無法確認,請聯系400確認。


          3.5 授權變更

          若更換硬件的主機為管理節點,更換操作可能導致UIS授權失效,需要提交授權變更,更改授權綁定的硬件。


          主站蜘蛛池模板: 在线播放国产一区二区三区| 人妻少妇AV无码一区二区| 国产91久久精品一区二区| 精品天海翼一区二区| 99久久精品日本一区二区免费| 制服中文字幕一区二区| 日韩一区二区在线免费观看| 亚洲一区电影在线观看| 亚洲AV无码一区二区三区DV| 精品少妇一区二区三区视频| 中文字幕一区二区三区精华液| 无码人妻精品一区二区三区99不卡| 天堂va在线高清一区| 中日韩精品无码一区二区三区| 无码人妻精品一区二区三区99仓本 | 3D动漫精品啪啪一区二区下载| 亚洲夜夜欢A∨一区二区三区| 东京热无码av一区二区| 久久久精品日本一区二区三区| 高清一区二区三区视频| 欧洲精品码一区二区三区免费看 | 国产福利一区二区三区在线视频 | 精品国产亚洲一区二区在线观看 | 无码日韩人妻AV一区二区三区| 国产在线精品观看一区| 国产精品免费视频一区| 波多野结衣一区二区免费视频| 国产女人乱人伦精品一区二区| 国产精品一区二区久久乐下载| 福利一区二区三区视频午夜观看| 精品一区二区三区视频在线观看| 成人在线视频一区| 国产综合一区二区在线观看| 久久99精品波多结衣一区| 精品亚洲AV无码一区二区| 欧洲精品码一区二区三区| 精品亚洲一区二区三区在线观看 | 国产精品一区二区三区免费| 成人国产一区二区三区| 日韩精品一区二区亚洲AV观看| 韩国理伦片一区二区三区在线播放|