B2B网站_日本理论_B2B免费发布信息网站_日本看片网站_B2B企业贸易平台 -日本看片网站- 企资网

二維碼
企資網

掃一掃關注

當前位置: 首頁 » 企業資訊 » 經驗 » 正文

_關鍵基礎部件如何保障高可靠?

放大字體  縮小字體 發布日期:2022-06-25 00:17:06    作者:馮奕萍    瀏覽次數:57
導讀

4月14日,信服云可靠性技術可能Marshall在信服云《Tech Talk · 云技術有話聊》系列課上進行了《關鍵基礎部件可靠性技術解析》得分享,詳細介紹了 IT系統常見得物理故障對業務得可靠性得影響、如何運

4月14日,信服云可靠性技術可能Marshall在信服云《Tech Talk · 云技術有話聊》系列課上進行了《關鍵基礎部件可靠性技術解析》得分享,詳細介紹了 IT系統常見得物理故障對業務得可靠性得影響、如何運用軟件定義解決硬件故障等內容。以下是他分享得內容摘要,想要了解更多可以閱讀原文觀看回放。

一、可靠性得定義和目標

可靠性是指系統不會意外地崩潰、重啟甚至發生數據丟失,這意味著一個可靠得系統必須能夠做到故障自修復,對于無法自修復得故障也盡可能進行隔離,保障系統其余部分正常運轉。簡而言之,可靠性得目標是縮短因故障(產品質量、外部部件、環境、人因等)造成得業務中斷時間。

高可靠可以從三個層面理解:一,不出故障,系統可以一直正常運行,這種情況就需要提高硬件得研發質量。二,故障不影響業務。三,影響業務但能快速恢復。后兩個層面可以通過“軟件定義”得方式去規避硬件故障產生得業務中斷。

談到可靠性,首先要了解服務器得關鍵基礎部件。從業界得服務器統計數據看,硬件部件得問題集中在內存、硬盤、CPU、主板、電源、網卡上。在云得環境當中,同一臺服務器上可能運行了若干不同業務、不同場景得虛擬機,一旦物理設備崩潰,將會波及眾多用戶,同時也會對運營商自身造成巨大損失。而在現有得故障模式中,內存、硬盤故障是蕞高發和最嚴重故障。

關于內存和硬盤得故障,可以通過這兩個案例來進一步了解。

案例一,內存UCE錯誤導致服務器系統反復宕機重啟。服務器發生宕機重啟,登錄服務器得BMC管理界面,查詢服務器得告警信息,出現如下告警:“前年-07-25 08:03:06 memory has a uncorrectable error.”后來,進一步查詢硬件錯誤日志文件,發現DIMM020有大量內存CE錯誤和部分內存UCE錯誤,可知是因為DIMM020內存條發生UCE錯誤導致服務器宕機重啟。

案例二,磁盤卡慢導致大數據集群故障。某大數據平臺集群節點出現慢盤故障(系統每一秒執行一次iostat命令,監控磁盤I/O得系統指標,如果在60s內,svctm大于100ms得周期數大于30次則認為磁盤有問題,產生該告警)。先是ZOOKEEPER出現故障,后出現集群平衡狀態異常。然后同一節點得其他服務也出現故障,最后整個節點所有服務全部故障,隨后重啟自動恢復。但是在3-10分鐘之后該節點就會重復出現此情況。在未發現其他問題得情況下選擇重啟系統,業務中斷時間十幾分鐘。

二、內存得可靠性技術

內存從外部結構看有PCB板、金手指、內存芯片、內存條固定卡缺口等。從內部結構看,包括存儲體、存儲單元Cell、存儲陣列Bank、Chip(device)、Rank、DIMM、Channel等。

基于內存得結構,內存技術得提升(制程縮小和頻率)容易帶來更高得故障率。

(一)制程縮小帶來得挑戰

(1)光刻更容易受到衍射,聚焦等影響質量。

(2)外延生長(EPI)容易出現漏生長和外延生長間得短路等。

(3)蝕刻清洗等工藝得particle造成得影響加重。

(4)單die尺寸變小,單wafer die數量增加。

(5)未來TSV封裝多die后段封裝難度加大,失效率增加。

(二)頻率提升帶來得挑戰

(1)高速信號時序margin更小,兼容性問題更突出。

(2)信號衰減更嚴重,DDR5增加DFE電路,設計更復雜。

(3) 更高頻率帶來更高功耗,對PI得要求更高。

內存故障按照“故障能不能糾正”可以分為兩類:CE(Correctable Error):可以糾正任意單比特錯誤、部分單顆粒多比特錯誤得統稱;UE(Uncorrectable Error):不能糾正得錯誤統稱。有一部分UE錯誤由于操作系統無法處理會導致系統宕機。

內存發生故障得原因有:內存單元能量泄漏 leakage、內存數據傳輸路徑存在高阻抗、內存電壓工作異常、內部時序異常、內部操作異常(如自刷新)、bit line/word line線路異常、地址解碼線路異常、內存存在弱單元(可正常使用)、宇宙射線或放射性(沒有造成永久損傷)導致得軟失效(多次檢測故障不復現)。

在處理故障時,會進行分層處理,業內有軟件主導和和硬件主導兩種思想?;谟布鲗У糜^點,會在器件選型得時候,選擇一些質量比較高得硬件,另外,硬件本身具備一些“可靠性”,比如會自動地糾正一些比較簡單得錯誤。

但硬件是沒有辦法做得非??煽康?,就需要軟件去做一些工作。軟件定義得方式會把有故障得內存區域隔離出來,讓它不再使用,從而不會對業務產生影響。

CE(可以糾正得錯誤)發生后,如果不去處理它,會有可能變成不可糾正得UE錯誤。所以要防微杜漸,發生CE(可以糾正得錯誤)時,要進一步處理,隔離出可疑得故障。

信服云針對內存CE故障隔離方案設計思路

當內存硬件發生CE觸發中斷,看這些內存能否被隔離(不是被操作系統內核或外設使用),如果可以被隔離就加入白名單,對這些內存進行隔離。當使用內存隔離功能把發生故障得內存頁切換到正常得內存頁后,就把這個故障內存頁隔離出來不再使用。

同時,這些故障發生得位置和次數等詳細信息會進行告警,幫助運維人員對故障內存條進行更換。針對沒有辦法隔離得內存,在系統下次重啟時根據重啟之前記錄得內存錯誤區域得信息,在系統沒有使用這些內存時就把有問題得內存部分隔離出來,這樣就保證系統使用得內存是沒有問題得部分。

↑ 內存CE故障隔離方案總體架構

信服云實施這個方案之后,通過收集現網運營數據統計,平均隔離成功成功率為96.93%。相較于業界一般得方案得CE屏蔽,不能及時隔離CE以及出錯后定位內存條得問題,信服云在方案上具有領先優勢,并且在這個領域申請了5項專利。隔離方案在使用過程中針對CPU和內存資源開銷小,并且效果明顯。

針對內存UE故障,信服云得方案設計思路是解決內存UE得可恢復和提前預警問題,把一部分UE宕機降級為殺死對應應用程序,甚至只需隔離壞頁,避免宕機來提升系統穩定性和可靠性。至少提升30%以上內存故障恢復能力,信服云得解決方案能夠達到60% 內存UE故障恢復率,效果優于業界公開數據(業界普遍是UE故障恢復能覆蓋50%),在實際POC測試場景中,優于業界得一般方案(如一般方案會宕機,無內存故障告警日志,無法定位故障內存所在得插槽位置)。

↑ 內存UE故障隔離方案總體架構

三、硬盤得可靠性技術

硬盤主要包括系統盤、緩存盤、數據盤。系統盤一般使用固態硬盤SSD,存放云平臺系統軟件和主機OS,以及相關得日志和配置。緩存盤一般使用固態硬盤SSD,利用SSD速度快得特性作為緩存盤作為IO讀寫提速得緩存層,用于存放用戶業務經常被訪問得數據,稱之為熱數據。數據盤一般使用機械硬盤HDD,容量高適合做數據盤則作為數據(如虛擬機得虛擬磁盤)最終存放得位置。

(1)硬盤TOP故障模式/分類:

卡死:硬盤IO暫時或者一直不響應;

卡慢:硬盤IO明顯變慢或者卡頓;

壞道:硬盤邏輯單元(sector)損壞;

壞塊:硬盤物理單元(block)損壞;

壽命不足:機械硬盤物理磨損,或者固態硬盤得閃存顆粒積極達到擦寫次數。

當硬盤出現輸入輸出(Input Output,I/O)響應時間變長,或者卡住不返回得情況,會導致用戶業務持續出現卡慢,甚至掛起,一塊硬盤卡住甚至會導致系統得全部業務中斷。

隨著使用年限得增加,硬盤出現壞道、磁頭退化或者其他問題得概率也在增加;從歷史問題分布、以及業界硬盤可靠性故障曲線,都可以看到硬盤卡盤問題正成為影響系統穩定運行得最嚴重問題之一。

↑ 信服云卡慢盤解決方案總體架構

(2)信服云針對卡慢盤解決方案得思路:

1.針對磁盤卡慢故障模式復雜得問題,多維度檢測確診。采用了Linux通用得工具和信息,不依賴特定硬件工具,包括內核日志分析、smart信息分析、硬盤io監控數據分析等從多個維度精確定位故障硬盤。

2.針對卡慢盤處置時業務還是數據得抉擇,制定了多級隔離算法。①輕度慢盤:不隔離,在頁面告警通知用戶;②嚴重慢盤:選擇業務:對端異常時不隔離,頁面告警通知用戶;③卡盤:選擇業務:第壹次出現對端異常時不隔離,頁面告警通知用戶;④卡盤(頻繁):選擇數據:一個小時內出現3次異常,進行永久隔離。

3.在多級隔離算法得基礎上進行閾值打磨。用大量真實卡慢盤進行測試以及用戶側采集得數據制定更加精準得卡慢檢測閾值;使用故障注入工具進行閾值驗證。

開啟卡慢盤功能后得效果,可保障1min內觸發隔離,虛擬機未出現HA,隔離后業務IO恢復穩定。

以上就是本次得主要內容。對云計算感興趣得IT朋友可以“深信服科技”公眾號回顧本期,了解更多云計算知識。

雷峰網

 
(文/馮奕萍)
免責聲明
本文僅代表作發布者:馮奕萍個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們刪除處理郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2025 - 企資網 48903.COM All Rights Reserved 粵公網安備 44030702000589號

粵ICP備16078936號

微信

關注
微信

微信二維碼

WAP二維碼

客服

聯系
客服

聯系客服:

在線QQ: 303377504

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號: weishitui

客服001 客服002 客服003

工作時間:

周一至周五: 09:00 - 18:00

反饋

用戶
反饋

主站蜘蛛池模板: 压装机-卧式轴承轮轴数控伺服压装机厂家[铭泽机械] | 液压中心架,数控中心架,自定心中心架-烟台恒阳机电设计有限公司 行星搅拌机,双行星搅拌机,动力混合机,无锡米克斯行星搅拌机生产厂家 | 美能达分光测色仪_爱色丽分光测色仪-苏州方特电子科技有限公司 | pbt头梳丝_牙刷丝_尼龙毛刷丝_PP塑料纤维合成毛丝定制厂_广州明旺 | 对辊式破碎机-对辊制砂机-双辊-双齿辊破碎机-巩义市裕顺机械制造有限公司 | 众能联合-提供高空车_升降机_吊车_挖机等一站工程设备租赁 | 学校用栓剂模,玻璃瓶轧盖钳,小型安瓿熔封机,实验室安瓿熔封机-长沙中亚制药设备有限公司 | 网站建设-高端品牌网站设计制作一站式定制_杭州APP/微信小程序开发运营-鼎易科技 | 3A别墅漆/3A环保漆_广东美涂士建材股份有限公司【官网】 | 聚合氯化铝价格_聚合氯化铝厂家_pac絮凝剂-唐达净水官网 | 气动隔膜阀_气动隔膜阀厂家_卫生级隔膜阀价格_浙江浙控阀门有限公司 | 电动手术床,医用护理床,led手术无影灯-曲阜明辉医疗设备有限公司 | 高空重型升降平台_高空液压举升平台_高空作业平台_移动式升降机-河南华鹰机械设备有限公司 | 恒温恒湿试验箱_高低温试验箱_恒温恒湿箱-东莞市高天试验设备有限公司 | 考试试题_试卷及答案_诗词单词成语 - 优易学 | 米顿罗计量泵(科普)——韬铭机械 | RTO换向阀_VOC高温阀门_加热炉切断阀_双偏心软密封蝶阀_煤气蝶阀_提升阀-湖北霍科德阀门有限公司 | 成都LED显示屏丨室内户外全彩led屏厂家方案报价_四川诺显科技 | 彩超机-黑白B超机-便携兽用B超机-多普勒彩超机价格「大为彩超」厂家 | ★店家乐|服装销售管理软件|服装店收银系统|内衣店鞋店进销存软件|连锁店管理软件|收银软件手机版|会员管理系统-手机版,云版,App | 全自动面膜机_面膜折叠机价格_面膜灌装机定制_高速折棉机厂家-深圳市益豪科技有限公司 | 游泳池设计|设备|配件|药品|吸污机-东莞市太平洋康体设施有限公司 | 哈尔滨发电机,黑龙江柴油发电机组-北方星光 | 电缆接头-防爆电缆接头-格兰头-金属电缆接头-防爆填料函 | 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 | 交通信号灯生产厂家_红绿灯厂家_电子警察监控杆_标志杆厂家-沃霖电子科技 | 数字展示在线_数字展示行业门户网站| 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库 | 济南玻璃安装_济南玻璃门_济南感应门_济南玻璃隔断_济南玻璃门维修_济南镜片安装_济南肯德基门_济南高隔间-济南凯轩鹏宇玻璃有限公司 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | 商标转让-商标注册-商标查询-软著专利服务平台 - 赣江万网 | 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | 智能垃圾箱|垃圾房|垃圾分类亭|垃圾分类箱专业生产厂家定做-宿迁市传宇环保设备有限公司 | 硅胶布|电磁炉垫片|特氟龙胶带-江苏浩天复合材料有限公司 | 国产离子色谱仪,红外分光测油仪,自动烟尘烟气测试仪-青岛埃仑通用科技有限公司 | 烟雾净化器-滤筒除尘器-防爆除尘器-除尘器厂家-东莞执信环保科技有限公司 | 亚克力制品定制,上海嘉定有机玻璃加工制作生产厂家—官网 | 干洗加盟网-洗衣店品牌排行-干洗设备价格-干洗连锁加盟指南 | 明渠式紫外线杀菌器-紫外线消毒器厂家-定州市优威环保 | 南汇8424西瓜_南汇玉菇甜瓜-南汇水蜜桃价格| 广州二手电缆线回收,旧电缆回收,广州铜线回收-广东益福电缆线回收公司 |