1.異常信息檢測
update消息,主要是監(jiān)聽并緩存uptime消息,同時(shí)避免時(shí)間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。
delete消息,通過SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長。
insert消息,在新增加機(jī)器, 或者重裝后重新上位的機(jī)器發(fā)起,該消息對宕機(jī)發(fā)現(xiàn)價(jià)值不大,配合uptime使用。
2.網(wǎng)絡(luò)異常檢測
服務(wù)器較多誤報(bào)是由于網(wǎng)絡(luò)問題干擾,無法準(zhǔn)確判斷出物理機(jī)是否宕機(jī),有可能是網(wǎng)絡(luò)問題。
排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報(bào),包括機(jī)房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過探測丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問題。
服務(wù)器本身未丟包的誤報(bào),除了需要過濾出網(wǎng)絡(luò)問題,還要通過丟包數(shù)據(jù)分析,過濾掉SA誤報(bào)問題, SA異常會上報(bào)心跳異常,被誤理解為宕機(jī)。
3.服務(wù)器異常信息檢測
個(gè)別機(jī)房有時(shí)候會出現(xiàn)大面積風(fēng)暴式的無故的信息異常,同時(shí)網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報(bào),一般根據(jù)具體case具體進(jìn)行針對性的分析。如根據(jù)監(jiān)控每個(gè)機(jī)房的上報(bào)頻率,排除干擾。
4.ping檢測
大部分干擾已經(jīng)過濾掉,但仍有一部分誤報(bào)隱藏其中。比如ping異常,都合乎宕機(jī)判斷的邏輯,會導(dǎo)致誤判成宕機(jī),如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認(rèn)為不是異常,需要排除掉。
再例如服務(wù)器并沒有掛掉,但是IO延時(shí)和資源占用率各項(xiàng)指標(biāo)都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。