我在 Kubernetes 環境中使用 Apache Ignite .Net v2.7。我使用 TcpDiscoverySharedFsIpFinder 作為集群中的節點發現機制。我注意到正在運行的集群中有一個奇怪的行為。集群成功啟動并可以正常工作幾個小時。然后,一個節點下線,然后每個其他節點寫入類似的日志:[20:03:44] Topology snapshot [ver=45, locNode=fd32d5d7, servers=3, clients=0, state=ACTIVE, CPUs=3, offheap=4.7GB, heap=1.5GB][20:03:44] Topology snapshot [ver=46, locNode=fd32d5d7, servers=2, clients=0, state=ACTIVE, CPUs=2, offheap=3.1GB, heap=1.0GB][20:03:44] Coordinator changed [prev=TcpDiscoveryNode [id=c954042e-5756-4fed-b82a-b8b1d79889ce, addrs=[10.0.0.28, 127.0.0.1], sockAddrs=[/10.0.0.28:47500, /127.0.0.1:47500], discPort=47500, order=36, intOrder=21, lastExchangeTime=1562009450041, loc=false, ver=2.7.0#20181130-sha1:256ae401, isClient=false], cur=TcpDiscoveryNode [id=293902ba-b28d-4a44-8d5f-9cad23a9d7c4, addrs=[10.0.0.11, 127.0.0.1], sockAddrs=[/127.0.0.1:47500, /10.0.0.11:47500], discPort=47500, order=37, intOrder=22, lastExchangeTime=1562009450061, loc=false, ver=2.7.0#20181130-sha1:256ae401, isClient=false]]Jul 01, 2019 8:03:44 PM org.apache.ignite.logger.java.JavaLogger error如您所見,集群中的服務器數量穩步減少,直到集群中只剩下一臺服務器(每個節點上的拓撲快照 [.. servers=1..])。如果我對日志的理解正確,集群會折疊成一組單獨的獨立節點,其中每個節點代表一個單獨的集群。我應該強調所有其他節點(崩潰的節點除外)都已啟動并正在運行。我猜想失敗的節點可能是集群領導者,當它死亡時,集群無法選舉新的領導者并且它分解成許多獨立的節點。你能對此發表評論嗎?我的猜測對嗎?你能告訴我應該檢查什么來診斷和解決這個問題嗎?謝謝你!
1 回答

慕萊塢森
TA貢獻1810條經驗 獲得超4個贊
節點分割通常意味著有長時間的停頓:要么是 GC 停頓,要么是 I/O 停頓,要么是網絡停頓。
您可以嘗試增加failureDetectionTimeout
,看看問題是否消失。或者,您可以嘗試擺脫停頓。
添加回答
舉報
0/150
提交
取消