为使用云存储的 TiDB 集群更换节点

本文介绍一种在不停机情况下为使用云存储的 TiDB 集群更换、升级节点的方法。你可以为 TiDB 集群更换更高节点规格,也可以为节点升级新版本 Kubernetes。

本文以 Amazon EKS 为例,介绍了如何创建新的节点组,然后使用滚动重启迁移 TiDB 集群到新节点组,用于 TiKV 或者 TiDB 更换计算资源更多的节点组,EKS 升级等场景。

前置条件

  • 云上已经存在一个 TiDB 集群。如果没有,可参考 Amazon EKS 进行部署。
  • TiDB 集群使用云存储作为数据盘。

第一步:创建新的节点组

  1. 找到 TiDB 集群所在的 EKS 集群的配置文件 cluster.yaml,将其拷贝保存为 cluster-new.yaml

  2. cluster-new.yaml 中加入新节点组 tidb-1b-newtikv-1a-new

    apiVersion: eksctl.io/v1alpha5 kind: ClusterConfig metadata: name: your-eks-cluster region: ap-northeast-1 nodeGroups: ... - name: tidb-1b-new desiredCapacity: 1 privateNetworking: true availabilityZones: ["ap-northeast-1b"] instanceType: c5.4xlarge labels: dedicated: tidb taints: dedicated: tidb:NoSchedule - name: tikv-1a-new desiredCapacity: 1 privateNetworking: true availabilityZones: ["ap-northeast-1a"] instanceType: r5b.4xlarge labels: dedicated: tikv taints: dedicated: tikv:NoSchedule

    如果要升级节点规格,修改 instanceType。如果要升级节点 Kubernetes 版本,请先升级 Kubernetes Control Plane 版本,可以参考更新集群

  3. cluster-new.yaml 中删除要更换的原节点组。

    本例中删除 tidb-1btikv-1a 节点组,请根据情况自行删除。

  4. cluster.yaml 中删除无需更换的节点组,保留要更换的原节点组,这些节点组将从集群中被删除。

    本例中留下 tidb-1btikv-1a 节点组,删除其他节点组。请根据情况自行调整。

  5. 执行以下命令,创建新的节点组:

    eksctl create nodegroup -f cluster_new.yml
  6. 执行下面命令,确认新节点已加入:

    kubectl get no -l alpha.eksctl.io/nodegroup-name=${new_nodegroup1} kubectl get no -l alpha.eksctl.io/nodegroup-name=${new_nodegroup2} ...

    其中 ${new_nodegroup} 是新节点组名称,本例中是 tidb-1b-newtikv-1a-new,请根据情况自行调整。

第二步:标记原节点组的节点为不可调度

使用 kubectl cordon 命令标记原节点组节点为不可调度,防止新的 Pod 调度上去:

kubectl cordon -l alpha.eksctl.io/nodegroup-name=${origin_nodegroup1} kubectl cordon -l alpha.eksctl.io/nodegroup-name=${origin_nodegroup2} ...

其中 ${origin_nodegroup} 是原节点组名称,本例中是 tidb-1btikv-1a,请根据情况自行调整。

第三步:滚动重启 TiDB 集群

参考重启 Kubernetes 上的 TiDB 集群滚动重启 TiDB 集群。

第四步:删除原来节点组

通过下面命令确认是否有 TiDB/PD/TiKV Pod 遗留在原节点组节点上:

kubectl get po -n ${namespace} -owide

确认没有 TiDB/PD/TiKV Pod 遗留后,运行下面命令删除原节点组:

eksctl delete nodegroup -f cluster.yaml --approve

文档内容是否有帮助?