📣
TiDB Cloud Premium 开放公测中。为企业级工作负载提供无限扩展、即时弹性伸缩和高级安全保障。此页面由 AI 自动翻译,英文原文请见此处。

将 TiDB Cloud 集成到 Datadog



TiDB Cloud 支持 Datadog 集成。你可以配置 TiDB Cloud,将关于 TiDB 集群的统计/指标(信息)发送到 Datadog。之后,你可以直接在 Datadog 仪表盘中查看这些统计/指标(信息)。

Datadog 集成版本

自 2022 年 3 月 4 日起,TiDB Cloud 支持项目级 Datadog 集成(Beta)。自 2025 年 7 月 31 日起,TiDB Cloud 推出集群级 Datadog 集成(预览版)。自 2025 年 9 月 30 日起,集群级 Datadog 集成将正式发布(GA)。

  • 集群级 Datadog 集成:如果在 2025 年 7 月 31 日前,你的组织内没有未删除的遗留项目级 Datadog 或 New Relic 集成,TiDB Cloud 将为你的组织提供集群级 Datadog 集成,以体验最新增强功能。
  • 遗留项目级 Datadog 集成(Beta):如果在 2025 年 7 月 31 日前,你的组织内至少有一个未删除的遗留项目级 Datadog 或 New Relic 集成,TiDB Cloud 会在项目级保留现有和新建的集成,以避免影响当前仪表盘。请注意,遗留项目级 Datadog 集成将于 2025 年 10 月 31 日弃用。如果你的组织仍在使用这些遗留集成,请按照 迁移 Datadog 和 New Relic 集成 迁移到新的集群级集成,以最大程度减少对统计/指标(信息)相关服务的影响。

前提条件

  • 要将 TiDB Cloud 集成到 Datadog,你必须拥有 Datadog 账户和 Datadog API key。首次创建 Datadog 账户时,Datadog 会为你分配一个 API key。

    如果你还没有 Datadog 账户,请在 https://app.datadoghq.com/signup 注册。

  • 要为 TiDB Cloud 设置第三方统计/指标(信息)集成,你必须在 TiDB Cloud 中拥有 Organization OwnerProject Owner 访问权限。要通过提供的链接查看集成页面或访问已配置的仪表盘,你至少需要 Project Viewer 角色,以访问项目下的目标 TiDB Cloud Dedicated 集群。

限制

  • Datadog 集成目前仅适用于 TiDB Cloud Dedicated 集群。

  • 当集群状态为 CREATINGRESTORINGPAUSEDRESUMING 时,不支持 Datadog 集成。

  • 当带有 Datadog 集成的集群被删除时,其关联的集成服务也会被移除。

操作步骤

步骤 1. 使用你的 Datadog API Key 集成

根据你的 Datadog 集成版本,访问集成页面的步骤有所不同。

    1. TiDB Cloud 控制台中,进入 My TiDB 页面,然后点击目标 TiDB Cloud Dedicated 集群名称,进入其概览页面。

    2. 在左侧导航栏,点击 Settings > Integrations

    3. Integrations 页面,点击 Integration to Datadog

    4. 输入你的 Datadog API key 并选择你的 Datadog site。

    5. 点击 Test Integration

      • 如果测试成功,会显示 Confirm 按钮。
      • 如果测试失败,会显示错误信息。请根据提示排查并重试集成。
    6. 点击 Confirm 完成集成。

    1. TiDB Cloud 控制台中,进入组织的 My TiDB 页面,然后点击 Project view 标签页。

    2. 在项目视图中,找到目标项目,然后点击该项目的

    3. 在左侧导航栏,点击 Project Settings 下的 Integrations

    4. Integrations 页面,点击 Integration to Datadog (BETA)

    5. 输入你的 Datadog API key 并选择你的 Datadog site。

    6. 点击 Test Integration

      • 如果测试成功,会显示 Confirm 按钮。
      • 如果测试失败,会显示错误信息。请根据提示排查并重试集成。
    7. 点击 Confirm 完成集成。

    步骤 2. 在 Datadog 中安装 TiDB Cloud 集成

    1. 登录 Datadog

    2. 进入 Datadog 的 TiDB Cloud Integration 页面

    3. Configuration 标签页,点击 Install Integration

    查看预置仪表盘

    1. TiDB Cloud 控制台中,进入 Integrations 页面。

    2. Datadog 区域点击 Dashboard 链接。

      • 对于集群级 Datadog 集成,Dashboard 链接会打开新版仪表盘,包含增强版本中引入的最新统计/指标(信息)。
      • 对于遗留项目级 Datadog 集成(Beta),Dashboard 链接会打开遗留仪表盘,不包含集群级 Datadog 集成引入的最新统计/指标(信息)。

    Datadog 可用统计/指标(信息)

    Datadog 会跟踪你的 TiDB 集群的以下统计/指标(信息)。

    统计/指标(信息)名称统计/指标(信息)类型标签描述
    tidb_cloud.db_database_timegaugesql_type: Select|Insert|...
    cluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    每秒 TiDB 中所有 SQL 语句运行消耗的总时间,包括所有进程的 CPU 时间和非空闲等待时间。
    tidb_cloud.db_query_per_secondgaugetype: Select|Insert|...
    cluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    所有 TiDB 节点每秒执行的 SQL 语句数量,按语句类型(SELECTINSERTUPDATE)统计。
    tidb_cloud.db_average_query_durationgaugesql_type: Select|Insert|...
    cluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    客户端网络请求发送到 TiDB 与 TiDB 执行后返回给客户端之间的耗时。
    tidb_cloud.db_failed_queriesgaugetype: executor:xxxx|parser:xxxx|...
    cluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    每秒每个 TiDB 节点 SQL 执行错误的错误类型(如语法错误、主键冲突等)统计。
    tidb_cloud.db_total_connectiongaugecluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    当前 TiDB server 的连接数。
    tidb_cloud.db_active_connectionsgaugecluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    活跃连接数。
    tidb_cloud.db_disconnectionsgaugeresult: ok|error|undetermined
    cluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    断开连接的客户端数量。
    tidb_cloud.db_command_per_secondgaugetype: Query|StmtPrepare|...
    cluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    TiDB 每秒处理的命令数,按命令执行结果的成功或失败分类。
    tidb_cloud.db_queries_using_plan_cache_opsgaugecluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    每秒使用 Plan Cache 的查询统计。执行计划缓存仅支持 prepared statement 命令。
    tidb_cloud.db_transaction_per_secondgaugetxn_mode: pessimistic|optimistic
    type: abort|commit|...
    cluster_name: <cluster name>
    instance: tidb-0|tidb-1…
    component: tidb
    每秒执行的事务数量。
    tidb_cloud.node_storage_used_bytesgaugecluster_name: <cluster name>
    instance: tikv-0|tikv-1…|tiflash-0|tiflash-1…
    component: tikv|tiflash
    TiKV 或 TiFlash 节点的磁盘使用量(字节)。该统计/指标(信息)主要表示存储引擎中的逻辑数据大小,不包含 WAL 文件和临时文件。要计算实际磁盘使用率,请使用 (capacity - available) / capacity。当 TiKV 存储使用率超过 80% 时,可能会出现延时激增,更高的使用率可能导致请求失败。当所有 TiFlash 节点存储使用率达到 80% 时,任何添加 TiFlash 副本的 DDL 语句都会无限期假死。
    tidb_cloud.node_storage_capacity_bytesgaugecluster_name: <cluster name>
    instance: tikv-0|tikv-1…|tiflash-0|tiflash-1…
    component: tikv|tiflash
    TiKV/TiFlash 节点的磁盘容量(字节)。
    tidb_cloud.node_cpu_seconds_totalcountcluster_name: <cluster name>
    instance: tidb-0|tidb-1…|tikv-0…|tiflash-0…
    component: tidb|tikv|tiflash
    TiDB/TiKV/TiFlash 节点的 CPU 使用量。
    tidb_cloud.node_cpu_capacity_coresgaugecluster_name: <cluster name>
    instance: tidb-0|tidb-1…|tikv-0…|tiflash-0…
    component: tidb|tikv|tiflash
    TiDB/TiKV/TiFlash 节点的 CPU 核心数上限。
    tidb_cloud.node_memory_used_bytesgaugecluster_name: <cluster name>
    instance: tidb-0|tidb-1…|tikv-0…|tiflash-0…
    component: tidb|tikv|tiflash
    TiDB/TiKV/TiFlash 节点已用内存(字节)。
    tidb_cloud.node_memory_capacity_bytesgaugecluster_name: <cluster name>
    instance: tidb-0|tidb-1…|tikv-0…|tiflash-0…
    component: tidb|tikv|tiflash
    TiDB/TiKV/TiFlash 节点的内存容量(字节)。

    对于集群级 Datadog 集成,还支持以下额外统计/指标(信息):

    统计/指标(信息)名称统计/指标(信息)类型标签描述
    tidb_cloud.node_storage_available_bytesgaugeinstance: tidb-0\|tidb-1\|...
    component: tikv\|tiflash
    cluster_name: <cluster name>
    TiKV/TiFlash 节点可用磁盘空间(字节)。
    tidb_cloud.node_disk_read_latencygaugeinstance: tidb-0\|tidb-1\|...
    component: tikv\|tiflash
    cluster_name: <cluster name>
    device: nvme.*\|dm.*
    每个存储设备的读延时(秒)。
    tidb_cloud.node_disk_write_latencygaugeinstance: tidb-0\|tidb-1\|...
    component: tikv\|tiflash
    cluster_name: <cluster name>
    device: nvme.*\|dm.*
    每个存储设备的写延时(秒)。
    tidb_cloud.db_kv_request_durationgaugeinstance: tidb-0\|tidb-1\|...
    component: tikv
    cluster_name: <cluster name>
    type: BatchGet\|Commit\|Prewrite\|...
    TiKV 按类型请求的耗时(秒)。
    tidb_cloud.db_component_uptimegaugeinstance: tidb-0\|tidb-1\|...
    component: tidb\|tikv\|tiflash
    cluster_name: <cluster name>
    TiDB 组件的运行时长(秒)。
    tidb_cloud.cdc_changefeed_latency (AKA cdc_changefeed_checkpoint_ts_lag)gaugechangefeed_id: <changefeed-id>
    cluster_name: <cluster name>
    changefeed owner 的 checkpoint 时间戳延迟(秒)。
    tidb_cloud.cdc_changefeed_resolved_ts_laggaugechangefeed_id: <changefeed-id>
    cluster_name: <cluster name>
    changefeed owner 的 resolved 时间戳延迟(秒)。
    tidb_cloud.cdc_changefeed_statusgaugechangefeed_id: <changefeed-id>
    cluster_name: <cluster name>
    Changefeed 状态:
    -1: Unknown
    0: Normal
    1: Warning
    2: Failed
    3: Stopped
    4: Finished
    6: Warning
    7: Other
    tidb_cloud.resource_manager_resource_unit_read_request_unitgaugecluster_name: <cluster name>
    resource_group: <group-name>
    Resource Manager 消耗的读请求单元(RU)。
    tidb_cloud.resource_manager_resource_unit_write_request_unitgaugecluster_name: <cluster name>
    resource_group: <group-name>
    Resource Manager 消耗的写请求单元(RU)。
    tidb_cloud.dm_task_stategaugeinstance: instance
    task: task
    cluster_name: <cluster name>
    数据迁移任务状态:
    0: Invalid
    1: New
    2: Running
    3: Paused
    4: Stopped
    5: Finished
    15: Error
    tidb_cloud.dm_syncer_replication_lag_bucketgaugeinstance: instance
    cluster_name: <cluster name>
    数据迁移同步延迟(bucket)。
    tidb_cloud.dm_syncer_replication_lag_gaugegaugeinstance: instance
    task: task
    cluster_name: <cluster name>
    数据迁移同步延迟(gauge)。
    tidb_cloud.dm_relay_read_error_countgaugeinstance: instance
    cluster_name: <cluster name>
    从主库读取 binlog 失败次数。
    tidb_cloud.node_memory_available_bytesgaugecluster_name: <cluster name>
    instance: tidb-0|tidb-1…|tikv-0…|tiflash-0…
    component: tidb|tikv|tiflash
    TiDB/TiKV/TiFlash 节点可用内存(字节)。
    tidb_cloud.cdc_changefeed_replica_rowsgaugechangefeed_id: <changefeed-id>
    cluster_name: <cluster name>
    TiCDC 节点每秒写入下游的事件数。

    文档内容是否有帮助?