1. 前言
由于近期项目的原因,Mars 有大约一周的时间都在 TKE 上工作,之间也踩了一些坑。发现还是需要写一个 Kasten K10 安装 on TKE 的最佳实践。由于 TKE 是一个定制化的 K8S,所以有很多有个性与特色的部分。本着让 每一个 Veeam 的 Partner SE 都可以尝试安装 Kasten 的态度,我们详细的列出了每一步的过程,本文让我们从安装开始给您一些参考,以尽量避免大家少走一些弯路。
本文目录
- 前言
-
在 腾讯云部署 TKE 服务
- 2.1 创建一个TKE K8S 集群
- 2.2 通过 Kubectl 连接 TKE
- 2.2.1 配置k8s kubectl 客户端
- 2.2.2 配置 Kubeconfig
- 2.2.3 kubectl 连接测试
- 2.3. 安装 Helm 工具
3.Kasten K10 部署规划 - 3.1 技术资源准备与要求
- 3.2 K8S 集群资源需求
-
Kasten K10 部署过程
- 4.1. 身份验证 CAM 规划
- 4.2. 配置 TCR 镜像库
- 4.3.启用 CBS-CSI 插件
- 4.4.Pre-Flight Checks
- 4.5 安装 K10 到 K8S 集群
- 配置腾讯云 COS 作为存储库
- 总结
- 参考链接
Kasten 实战系列回顾:
- Kasten K10 实战系列 01 - 在腾讯云上部署 K10 概览
- Kasten K10 实战系列 02 - Kasten K10 搭建云镜像库
- Kasten k10 实战系列 03 - Kasten K10 存储集成功能
- Kasten k10 实战系列 04 - 利用 Kubestr 进行云原生存储能力评测
- Kasten k10 实战系列 05 - Kasten K10 安装及最佳实践
- Kasten k10 实战系列 06 - Kasten K10 备份与恢复
- Kasten k10 实战系列 07 - Kasten K10 Kanister 应用感知框架的使用
- Kasten k10 实战系列 08 - Kasten K10 应用容灾与迁移
- Kasten k10 实战系列 09 - Kasten K10 整体环境灾备
- Kasten k10 实战系列 10 - Kasten K10 日常运维总结
2. 应用腾讯云部署 TKE 服务
腾讯云容器服务介绍
Tencent Kubernetes Engine ,TKE 是基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务。腾讯云容器服务完全兼容原生 kubernetes API ,扩展了腾讯云的云硬盘、负载均衡等 kubernetes 插件,为容器化的应用提供高效部署、资源调度、服务发现和动态伸缩等一系列完整功能,解决用户开发、测试及运维过程的环境一致性问题。
2.1 创建一个TKE K8S 集群
在腾讯云中, TKE 集群的创建十分方便,通过控制台就可以进行,选择 集群 -> 集群管理 -> 新建, 即可创建集群
在创建集群的过程中,我们选择 2C,4G 的云主机做为承载 K8S 集群的服务器
点击完成,查看集群部署状态
所有Pod 都已经在正常运行
获取集群信息打开内网访问
2.2 通过 Kubectl 连接 TKE
为了操作的安全性,我们选择一台与这个集群在相同 VPC 的一台 Linux 主机, 做为操作集群的客户端。首先我们需要安装 kubectl。
2.2.1 配置k8s kubectl 客户端
1. 下载最新的 kubectl 客户端
配置 K8S yum 源
$ cat <<EOF > /etc/yum.repos.d/kubernetes.repo
kubernetes]
name=Kubernetes
baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg https://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg
EOF
2. 安装k8s kubectl 客户端
# yum install -y kubectl kubelet kubeadm
3. 配置k8s kubectl 客户端开机启动
$ systemctl enable kubelet
Created symlink from /etc/systemd/system/multi-user.target.wants/kubelet.service to
Created symlink from /etc/systemd/system/multi-user.target.wants/kubelet.service to
4.启动kubectl 客户端
# systemctl start kubelet
2.2.2 配置 Kubeconfig
1. 配置 Kubeconfig
若当前访问客户端尚未配置任何集群的访问凭证,即 ~/.kube/config 内容为空,可直接复制上方 kubeconfig 访问凭证内容并粘贴入 ~/.kube/config 中。
$ mkdir /$HOME/.kube
$ vim /$HOME/.kube/config ##把 kubeconfig 文件放进上述文件,详见TKE K8S 信息
2. 访问 Kubernetes 集群
完成 kubeconfig 配置后,执行以下指令查看并切换 context 以访问本集群:
$ kubectl config --kubeconfig=$HOME/.kube/config get-contexts
CURRENT NAME CLUSTER AUTHINFO NAMESPACE
* cls-eqlmxhvb-100006537440-context-default cls-eqlmxhvb 100006537440
$ kubectl config --kubeconfig=$HOME/.kube/config use-context cls-eqlmxhvb-100006537440-context-default
Switched to context "cls-eqlmxhvb-100006537440-context-default".
kubectl config --kubeconfig=$HOME/.kube/config get-contexts |grep cls |awk '{print $2}' | xargs kubectl config --kubeconfig=$HOME/.kube/config use-context
Switched to context "cls-hbjxi3pz-100006537440-context-default".
# 把私网集群访问信息加入到 hosts文件
$ sudo sed -i '$a 172.27.0.9 cls-eqlmxhvb.ccs.tencent-cloud.com' /etc/hosts
2.2.3 kubectl 连接测试
而后可执行 kubectl get node 测试是否可正常访问集群。如果无法连接请查看是否已经开启公网访问或内网访问入口,并确保访问客户端在指定的网络环境内。
$ kubectl get nodes
NAME STATUS ROLES AGE VERSION
172.27.0.6 Ready <none> 65m v1.18.4-tke.11
2.3. 安装 Helm 工具
Helm 是一个镜像管理的工具,用来使用预先配置的 Kubernetes 镜像资源包。我们可以通过以下链接下载 Helm
下载 /所需版本] https://github.com/helm/helm/releases
#下载
$ wget https://get.helm.sh/helm-v3.6.2-linux-amd64.tar.gz
#解包
$ tar -zxvf helm-v3.6.2-linux-amd64.tar.gz
# helm 在解压后的目录中找到二进制文件,然后将其移至所需的目标位置
$ mv linux-amd64/helm /usr/local/bin/helm
# 在客户端内运行
$ helm help
参考 Helm3 部署安装
https://cloud.tencent.com/developer/article/1705549Helm3 releases
https://github.com/helm/helm/releases
3.Kasten K10 部署规划
3.1 技术资源准备与要求
Kasten K10 部署在 Tencent Cloud 需要以下先决条件 :
- TKE Tencent Kubenetes Engine 1.18.4(Tencent Kubernetes Engine ,TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务。
- TCR Tencent Container Registry 容器镜像服务, 为您提供安全独享、高性能的容器镜像托管分发服务。
- CBS-CSI 组件 CBS-CSI 组件 支持 TKE 集群通过控制台快捷选择存储类型,并创建对应块存储云硬盘类型的 PV 和 PVC。本文提供 CBS-CSI 组件功能特性等说明并介绍几种常见示例用法。
- COS 对象存储, 用于存放备份的数据集,用于存储部署Kasten K10的自动化检测脚本,和
- 技术人员要求 部署人员除了对腾讯云有一定了解以外,还应该具备 K8S 或 TKE 运维的相关知识。
3.2 K8S 集群资源需求
对于Kasten K10 在 TKE 容器平台环境的部署,Kasten K10 将需要以下资源,鉴于 K10 所保护的应用数量不同,对应的数值也做相应的调整。
资源需求
K10 的资源需求总是与 Kubernetes 集群中的应用程序数量和正在执行的数据管理任务类型有关(例如,快照与备份)。一些资源需求是静态的,我们称之为基本资源需求,而其他资源的占用仅在完成某些数据管理工作时才被需要,因此我们称之为动态资源需求。K10 的自动扩展特性确保了在不执行任何工作时,动态需求资源的消耗缩减为零。虽然以下资源需求与限制的建议适用于大多数 K8S 集群,但需注意的是,最终需求将取决于您的集群和应用程序规模、数据总量、文件大小、分布和数据变化率。比较科学的方式是通过 Prometheus 或 Kubernetes Vertical Pod Autoscaling (VPA) 来检查您的资源需求。
需求类型
我们将需求分为三种类型,即基本工作需求,备份工作需求和灾难恢复需求,并做以下陈述:
- 基本工作需求:这些是 K10 的内部调度和清理服务所需的资源,主要由监控和目录规模需求驱动。这些基本要求的资源占用通常是静态的,通常不会随着受保护的 Kubernetes 资源数量或受保护应用程序数量的增长而显着增长。
- 备份工作需求:当数据从卷快照传输到对象存储或 NFS 文件存储时,需要调用备份工作所需的资源。虽然备份需求取决于您的数据量、变化率和文件系统布局,但这些需求并非没有限制,很容易适应相对廋供给的资源范围。当然在提供额外资源时,K10 还可以加快备份操作的完成。为了在保护大量工作负载时防止无限并行,K10 限制了同时备份作业的数量(默认为 9 个任务并行)。备份资源占用是动态的,在不执行备份时会缩减为零。
灾难恢复需求:这些需求是在执行 K10 安装的灾难恢复所需的资源,主要用于压缩、重复数据删除、加密以及将 K10 目录传输到对象存储。提供额外资源还可以加快 DR 操作。DR 资源占用是动态的,并且在不执行 DR 时会缩减为零。
需求配置指南
下表列出了保护 100 个云原生应用程序或命名空间的 K10 安装的资源要求。需要注意的是,DR 作业也包含在最大并行度限制中,因此您只能 N 同时拥有备份作业 或 N-1 备份作业 + 1 个 DR 作业同时进行。
Type | Requested CPU (Cores) | Limit CPU (Cores) | Requested Memory (GB) | Limit Memory (GB) | |
---|---|---|---|---|---|
Base | 1 | 2 | 1 | 4 | |
Dynamic (per parallel job) | 1 | 1 | 0.4 | 0.4 | |
DR | 1 | 1 | 0.3 | 0.3 | |
Total | 3 | 4 | 1.8 | 4.8 |
腾讯云环境安装需求
以下为腾讯云 TKE 环境安装 Kasten 的需求,只为满足测试需求示例,可按实际用量扩容或缩减
POD数量: 18 -21(根据场景与作业调度不同)
CPU与内存资源: 见 Kasten K10 文档
PVC 存储资源要求:200GB (包括 K8S本身与应用安装 与 Kasten 对持久卷的要求。只为满足测试需求示例,可按实际用量扩容或缩减,)
COS 存储资源要求:200GB (只为满足测试需求示例,可按实际用量扩容或缩减)
Kasten K10 系统需求
https://docs.kasten.io/latest/operating/footprint.html
在腾讯云 TKE 的集群配置中,最小配置为一个节点,推荐两个节点
类型 | 机型 | 规格 | CPU | 内存 | 硬盘 | |
---|---|---|---|---|---|---|
基础配置 | 标准型SA2 | SA2.MEDIUM4 | 2核 | 4GB | 50GB 高性能云硬盘 | |
推荐配置 | 标准型SA2 | SA2.LARGE8 | 4核 | 8GB | 100GB SSD云硬盘 |
4. Kasten K10 部署过程
4.1. 身份验证 CAM 规划
为部署 TKE 与 K10 在 CAM 中有两个至关重要的角色。 TKE_QCSRole 与 TCR_QCSRole, 分别关系着 TKE 服务与 TCR 服务。
确保如下策略在角色载体为 CCS的 TKE_QCSRole中被关联
- QcloudCBSFullAccess
- CLBAutoPreAuthorization
- QcloudAccessForTKERoleInOpsManagement
- QcloudAccessForTKERole
确保如下策略在角色载体为 CCS的 TCR_QCSRole中被关联
- QcloudCBSFullAccess
4.2. 配置 TCR 镜像库
确保 TCR 已经配置完善, TCR 镜像库的搭建十分重要 详细情况请查看 Mars 之前的博客。
Kasten k10 实战系列 03 CSI 存储快照适配
http://www.data2clouds.com/index.php/archives/33/
4.3.启用 CBS-CSI 插件
确保 CBS CSI 已经启用, CBS CSI 存储集成的内容十分重要,详细情况请查看 Mars 之前的博客。
Kasten K10 实战系列 02 - 利用腾讯 TCR 搭建镜像库
http://www.data2clouds.com/index.php/archives/32/
确保 StorageClass CBS-CSI 已经被定义,并配置为默认存储类型
4.4.Pre-Flight Checks
通过 Pre-Flight Checks 脚本,我们可以验证部署的前提条件是否满足,在国内区域我们可以将脚本部署在 COS 存储桶中,如下图。
脚本的原始位置以下链接在您使用的时候,可以进行如下更改, 即把 Image 一行,改成自己镜像库的位置就好了。
$ curl -O https://docs.kasten.io/tools/k10_primer.sh | bash
$vvim k10_primer.sh
if version_gt_eq ${k10ver} ${MIN_K10_VERSION}; then
image=gcr.io/kasten-images/k10tools:${k10ver} # 把这一行改成 ccr.ccs.tencentyun.com/kasten-k10/k10tools
else
执行 Pre-Flight Checks,查看结果,让我们分析一下。
$ curl https://kasten-1257130361.cos.ap-chengdu.myqcloud.com/k10_primer.sh | bash
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 6025 100 6025 0 0 20130 0 --:--:-- --:--:-- --:--:-- 20083
Namespace option not provided, using default namespace
# 检查所需要的工具 kubectl 和 helm
Checking for tools
--> Found kubectl
--> Found helm
# 检查所需要的 helm Chart registry
Checking if the Kasten Helm repo is present
--> The Kasten Helm repo was found
Checking for required Helm version (>= v3.0.0)
--> No Tiller needed with Helm v3.5.4
# K10Primer image 已经重新定向
K10Primer image
--> Using Image (ccr.ccs.tencentyun.com/kasten-k10/k10tools:4.0.5) to run test
Checking access to the Kubernetes context
# 检查 kubeconfig
cls-jrc2egbj-100006537440-context-default
--> Able to access the default Kubernetes namespace
# 创建 k10Primer pod 运行检查程序
Running K10Primer Job in cluster with command-
./k10tools primer
serviceaccount/k10-primer created
clusterrolebinding.rbac.authorization.k8s.io/k10-primer created
job.batch/k10primer created
Waiting for pod k10primer-5z7gl to be ready - ContainerCreating
Pod Ready!
# 版本支持
Kubernetes Version Check:
Valid kubernetes version (v1.18.4-tke.11) - OK
# 访问权限检查
RBAC Check:
Kubernetes RBAC is enabled - OK
# Aggregated Layer
Aggregated Layer Check:
The Kubernetes Aggregated Layer is enabled - OK
# CSI 存储集成检查
CSI Capabilities Check:
Using CSI GroupVersion snapshot.storage.k8s.io/v1beta1 - OK
Validating Provisioners:
cloud.tencent.com/qcloud-cbs:
Storage Classes:
cbs
Supported via K10 Generic Volume Backup. See https://docs.kasten.io/latest/install/generic.html.
com.tencent.cloud.csi.cbs:
Is a CSI Provisioner - OK
Missing/Failed to Fetch CSIDriver Object
Storage Classes:
cbs-csi
Valid Storage Class - OK
Volume Snapshot Classes:
cbs-snapclass
Has k10.kasten.io/is-snapshot-class annotation set to true - OK
Has deletionPolicy 'Delete' - OK
k10-clone-cbs-snapclass
# 检查卷影快照
Validate Generic Volume Snapshot:
Pod Created successfully - OK
GVS Backup command executed successfully - OK
Pod deleted successfully - OK
# 清场。。。
serviceaccount "k10-primer" deleted
clusterrolebinding.rbac.authorization.k8s.io "k10-primer" deleted
job.batch "k10primer" deleted
4.5 安装 K10 到 K8S 集群
1. 获取 Helm Chart 供本地使用
添加 Kasten Helm charts 存储库
$ helm repo add kasten https://charts.kasten.io/
$ helm repo list
NAME URL
kasten https://charts.kasten.io/
$ helm repo update
# 以下这条命令会把 k10-4.0.x.tgz 包下载下来,如果不加任何参数,则会下载最新的版本
# 在Air Gapped 的环境中安装时,可以先行下载再使用。
$ helm fetch kasten/k10 --version=4.0.5
Hang tight while we grab the latest from your chart repositories...
...Successfully got an update from the "kasten" chart repository
Update Complete. ⎈Happy Helming!⎈
2.建立名空间
$ kubectl create namespace kasten-io
namespace/kasten-io created
3. 安装 Kasten K10
在选腾讯云CBS-CSI的云硬盘时,有个最小为10GB的限制,对于 Kasten 来说,有些PVC的要求仅为1GB,所以我们将其更改为10G以上为腾讯云部署作适配, 同时配置的参数还有为扩展 gateway 的 LB 用于外网访问 Kasten 图形界面,与安全性相关的 Token 登录认证的设置。
$ helm install k10 k10-4.0.5.tgz --namespace kasten-io --set global.airgapped.repository=ccr.ccs.tencentyun.com/kasten-k10 \
--set global.persistence.metering.size=20Gi \
--set prometheus.server.persistentVolume.size=20Gi \
--set global.persistence.catalog.size=20Gi \
--set externalGateway.create=true \
--set auth.tokenAuth.enabled=true \
--set metering.mode=airgap \
--set injectKanisterSidecar.enabled=true \
--set injectKanisterSidecar.enabled=true \
--set-string injectKanisterSidecar.namespaceSelector.matchLabels.k10/injectKanisterSidecar=true \
--set global.persistence.storageClass=cbs-csi
目前在不同的 K8S 环境下部署 K10 有很多参数需要设置,此时我们需要查阅部署参数。
查看 Kasten Helm 部署的参数
Complete List of K10 Helm Options
https://docs.kasten.io/latest/install/advanced.html
4. 确认 Kasten K10 Pod 的部署情况
$ kubectl get pods -n kasten-io
NAME READY STATUS RESTARTS AGE
aggregatedapis-svc-5d585974d9-hllwd 1/1 Running 0 3m17s
auth-svc-865fc676d6-zzx54 1/1 Running 0 3m18s
catalog-svc-7cb86f96cf-lfg2c 2/2 Running 0 3m17s
config-svc-f9f97c748-5nqkr 1/1 Running 0 3m18s
crypto-svc-796c7f6c68-dt86r 1/1 Running 0 3m18s
dashboardbff-svc-97b8f8ccb-94mxw 1/1 Running 0 3m16s
executor-svc-6cd8547867-47twc 2/2 Running 0 3m17s
executor-svc-6cd8547867-v68mx 2/2 Running 0 3m16s
executor-svc-6cd8547867-w97kh 2/2 Running 0 3m16s
frontend-svc-6d5bc5b4f6-8xnnf 1/1 Running 0 3m17s
gateway-779686f446-wwxpc 1/1 Running 0 3m17s
jobs-svc-85bc8446bf-8n2v4 1/1 Running 0 3m17s
kanister-svc-7668fd974b-qfqg5 1/1 Running 0 3m17s
logging-svc-69cd88456-btffc 1/1 Running 0 3m17s
metering-svc-5f958567b4-8vgmt 1/1 Running 0 3m18s
prometheus-server-5f55997d87-j9r88 2/2 Running 0 3m18s
state-svc-85d456bf86-9mdmv 1/1 Running 0 3m17s
5. 访问 K10 控制台
通过 查看 K8S Service 中的Gateway-ext,查看 访问 K10的IP地址
$ kubectl get svc -n kasten-io |grep gateway
gateway ClusterIP 172.16.254.25 <none> 8000/TCP 23m
gateway-admin ClusterIP 172.16.253.77 <none> 8877/TCP 23m
gateway-ext LoadBalancer 172.16.254.231 139.155.64.86 80:31718/TCP 23m
#浏览器访问如下地址
http://139.155.64.86/k10/#/
在终端输入如下命令获取 Token
$ sa_secret=$(kubectl get serviceaccount k10-k10 -o jsonpath="{.secrets 0].name}" --namespace kasten-io) && \
kubectl get secret $sa_secret --namespace kasten-io -ojsonpath="{.data.token}{'\n'}" | base64 --decode
输入您的公司名和邮件地址
之后可以看到,Kasten K10 管理界面已经完美的出现在浏览器中。
5. 配置腾讯云 COS 作为存储库
我们可以能过设置 S3 Compatible 存储库的方式,将 腾讯云 COS 设置成为备份存储库,满足 3-2-1-1-0 的备份黄金法则。
点击 Settings -> Locations -> New Profile 新建云存储链接
存储库连接建立好,如下图
6. 总结
以上就是关于 Kasten 在腾讯云 TKE 上安装的详细记录,供大家在部署时参考。后续还会对 Kasten 的备份恢复进行说明,敬请期待!
7. 参考链接
Complete List of K10 Helm Options
https://docs.kasten.io/latest/install/advanced.html
Kasten k10 实战系列 03 CSI 存储快照适配
http://www.data2clouds.com/index.php/archives/33/
Kasten K10 实战系列 02 - 利用腾讯 TCR 搭建镜像库
http://www.data2clouds.com/index.php/archives/32/
参考 Helm3 部署安装
https://cloud.tencent.com/developer/article/1705549
Helm3 releases
https://github.com/helm/helm/releases
Kasten K10 系统需求
https://docs.kasten.io/latest/operating/footprint.html