搭建Kubernetes集群

在本章的前几节,我们在minikube集群上,实战了很多内容,是时候搭建真正的集群了。

本节,我们将借助kubeadm的帮助,搭建准生产级的k8s集群。

关于"准生产"的含义,我们先放下不表。

以下的集群搭建假设你使用Ubuntu的发行版,20.04,需要3台机器(可以是物理服务器,也可以是虚拟机,以下我们都简称机器)。

如果你不是Ubuntu,请自行替换部分安装命令,很简单。

1 调整系统参数

我们需要调整一些系统参数,以方便后续集群的搭建。

lsmod | grep br_netfilter
br_netfilter

sysctl net.bridge.bridge-nf-call-iptables
net.bridge.bridge-nf-call-iptables = 1

sysctl net.bridge.bridge-nf-call-ip6tables
net.bridge.bridge-nf-call-ip6tables = 1

swapoff -a

说明如下:

  • 需要开启netfilter

  • 调整对应内核参数如上

  • 关闭swap,建议你同步修改fstab(保证重启后生效)

2 安装Docker

首先安装Docker

sudo apt-get update && sudo apt-get install -y apt-transport-https
sudo apt install -y docker.io
sudo systemctl start docker
sudo systemctl enable docker

接着,调整Docker默认组权限

# 将自己添加到docker组中
sudo groupadd docker
sudo gpasswd -a ${USER} docker
# 重启后重新load下权限
sudo service docker restart
newgrp - docker

最后,调整以下Docker的默认参数:

sudo vim /etc/docker/daemon.json

{ 
  "registry-mirrors": [ "https://registry.docker-cn.com" ], 
  "exec-opts": ["native.cgroupdriver=systemd"] 
}

以上调整包含两部分:

  • 换成了docker的国内源,稳定但是速度并不快

  • 替换了cgroups驱动,这个主要是Ubuntu等几个发行版的问题,可以参考这篇文章

以上操作完成后,我们重启Docker服务:

sudo service docker restart

3 安装Kubernetes相关二进制文件

由于众所周知的原因,直接使用Google的apt仓库是不行的,我们直接用aliyun的(暂时没有focal的,这里沿用xenial的)。

sudo /etc/apt/source/xxx
deb http://mirrors.aliyun.com/kubernetes/apt kubernetes-xenial main
sudo apt-get update

如果提示错误,自行import一下GPG key即可,请自行搜索。

sudo apt-get install -y kubelet kubeadm kubectl kubernetes-cni

最后启动

sudo systemctl status kubelet

如果是Run的状态是正常的,如果是Stopped,请查看日志,自行解决。

4 安装Kubernetes所需要的镜像文件

Kubernets在启动时,会拉取大量了gcr.io上的容器镜像。

由于众所周知的原因,这些国内是无法访问的。

我们可以先将镜像离线下载到本地,再继续安装。

先看一眼需要哪些镜像,这里需要设定版本,我们用当前最新版1.22.1:

kubeadm config images list --kubernetes-version v1.22.1
k8s.gcr.io/kube-apiserver:v1.22.1
k8s.gcr.io/kube-controller-manager:v1.22.1
k8s.gcr.io/kube-scheduler:v1.22.1
k8s.gcr.io/kube-proxy:v1.22.1
k8s.gcr.io/pause:3.5
k8s.gcr.io/etcd:3.5.0-0
k8s.gcr.io/coredns/coredns:v1.8.4

这里我们使用阿里云的国内镜像,我这里使用awk的方式提供执行命令,你可以将输出结果直接黏贴到shell中执行。

第一步,拉取镜像:

kubeadm config images list --kubernetes-version v1.22.1 | awk -F "/" '{print "docker pull registry.aliyuncs.com/google_containers/"$NF""}'


docker pull registry.aliyuncs.com/google_containers/kube-apiserver:v1.22.1
docker pull registry.aliyuncs.com/google_containers/kube-controller-manager:v1.22.1
docker pull registry.aliyuncs.com/google_containers/kube-scheduler:v1.22.1
docker pull registry.aliyuncs.com/google_containers/kube-proxy:v1.22.1
docker pull registry.aliyuncs.com/google_containers/pause:3.5
docker pull registry.aliyuncs.com/google_containers/etcd:3.5.0-0
# 最后这个要稍微特殊处理下
docker pull coredns/coredns:1.8.4

第二步,镜像tag重命名:(原因:我们换了镜像,一些前缀和tag会不对):

kubeadm config images list --kubernetes-version v1.22.1 | awk -F "/" '{print "docker tag registry.aliyuncs.com/google_containers/"$2" k8s.gcr.io/"$NF""}'

docker tag registry.aliyuncs.com/google_containers/kube-apiserver:v1.22.1 k8s.gcr.io/kube-apiserver:v1.22.1
docker tag registry.aliyuncs.com/google_containers/kube-controller-manager:v1.22.1 k8s.gcr.io/kube-controller-manager:v1.22.1
docker tag registry.aliyuncs.com/google_containers/kube-scheduler:v1.22.1 k8s.gcr.io/kube-scheduler:v1.22.1
docker tag registry.aliyuncs.com/google_containers/kube-proxy:v1.22.1 k8s.gcr.io/kube-proxy:v1.22.1
docker tag registry.aliyuncs.com/google_containers/pause:3.5 k8s.gcr.io/pause:3.5
docker tag registry.aliyuncs.com/google_containers/etcd:3.5.0-0 k8s.gcr.io/etcd:3.5.0-0
# 特殊处理
docker tag coredns/coredns:1.8.4 k8s.gcr.io/coredns/coredns:v1.8.4

第三步,删除重命名之前的废弃tag:

kubeadm config images list --kubernetes-version v1.22.1 | awk -F "/" '{print "docker rmi registry.aliyuncs.com/google_containers/"$2""}'

docker rmi registry.aliyuncs.com/google_containers/kube-apiserver:v1.22.1
docker rmi registry.aliyuncs.com/google_containers/kube-controller-manager:v1.22.1
docker rmi registry.aliyuncs.com/google_containers/kube-scheduler:v1.22.1
docker rmi registry.aliyuncs.com/google_containers/kube-proxy:v1.22.1
docker rmi registry.aliyuncs.com/google_containers/pause:3.5
docker rmi registry.aliyuncs.com/google_containers/etcd:3.5.0-0
# 特殊处理
docker rmi coredns/coredns:1.8.4

最后,让我们确认下本地有哪些镜像:

docker images
REPOSITORY                           TAG       IMAGE ID       CREATED        SIZE
k8s.gcr.io/kube-apiserver            v1.22.1   f30469a2491a   3 weeks ago    128MB
k8s.gcr.io/kube-proxy                v1.22.1   36c4ebbc9d97   3 weeks ago    104MB
k8s.gcr.io/kube-controller-manager   v1.22.1   6e002eb89a88   3 weeks ago    122MB
k8s.gcr.io/kube-scheduler            v1.22.1   aca5ededae9c   3 weeks ago    52.7MB
k8s.gcr.io/etcd                      3.5.0-0   004811815584   3 months ago   295MB
k8s.gcr.io/coredns/coredns           v1.8.4    8d147537fb7d   3 months ago   47.6MB
k8s.gcr.io/pause                     3.5       ed210e3e4a5b   6 months ago   683kB

5 初始化集群

上述准备操作,需要在3台机器都执行。

当准备妥当后,我们要初始化集群了,选择一台机器做为主节点(Master),我们假设这台的地址是192.168.6.91:

sudo kubeadm init --kubernetes-version v1.22.1 --apiserver-advertise-address=192.168.6.91 --pod-network-cidr=10.6.0.0/16

上述的参数要解释下:

  • 集群版本1.22.1

  • api主控服务器的地址192.168.6.91

  • pod网络的地址是10.6.0.0/16,这里强制指定了,后面我们设定网络插件时会用。

上述执行成功后,会有一个提示,类似如下,复制出来,后面要用到:

...
kubeadm join 10.3.96.3:6443 --token w1zh7w.l6chof87e113m8u7 --discovery-token-ca-cert-hash sha256:5c010cce4123abcf6c48fd98f8559b33c1efc80742270d7493035a92adf53602
...

我们初始化配置:

mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

如果一切顺利,我们安装网络插件,这里以Weave为例:

kubectl apply -f "https://cloud.weave.works/k8s/net?k8s-version=$(kubectl version | base64 | tr -d '\n')"

至此,主节点(Master)就配置完成了,我们继续配置其他节点。

6 其他节点加入集群

在其他节点上,执行前面记录的kubeadm join命令,都执行后,等一会,回到Master节点上,集群已经ready:

kubectl get nodes
NAME STATUS ROLES AGE VERSION
k8s1 Ready master 2m v1.14.3
k8s2 Ready <none> 40s v1.14.3
k8s3 Ready <none> 28s v1.14.3

7 测试和重置

我们部署一个nginx的pod

kubectl run nginx --image=nginx

在某一台机器上测试:

kubectl describe pod nginx | grep ip
10.6.0.194
curl "10.6.0.194"

成功!

至此,我们完成了“准生产集群”的搭建,这里准生产的意思是:他已经具备了集群特性,但还不具备高可用的能力,我们会在下一节介绍Kubernetes集群的高可用。