多台物理主机之间的容器互联(暴露容器到真实网络中)
docker 默认的桥接网卡是 docker0 。它只会在本机桥接所有的容器网卡,举例来说容器的虚拟网卡在主机上看一般叫做 vethxxx,而 docker 只是把所有这些网卡桥接在一起,如下:
这样就可以把这个网络看成是一个私有的网络,通过 nat 连接外网,如果要让外网连接到容器中,就需要做端口映射,即 -p 参数。
如果在企业内部应用,或则做多个物理主机的集群,可能需要将多个物理主机的容器组到一个物理网络中来,那么就需要将这个网桥桥接到我们指定的网卡上。
主机 A 和主机 B 的网卡一都连着物理交换机的同一个 vlan 101, 这样网桥一和网桥三就相当于在同一个物理网络中了,而容器一、容器三、容器四也在同一物理网络中了,他们之间可以相互通信,而且可以跟同一 vlan 中的其他物理机器互联。
这样就直接把容器暴露到物理网络上了,多台物理主机的容器也可以相互联网了。需要注意的是,这样就需要自己来保证容器的网络安全了。
不同容器之间的通信可以借助于 pipework 这个工具
pipework是由Docker的工程师Jérôme Petazzoni开发的一个Docker网络配置工具,由200多行shell实现,方便易用。
下载地址:wget https://github.com/jpetazzo/pipework.git
unzip pipework-master.zip
cp -p /root/pipework-master/pipework /usr/local/bin/
安装相应依赖软件
yum install bridge-utils -y
配置桥接网络
重启network服务
把 docker 的桥接指定为 br0,这样跨主机不同容器之间通过 pipework 新建 docker 容器的网卡桥接到 br0,这样跨主机容器之间就可以通信了。
CentOS 7/RHEL 7系统
#systemctl stop docker
修改/etc/sysconfig/docker
#systemctl start docker
pipework
把 docker 默认桥接指定到了 br0,则最好在创建容器的时候加上--net=none,防止自动分配的 IP 在局域网中有冲突。
使用镜像运行一个容器
注:默认不指定网卡设备名,则默认添加为 eth1
注:另外 pipework 不能添加静态路由,如果有需求则可以在 run 的时候加上 --privileged=true 权限在容器中手动添加,但这种安全性有缺陷,可以通过 ip netns 操作
访问容器提供的web服务:
使用ip netns添加静态路由,避免创建容器使用--privileged=true选项造成一些不必要的安全问题:
进入容器查看路由记录:
在其它宿主机进行相应的配置,新建容器并使用 pipework 添加虚拟网卡桥接到 br0,测试通信情况即可。
注:可以删除 docker0,直接把 docker 的桥接指定为 br0。也可以保留使用默认的配置,这样单主机容器之间的通信可以通过 docker0,而跨主机不同容器之间通过 pipework 新建 docker 容器的网卡桥接到 br0,这样跨主机容器之间就可以通信了。
扩展:
pipework可以在下面用三个场景来使用和工作原理。
1 将Docker容器配置到本地网络环境中
为了使本地网络中的机器和Docker容器更方便的通信,我们经常会有将Docker容器配置到和主机同一网段的需求。这个需求其实很容易实现,我们只要将Docker容器和主机的网卡桥接起来,再给Docker容器配上IP就可以了。
下面我们来操作一下,我主机A地址为192.168.1.102/24,网关为192.168.1.1,需要给Docker容器的地址配置为192.168.1.150/24。在主机A上做如下操作:
安装pipework
下载地址:wget https://github.com/jpetazzo/pipework.git
unzip pipework-master.zip
cp -p /root/pipework-master/pipework /usr/local/bin/
启动Docker容器。
docker run -itd --name test1 镜像 /bin/bash
配置容器网络,并连到网桥br0上。网关在IP地址后面加@指定。
pipework br0 test1 192.168.1.150/[email protected]
将主机enp0s3桥接到br0上,并把enp0s3的IP配置在br0上。
ip addr add 192.168.1.102/24 dev br0
ip addr del 192.168.1.102/24 dev enp0s3
brctl addif br0 enp0s3
ip route del default
ip route add default via 192.168.1.1 dev br0
注:如果是远程操作,中间网络会断掉,所以放在一条命令中执行。
ip addr add 192.168.1.102/24 dev br0; \ ip addr del 192.168.1.102/24 dev enp0s3; \ brctl addif br0 enp0s3; \ ip route del default; \ ip route add default via 192.168.1.1 dev br0
完成上述步骤后,我们发现Docker容器已经可以使用新的IP和主机网络里的机器相互通信了。
进入容器内部查看容器的地址:
pipework工作原理分析
那么容器到底发生了哪些变化呢?我们docker attach到test1上,发现容器中多了一块eth1的网卡,并且配置了192.168.1.150/24的IP,而且默认路由也改为了192.168.1.1。这些都是pipework帮我们配置的。
·首先pipework检查是否存在br0网桥,若不存在,就自己创建。
·创建veth pair设备,用于为容器提供网卡并连接到br0网桥。
·使用docker inspect找到容器在主机中的PID,然后通过PID将容器的网络命名空间链接到/var/run/netns/目录下。这么做的目的是,方便在主机上使用ip netns命令配置容器的网络。因为,在Docker容器中,我们没有权限配置网络环境。
·将之前创建的veth pair设备分别加入容器和网桥中。在容器中的名称默认为eth1,可以通过pipework的-i参数修改该名称。
·然后就是配置新网卡的IP。若在IP地址的后面加上网关地址,那么pipework会重新配置默认路由。这样容器通往外网的流量会经由新配置的eth1出去,而不是通过eth0和docker0。(若想完全抛弃自带的网络设置,在启动容器的时候可以指定--net=none)
以上就是pipework配置Docker网络的过程,这和Docker的bridge模式有着相似的步骤。事实上,Docker在实现上也采用了相同的底层机制。
通过源代码,可以看出,pipework通过封装Linux上的ip、brctl等命令,简化了在复杂场景下对容器连接的操作命令,为我们配置复杂的网络拓扑提供了一个强有力的工具。当然,如果想了解底层的操作,我们也可以直接使用这些Linux命令来完成工作,甚至可以根据自己的需求,添加额外的功能。
2 单主机Docker容器VLAN划分
pipework不仅可以使用Linux bridge连接Docker容器,还可以与OpenVswitch结合,实现Docker容器的VLAN划分。下面,就来简单演示一下,在单机环境下,如何实现Docker容器间的二层隔离。
为了演示隔离效果,我们将4个容器放在了同一个IP网段中。但实际他们是二层隔离的两个网络,有不同的广播域。
安装openvswitch
安装基础环境
yum install gcc make python-devel openssl-devel kernel-devel graphviz \
kernel-debug-devel autoconf automake rpm-build redhat-rpm-config \
libtool
下载openvswitch的包
wget http://openvswitch.org/releases/openvswitch-2.3.1.tar.gz
解压与打包
tar zxvf openvswitch-2.3.1.tar.gz
mkdir -p ~/rpmbuild/SOURCES
cp openvswitch-2.3.1.tar.gz ~/rpmbuild/SOURCES/
sed ‘s/openvswitch-kmod, //g‘ openvswitch-2.3.1/rhel/openvswitch.spec > openvswitch-2.3.1/rhel/openvswitch_no_kmod.spec
rpmbuild -bb --without check openvswitch-2.3.1/rhel/openvswitch_no_kmod.spec
之后会在~/rpmbuild/RPMS/x86_64/里有2个文件
安装第一个就行
启动
或
systemctl start openvswitch
查看状态
或
可以看到是正常运行状态
安装pipework 过程略,参考前面的操作
创建交换机,把物理网卡加入ovs1
在主机A上创建4个Docker容器,test1、test2、test3、test4
docker run -itd --name test1 ubuntu /bin/bash
docker run -itd --name test2 ubuntu /bin/bash
docker run -itd --name test3 ubuntu /bin/bash
docker run -itd --name test4 ubuntu /bin/bash
将test1,test2划分到一个vlan中,vlan在mac地址后加@指定,此处mac地址省略。
pipework ovs1 test1 192.168.1.1/24 @100 (注:有空格)
pipework ovs1 test2 192.168.1.2/24 @100 (注:有空格)
将test3,test4划分到另一个vlan中
pipework ovs1 test3 192.168.1.3/24 @200 (注:有空格)
pipework ovs1 test4 192.168.1.4/24 @200 (注:有空格)
完成上述操作后,使用docker attach连到容器中,然后用ping命令测试连通性,发现test1和test2可以相互通信,但与test3和test4隔离。这样,一个简单的VLAN隔离容器网络就已经完成。
由于OpenVswitch本身支持VLAN功能,所以这里pipework所做的工作和之前介绍的基本一样,只不过将Linux bridge替换成了OpenVswitch,在将veth pair的一端加入ovs0网桥时,指定了tag。底层操作如下:
ovs-vsctl add-port ovs0 veth* tag=100
3 多主机Docker容器的VLAN划分
上面介绍完了单主机上VLAN的隔离,下面我们将情况延伸到多主机的情况。有了前面两个例子做铺垫,这个也就不难了。为了实现这个目的,我们把宿主机上的网卡桥接到各自的OVS网桥上,然后再为容器配置IP和VLAN就可以了。我们实验环境如下,主机A和B各有一块网卡enp0s3,IP地址分别为10.10.101.105/24、10.10.101.106/24。在主机A上创建两个容器test1、test2,分别在VLAN 100和VLAN 200上。在主机B上创建test3、test4,分别在VLAN 100和VLAN 200 上。最终,test1可以和test3通信,test2可以和test4通信。
拓扑图如下所示
在主机A上
创建Docker容器
docker run -itd --name test1 ubuntu /bin/bash
docker run -itd --name test2 ubuntu /bin/bash
划分VLAN
pipework ovs0 test1 192.168.0.1/24 @100
pipework ovs0 test2 192.168.0.2/24 @200
将eth0桥接到ovs0上
ip addr add 10.10.101.105/24 dev ovs0
ip addr del 10.10.101.105/24 dev eth0;
ovs-vsctl add-port ovs0 eth0
ip route del default
ip route add default gw 10.10.101.254 dev ovs0
在主机B上
创建Docker容器
docker run -itd --name test3 ubuntu /bin/bash
docker run -itd --name test4 ubuntu /bin/bash
划分VLAN
pipework ovs0 test1 192.168.0.3/24 @100
pipework ovs0 test2 192.168.0.4/24 @200
将eth0桥接到ovs0上
ip addr add 10.10.101.106/24 dev ovs0
ip addr del 10.10.101.106/24 dev eth0;
ovs-vsctl add-port ovs0 eth0
ip route del default
ip route add default gw 10.10.101.254 dev ovs0
完成上面的步骤后,主机A上的test1和主机B上的test3容器就划分到了一个VLAN中,并且与主机A上的test2和主机B上的test4隔离(主机eth0网卡需要设置为混杂模式,连接主机的交换机端口应设置为trunk模式,即允许VLAN 100和VLAN 200的包通过)。
注:除此之外,pipework还支持使用macvlan设备、设置网卡MAC地址等功能。不过,pipework有一个缺陷,就是配置的容器在关掉重启后,之前的设置会丢失。
其中promisc表示网卡混杂模式
其他参数的含义:
UP: 表示网卡开启状态;
BROADCAST: 表示支持广播;
promisc: 表示网卡混杂模式;
RUNNING: 表示网卡的网线被接上;
MULTICAST: 表示支持组播;
MTU: 表示MaximumTrasmission Unit 最大传输单元(字节),即此接口一次所能传输的最大封包;
RX: 表示网络由激活到目前为止接收的数据包;
TX: 表示网络由激活到目前为止发送的数据包;
collisions: 表示网络信号冲突的情况;
txqueuelen: 表示传输缓冲区长度大小;
设置网卡工作模式
#ifconfig 网卡名 promisc 设置混杂
#ifconfig 网卡名 -promisc 取消混杂
网卡工作模式有4种,分别是:
广播(Broadcast)模式
多播(Multicast)模式
单播模式(Unicast)
混杂模式(Promiscuous)
在混杂模式下的网卡能够接收一切通过它的数据,而不管该数据目的地址是否是它。如果通过程序将网卡的工作模式设置为 “混杂模式”,那么网卡将接受所有流经它的数据帧,这实际上就是Sniffer工作的基本原理:让网卡接收一切他所能接收的数据。Sniffer就是一种 能将本地网卡状态设成混杂(promiscuous)状态的软件,当网卡处于这种"混杂"方式时,它对所有遇到的每一个数据帧都 产生一个硬件中断以便提醒操作系统处理流经该物理媒体上的每一个报文包。可见,Sniffer工作在网络环境中的底层,它会拦截所有的正在网络上传送的数据,并且通过相应的软件处理,可以实时分析这些数据的内容,进而分析所处的网络状态和整体布局。