原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,转载请保留出处。
今天介绍一个可以拿出去吹牛的功能:实现socket句柄在进程之间迁移!为了这篇文章,xjjdog可算下了苦功夫,半夜还在翻资料。因为需要验证后,才能证明这项技术确实是正确的。
正文。
我们的服务器上,运行着大量的server实例(instance)。这些instance,每个都要承载着数十万的连接和非常繁忙的网络请求。能够把这样的连接数,这样的流量,玩弄于股掌之间,是每个互联网程序员的梦想。
但软件总是要升级的,每当升级的时候,就需要先停掉原来的instance,然后再启动一个新的。在这一停一起之间,数十秒就过去了,更不要说JAVA这种启动时间就能生个孩子的速度了。
传统的做法,是先把这个instance从负载均衡上面摘除,然后启动起来再加上;对于微服务来说,就要先隔离,然后启动后再取消隔离。这些操作,对于海量应用来说,就是个噩梦。
有没有一种方法,能够把一个进程所挂载的连接(socket),转移到另外一个进程之上呢?这样,我在升级的时候,就可可以先启动一个升级版本的进程,然后把老进程的socket,one by one的给转移过去。
实现零停机更新。
这个是可以的。Facebook就实践过类似的技术,它们把这项技术,叫做Socket Takeover。千万别用百度搜这个关键字,你得到的可能是一堆垃圾。
这么牛x的技术,还这么有用,为什么就没人科普呢?别问我,我也不知道,可能大家现在都在纠结怎么研究茴香豆的茴字写法,没时间干正事吧。
那今天就由xjjdog来介绍一下吧,顺便增加一下大家以后的吹牛资本。
这个牛x的功能,是由Linux一对底层的系统调用函数所实现的:sendmsg()和recvmsg()。我们一般在发送网络数据包的时候,一般会使用send函数,但send函数只有在socket处于连接状态时才可以使用;与之不同的是,sendmsg在任何时候都可以使用。
在c语言网络编程中,首先要通过listen函数,来注册监听地址,然后再用accept函数接收新连接。比如:
int listen_fd = socket(addr->ss_family, SOCK_STREAM, 0);...bind(listen_fd, (struct sockaddr *) addr, addrlen);...int accept_fd = accept(fd, (struct sockaddr *) &addr, &addrlen);
我们首先要做的,就是把listen_fd,从一个进程,传递到另外一个进程中去。怎么发送呢?肯定是要通过一个通道的。在Linux上,那就是UDS,全称Unix Domain Sockets。
UDS(Unix Domain Sockets)在Linux上的表现,是一个文件。相比较于普通socket监听在端口上,一个进程也可以监听在一个UDS文件上,比如/tmp/xjjdog.sock。由于通过这个文件进行数据传输,并不需要走网卡等物理设备,所以通过UDS传输数据,速度是非常快的。
但今天我们不关心它有多块,而是关心它多有用。通过bind函数,我们同样可以通过这个文件接收连接,就像端口接收连接一样。
struct sockaddr_un addr;char *path="/tmp/xjjdog.sock";int err, fd;fd = socket(AF_UNIX, SOCK_STREAM, 0);memset(&addr, 0, sizeof(struct sockaddr_un));addr.sun_family = AF_UNIX;strncpy(addr.sun_path, path, strlen(path));addrlen = sizeof(addr.sun_family) + strlen(path);err = bind(fd, (struct sockaddr *) &addr, addrlen);...accept_fd = accept(fd, (struct sockaddr *) &addr, &addrlen);
这样。其他的进程,就可以通过两种不同的方式,来连接我们的服务。
怎么迁移呢?我们关键看第二步。
实际上,当新升级的服务通过UDS连接上来,我们就开始使用sendmsg函数,将listen_fd给转移过去。
我们来看一下sendmsg这个函数的参数。
ssize_t sendmsg( int socket, const struct msghdr *message, int flags);
socket可以理解为我们的UDS连接。关键在于msghdr这个结构体。
struct msghdr { void *msg_name; /* optional address */ socklen_t msg_namelen; /* size of address */ struct iovec *msg_iov; /* scatter/gather array */ int msg_iovlen; /* # elements in msg_iov */ void *msg_control; /* ancillary data, see below */ socklen_t msg_controllen; /* ancillary data buffer len */ int msg_flags; /* flags on received message */};
其中, msg_iov表示要正常发送的数据,比如HelloWord;除此之外,还有两个ancillary (附属的) 的变量,提供了附加的功能,那就是变量msg_control和msg_controllen。其中,msg_control又指向了另外一个结构体cmsghdr。
struct cmsghdr { socklen_t cmsg_len; /* data byte count, including header */ int cmsg_level; /* originating protocol */ int cmsg_type; /* protocol-specific type */ /* followed by */ unsigned char cmsg_data[];};
在这个结构体中,有一个叫做cmsg_type的成员变量,是我们实现socket迁移的关键。
它共有三个类型。
其中,SCM_RIGHTS就是我们所需要的,它允许我们从一个进程,发送一个文件句柄到另外一个进程。
struct msghdr msg;...struct cmsghdr *cmsg = CMSG_FIRSTHDR(&msg);cmsg->cmsg_level = SOL_SOCKET;cmsg->cmsg_type = SCM_RIGHTS;//socket fd列表,设置在cmsg_data上int *fds = (int *) CMSG_DATA(cmsg);
依靠sendmsg函数,socket句柄就发送到另外一个进程了。
同样的,recvmsg函数,将会接收这部分数据,然后将其还原成cmsghdr结构体。然后我们就可以从cmsg_data中获取句柄列表。
为什么能这么做呢?因为socket句柄,在某个进程里,其实只是一个引用。真正的fd句柄,其实是放在内核中的。所谓的迁移,只不过是把一个指针,从一个进程中去掉,再加到另外一个进程中罢了。
fd句柄的属性,有两种情况。
图片来自论文:(Zero Downtime Release: Disruption-free Load Balancing of a Multi-Billion User Website)
对于普通fd,肯定要调用与原新连接到来时相同的代码逻辑。所以,一个大体的迁移过程,包括:
这是一项黑科技,其实已经在一些主流的应用中使用了。你会看到一些非常眼熟的软件,这项功能是它们的一大卖点。比如HAProxy,运行在4层网络的负载均衡;比如Envoy,Istio默认的数据平面软件,使用类似的技术完成热重启。
其实,在servicemesh的推进过程中,proxy的替换,也会使用类似的技术,比如SOFA。对于golang和C语言来说,由于API暴露的比较好,这种功能可以很容易的实现;但在Java中,却有不少的困难,因为Java的跨平台特性不会做这种为Linux定制的API。
可以看到,sendmsg和recvmsg这两个函数,可以实现的功能非常的酷。它比较适合无状态的proxy服务,如果服务内有状态存留,这种迁移并不见得安全,当然也可以尝试把此项技术运用在一些中间件上。但无论如何,这种黑科技,有一种别样的暴力美,肯定会把Windows server用户给馋哭的。
推荐阅读:
1. 玩转Linux
2. 什么味道专辑
3. 蓝牙如梦
4. 杀机!
5. 失联的架构师,只留下一段脚本
6. 架构师写的BUG,非比寻常
黄飞鸿热灸馆加盟项目,整店输出模式,专业热灸加盟技术培训,一个专业做中医养生的连锁品牌。源自黄飞鸿的嫡孙继承了黄飞鸿先生的遗志,多年来一直坚定不移地致力于大健康产业,并创立了黄飞鸿热灸馆;主要业务服务有黄飞鸿热炙理疗,黄飞鸿热炙理疗馆加盟,黄飞鸿理疗馆,黄飞鸿热灸,黄飞鸿养生馆加盟,黄飞鸿养生馆加盟,黄飞鸿热灸馆,黄飞鸿热灸体验馆,黄飞鸿热灸馆加盟,黄飞鸿热灸理疗馆,黄飞鸿热灸膏
TokenPocket钱包支持数字资产存储。每天走势掌握,功能强大,在线管理数字货币,超多币种推送,多种交易方式,私钥用户自持且轻便易用的以太坊轻钱包。tp支持多资产类型,如:TokenPocket、ETH、QTUM、AE、BTM等大多数主流币种,让tp钱包更好地融入你的生活。
浙江丰安齿轮股份有限公司成立于1999年1月,是一家集开发、设计、制造、销售服务为一体的齿轮专业制造商,占地面积93亩,总资产3亿余元,主要设备400余台。公司于2017年1月在“新三板”挂牌,股票代码870508。公司以精湛的技术、过硬的品质、优良的服务来赢得客户满意,努力打造业界一流齿轮制造企业。
我公司系高新技术企业,专业从事空气净化的产品生产、工程服务及洁净技术的应用与研究,提供从空调处理设备、空调自动控制系统到洁净室系统全面服务,为各类工业用空气处理提供一揽子解决方案及交钥匙工程。 产品遍及全国几十个省市,并出口至巴基斯坦、伊朗等国家。我公司在化纤工艺空调领域精耕细作20余年,2001年进入医药、电子等行业的净化空调设备。 本公司拥有雄厚的技术力量和良好的售后服务,承接系统设计、技术咨询、产品制造、技术改造等项目。设备采用工业计算机、可编程序(PLC)控制器、数字直接控制器(DDC)等智能控制器,可实现节能显著的运行系统(节能策略有:新回风的焓值控制、二次回风、送风机的变频调速;非露点控制方案在过渡季节节能50%。在化纤纺丝行业采用的节能措施,同样可在医药行业的净化空调上使用);采用与国际惯例接轨的CAD设计和质量保证体系。
双友科技为客户提供直缝埋弧焊管生产线、直缝高频焊管生产线、螺旋埋弧焊管生产线、钢管内外防腐生产线,石油套管生产线,热处理生产线以及其他系列产品。同时公司致力于为高端铝业服务,为客户提供更为高效,节能,环保,安全的铸铝生产线及其相关设备。公司积极推进国际化发展战略,逐步实现品牌、市场、团队、技术、管理与国际化标准接轨。此外,公司与众多国际知名管材和铝材生产商建立了紧密的合作关系,在中东设立了海外分支机构。双友科技旨在将中国的高端制造带给世界。
南京三超新材料股份有限公司成立于1999年1月,注册资本9360万元,2017年4月21日,在深圳创业板成功挂牌上市。占地面积130亩,建筑面积约86,000平方米。是一家专业从事金刚石、立方氮化硼工具的研发、生产与销售的高新技术企业,现拥有金刚石砂轮和金刚石线两大类相互协同的产品系列,应用于硅、蓝宝石、石英、铁氧体、钕铁硼、陶瓷、玻璃、硬质合金等硬脆材料的精密切割、磨削与抛光。 公司自成立以来,始终坚持"以人为本、技术优先"的发展理念,先后引入多名外籍专家,并在日本成立了超硬材料工具的专业研发机构。经过多年研发,公司成为国内最早通过自主研发掌握金刚线制造的相关技术,成功实现产业化的企业之一,并且打破了国外企业的技术垄断,与新研发成功的硅片背面减薄砂轮、硅片倒角砂轮、PAD修整器等产品,为半导体及太阳能光伏行业提供了优质的金刚石工具,并凭借良好的品质与高性价比,赢得了众多实力用户认可,在国内形成了较高的行业影响力。