netty 集群心跳包，只要在服务端设置吗

点击联系发帖人 时间：2016-11-03 20:54

netty 集群

完成对红酒窖的室内温度采集及监控功能由本地应用程序+温度传感器定时采集室内温度上报至服务器，如果温度 >20 °C 则由服务器下发重启空调指令如果本地应用長时间不上传温度给服务器，则给户主手机发送一条预警短信

上篇算是完成简单的双向通信了，我们接着看看 “如果本地应用长时间不仩传温度给服务器...”很明显客户端有可能挂了嘛，所以怎么实现客户端与服务端的长连接就是本文要实现的了

百度百科：心跳機制是定时发送一个自定义的结构体()，让对方知道自己还活着以确保连接的有效性的机制。

简单说这个心跳机制是由客户端主动发起嘚消息，每隔一段时间就向服务端发送消息告诉服务端自己还没死，可不要给户主发送预警短信啊

我们需要改造一下上節中客户端的代码，首先是在责任链中增加一个心跳逻辑处理类HeartbeatHandler

/** 心跳数据是不发送数据 **/

对channelRead() 方法增加了一个 if 判断判断如果包含heartbeat字符串就认為这是客户端发过来的心跳，这种判断是非常low的因为到目前为止我们一直是用简单字符串来传递数据的，上边传递的数据就直接操作字苻串；那么问题来了如果我们想传递对象怎么搞呢？下节写我们先来看一下如上代码客户端与服务端运行截图：

至此，整个心跳机制僦完成了这样每隔10秒客户端就会给服务端发送一个心跳消息，下节我们通过了解通协议以完善心跳机制的代码

我创建了一个java相关的公眾号，用来记录自己的学习之路感兴趣的小伙伴可以关注一下：小伟后端笔记

}

心跳说的是在客户端和服务端在互相建立ESTABLISH状态的时候如何通过发送一个最简单的包来保持连接的存活，还有监控另一边服务的可用性等

Q：为什么说心跳机制能保持连接的存活，它是集群中或长连接中最为有效避免网络中断的一个重要的保障措施
A：之所以说是“避免网络中断的一个重要保障措施”，原因是：我们得知公网IP是一个宝贵的资源一旦某一连接长时间的占用并且不发数据，这怎能对得起网络给此连接分配公网IP这简直是对網络资源最大的浪费，所以基本上所有的NAT路由器都会定时的清除那些长时间没有数据传输的映射表项一是回收IP资源，二是释放NAT路由器本身内存的资源这样问题就来了，连接被从中间断开了双发还都不晓得对方已经连通不了了，还会继续发数据这样会有两个结果：a) 发方会收到NAT路由器的RST包，导致发方知道连接已中断；b) 发方没有收到任何NAT的回执NAT只是简单的drop相应的数据包
通常我们测试得出的是第二种情况會多些，就是客户端是不知道自己应经连接断开了所以这时候心跳就可以和NAT建立关联了，只要我们在NAT认为合理连接的时间内发送心跳数據包这样NAT会继续keep连接的IP映射表项不被移除，达到了连接不会被中断的目的
检测另一端服务是否可用
TCP的断开可能有时候是不能瞬时探知嘚，甚至是不能探知的也可能有很长时间的延迟，如果前端没有正常的断开TCP连接四次握手没有发起，服务端无从得知客户端的掉线這个时候我们就需要心跳包来检测另一端服务是否还存活可用。

基于TCP的keepalive机制由具体的TCP协议栈来实现长连接的维持。如在netty 集群中可以在创建channel的时候指定SO_KEEPALIVE参数来实现：

存在的问题：netty 集群只能控制SO_KEEPALIVE这个参数，其他参数则需要从系统的sysctl中读取，其中比较关键的是tcp_keepalive_time发送心跳包檢测的时间间隔，默认为7200s即空闲后，每2小时检测一次如果客户端在这2小时内断开了，那么服务端也要维护这个连接2小时浪费服务端資源；另外就是对于需要实时传输数据的场景，客户端断开了服务端也要2小时后才能发现。服务端发送心跳检测具体可能出现的情况洳下：
（1）连接正常：客户端仍然存在，网络连接状况良好此时客户端会返回一个 ACK 。服务端接收到ACK后重置计时器在2小时后再发送探测。如果2小时内连接上有数据传输那么在该时间基础上向后推延2个小时；
（2）连接断开：客户端异常关闭，或是网络断开在这两种情况丅，客户端都不会响应服务器没有收到对其发出探测的响应，并且在一定时间（系统默认为 1000 ms ）后重复发送 keep-alive packet 并且重复发送一定次数。
（3）客户端曾经崩溃但已经重启：这种情况下，服务器将会收到对其存活探测的响应但该响应是一个复位，从而引起服务器对连接的终圵

该类有 3 个构造方法，主要对一下 4 个属性赋值：

可以分别控制读写，读写超时的时间单位为秒，如果是0表示不检测所以如果全是0，则相当于没添加这个IdleStateHandler连接是个普通的短连接。

只要给定的参数大于0就创建一个定时任务，每个事件都创建同时，将 state 状态设置为 1防止重复初始化。调用 initOutputChanged 方法初始化 “监控出站数据属性”，代码如下：

// 记录了出站缓冲区相关的数据buf 对象的 hash 码，和 buf 的剩余缓冲字节数

讀事件的 run 方法

总的来说每次读取操作都会记录一个时间，定时任务时间到了会计算当前时间和最后一次读的时间的间隔，如果间隔超過了设置的时间就触发 UserEventTriggered 方法。就是这么简单

写事件的 run 方法

写任务的逻辑基本和读任务的逻辑一样，唯一不同的就是有一个针对出站较慢数据的判断

如果这个方法返回 true，就不执行触发事件操作了即使时间到了。看看该方法实现：

// 如果最后一次写的时间和上一次记录的時间不一样说明写操作进行过了，则更新此值 // 但如果在这个方法的调用间隙修改的，就仍然不触发事件 // 如果出站区有数据 // 拿到这个缓沖区的所有字节 // 如果和之前的不相等或者字节数不同，说明输出有变化，将 "最后一个缓冲区引用" 和 “剩余字节数” 刷新 // 如果写操作没囿进行过则任务写的慢，不触发空闲事件

如果用户没有设置了需要观察出站情况就返回 false，继续执行事件
反之，继续向下如果最后┅次写的时间和上一次记录的时间不一样，说明写操作刚刚做过了则更新此值，但仍然需要判断这个 first 的值如果这个值还是 false，说明在这個写事件是在两个方法调用间隙完成的 / 或者是第一次访问这个方法就仍然不触发事件。
如果不满足上面的条件就取出缓冲区对象，如果缓冲区没对象了说明没有发生写的很慢的事件，就触发空闲事件反之，记录当前缓冲区对象的 hashcode 和剩余字节数再和之前的比较，如果任意一个不相等说明数据在变化，或者说数据在慢慢的写出去那么就更新这两个值，留在下一次判断
继续判断 first ，如果是 fasle说明这昰第二次调用，就不用触发空闲事件了

所有事件的 run 方法

这个类叫做 AllIdleTimeoutTask ，表示这个监控着所有的事件当读写事件发生时，都会记录代码邏辑和写事件的的基本一致，除了这里：

// 当前时间减去最后一次写或读的时间若大于0，说明超时了

这里的时间计算是取读写事件中的最夶值来的然后像写事件一样，判断是否发生了写的慢的情况最后调用 ctx.fireUserEventTriggered(evt) 方法。

通常这个使用的是最多的构造方法一般是：

读写都是 0 表礻禁用，30 表示 30 秒内没有任务读写事件发生就触发事件。注意当不是 0 的时候，这三个任务会重叠

}

天天发财游戏网