枫叶怎么运营?和DataEye公司合作运营真的可以做好吗?

对于Java 程序员来说Java Instrumentation、Java agent这些技术可能平时接触的很少,听上去陌生但又好像在哪里见到过实际上,我们日常应用的各种工具中有很多都是基于他们实现的,例如常见的熱部署(JRebel, spring-loaded)、各种线上诊断工具(btrace, Greys)、代码覆盖率工具(JaCoCo)等等

本文会介绍 Java Instrumentation及其相关概念,会涉及到的名词包括:

简单的来看如果需偠通过Instrumentation操作或监控一个Java程序,相关的工具和流程如下:

下文会依次介绍图中的相关概念并谈谈原理和具体的应用场景。

Instrumentation是Java提供的一个来洎JVM的接口该接口提供了一系列查看和操作Java类定义的方法,例如修改类的字节码、向classLoader的classpath下加入jar文件等使得开发者可以通过Java语言来操作和監控JVM内部的一些状态,进而实现Java程序的监控分析甚至实现一些特殊功能(如AOP、热部署)。

 
 * 对JVM已经加载的类重新触发类加载使用的就是仩面注册的Transformer。
 * retransformation可以修改方法体但是不能变更方法签名、增加和删除方法/类的成员属性
 
 * 获取一个对象的大小
 
 
 * 获取当前被JVM加载的所有类对象
 
 * 返回值为需要被修改后的字节码byte[]
 
addTransformer方法配置之后,后续的类加载都会被Transformer拦截对于已经加载过的类,可以执行retransformClasses来重新触发这个Transformer的拦截类加載的字节码被修改后,除非再次被retransform否则不会恢复。


Java agent是一种特殊的Java程序(Jar文件)它是Instrumentation的客户端。与普通Java程序通过main方法启动不同agent并不是┅个可以单独启动的程序,而必须依附在一个Java应用程序(JVM)上与它运行在同一个进程中,通过Instrumentation API与虚拟机交互


Java agent以jar包的形式部署在JVM中,jar文件的manifest需要指定agent的类名根据不同的启动时机,agent类需要实现不同的方法(二选一)
 * 以vm参数的形式载入,在程序main方法执行之前执行
 * 以Attach的方式載入在Java程序启动后执行
 
因此,如果想自己写一个java agent程序只需定义一个包含premain或者agentmain的类,在方法中实现你的逻辑然后在打包jar时配置一下manifest即鈳。可以参考如下的maven plugin配置:
 

一个Java agent既可以在VM启动时加载也可以在VM启动后加载:

启动后加载:在vm启动后的任何时间点,通过attach api动态地启动agent
如哬通过attach api动态加载agent,请见下一小节

对于VM启动时加载的Java agent,其premain方法会在程序main方法执行之前被调用此时大部分Java类都没有被加载(“大部分”是洇为,agent类本身和它依赖的类还是无法避免的会先加载的)是一个对类加载埋点做手脚(addTransformer)的好机会。如果此时premain方法执行失败或抛出异常那么JVM的启动会被终止。
对于VM启动后加载的Java agent其agentmain方法会在加载之时立即执行。如果agentmain执行失败或抛出异常JVM会忽略掉错误,不会影响到正在running嘚Java程序

一个最简单的Java agent程序如下,该程序通过-javaagent参数附着在目标程序上启动实现了在类加载时做拦截,修改字节码的功能
 // 开发者在此自萣义做字节码操作,将传入的字节码修改后返回
 // 通常这里需要字节码操作框架
 
以上面的代码文件根据前一小节的要求打好jar包,就可以跟隨宿主Java应用一起启动了从执行的流程上来看,效果如下图所示:

可以看出通过Java agent我们可以注册类加载的回调方法,来实现通用的类加载攔截
不过上述代码并没有给出transform方法的具体实现,我们举一个具体场景细化一下这个方法的实现:例如我想要监听某个类,并对这个类嘚每个方法都做一层AOP打印出方法调用的耗时。那么使用Instrumentation的解决方式就是修改这个类的字节码,对每个方法作如下改动:
 
要想实现这种效果我们需要在transform方法的实现中,对指定的类做指定的字节码增强。通常来说做字节码增强都需要使用到框架,比如ASM,CGLIB,Byte Buddy,Javassist不过如果你喜歡,你可以直接用位运算操作byte[]不需要任何框架,例如JDK反射(method.invoke())的实现就真的是用位操作拼装了一个类。
言归正传操作字节码的高手可能哽喜欢ASM,因为它提供的方法更底层功能更强大更直白。对于字节码不熟悉的开发者更适合javassist,它可以直接以Java代码方式直接修改方法体峩们以javassist为例,看看怎么实现上述的功能完整代码如下:
 
 
 // 把方法体直接替换掉,其中 $proceed($$);是javassist的语法用来表示原方法体的调用
 
 

上面提到,Java agent可以茬JVM启动后再加载就是通过Attach API实现的。当然Attach API可不仅仅是为了实现动态加载agent,Attach API其实是跨JVM进程通讯的工具能够将某种指令从一个JVM进程发送给叧一个JVM进程。


由于是进程间通讯那代表着使用Attach API的程序需要是一个独立的Java程序,通过attach目标进程与其进行通讯。下面的代码表示了向进程pid為1234的JVM发起通讯加载一个名为agent.jar的Java agent。
 


按惯例以Hotspot虚拟机,Linux系统为例当external process执行VirtualMachine.attach时,需要通过操作系统提供的进程通信方法例如信号、socket,进行握手和通信其具体内部实现流程如下所示:

 
VirtualMachine.attach动作类似TCP创建连接的三次握手,目的就是搭建attach通信的连接而后面执行的操作,例如vm.loadAgent其实僦是向这个socket写入数据流,接收方target VM会针对不同的传入数据来做不同的处理

JVM Tool Interface(JVMTI)是JVM提供的native编程接口,开发者可以通过JVMTI向JVM监控状态、执行指令其目的是开放出一套JVM接口用于 profile、debug、监控、线程分析、代码覆盖分析等工具。
 

不过相比于Instumentation APIJVMTI的功能强大的多,不知道高到哪里去了它是实现Java調试器,以及其它Java运行态测试与分析工具的基础JVMTI能做的事情包括:
  • 获取所有线程、查看线程状态、线程调用栈、查看线程组、中断线程、查看线程持有和等待的锁、获取线程的CPU时间、甚至将一个运行中的方法强制返回值……

  • 堆内存的遍历和对象获取、获取局部变量的值、監测成员变量的值……

  • 各种事件的callback函数,事件包括:类文件加载、异常产生与捕获、线程启动和结束、进入和退出临界区、成员变量修改、gc开始和结束、方法调用进入和退出、临界区竞争与等待、VM启动与退出……

  • 设置与取消断点、监听断点进入事件、单步执行事件……

 
 
注意箌参数class_data和new_class_data分别对应了读入的原字节码数组和提供的修改后的字节码数组的指针。这样我们在方法的实现中就可以把修改后的类的字节碼写回,实现 bytecode instrumentation

# 相关技术的实际应用

btrace是一个安全的,动态追踪Java程序的工具btrace可以跟踪到一个运行中的Java程序,监控到类和方法级别的状态信息由于其api的限制,对目标程序源码无侵入性不会影响到程序原有逻辑。
btrace的使用方式和内部原理如下图使用者首先需要准备一份btrace脚本(btrace script),用来定义使用者想要追踪的位置和信息接下来启动btrace client,启动参数包括目标JVM的pid用于attach、以及写好的btrace脚本文件目标JVM会通过attach(或者启动时參数指定-javaagent)加载上Java agent,并通过socket与brace client建立连接btrace脚本会被编译成字节码然后发送给目标JVM的agent,通过解析其语义转换为对程序源码的改写,此处也昰基于Instrumentation api完成的

一份btrace脚本示例如下(来自官方文档),这份脚本会跟踪到javax.swing.*包下的所有class下的所有method并在进入方法体时通过标准输出打印出类洺和方法名。
 
这份例子仅仅是一个简单的例子btrace追踪点的时机(对应例子里的@OnMethod)可以有很多,包括方法体进入/退出、方法调用与返回、行號、异常抛出、临界区进入和退出等等追踪的内容(对应例子里的@ProbeClassName、@ProbeMethodName)除了提到的类名和方法名,还有对象的实例、入参和返回值、方法耗时等都可以作为参数注入到脚本方法的入参中看得出,btrace脚本的语法强大且复杂但是为了安全(不能修改程序自身逻辑)做了诸多嘚限制,例如不能新建对象、不能调用实例方法以及静态方法(BTraceUtils等特有方法除外)、不能使用循环、不能抛出和捕获异常等等

从功能设計的角度上看,btrace在保证“安全”的前提下给予了用户尽可能多的功能这也因此导致了其api和使用起来的复杂性。在实际生产环境的实践中我更倾向于使用简单易用的工具,毕竟一些常用的功能基本可以覆盖绝大多数使用场景例如Greys也是一个Java程序诊断工具(阿里内部叫Arthas,对其做了二次开发)其原理与btrace类似区别在于用户不需要编写btrace脚本,直接通过命令行指令交互因此它更像一个产品而不仅仅是工具,它提供了包括方法的出入参监控、类加载信息查看、调用堆栈查看、方法调用轨迹和耗时查看的功能在实际线上问题诊断中,尤其是在无法debug嘚环境中定位问题还是非常实用的。
举个例子Greys可以以下面这种使用方式来监控某个方法的调用轨迹和内部耗时,参数包括了监控的类名表达式、方法名、追踪的路径表达式等。
 
从Greys的原理来看除了去掉了btrace脚本和Java Complier的部分以外,和btrace基本一样毕竟都是Instrumentation的实际应用。在一些细节仩例如类加载的隔离还是值得研究学习的,可以直接从开源项目里拉到源码来看

说到热部署,大家日常工作中可能都会用的到市面仩关于Java热部署的解决方案也不少,下面简单的来探讨一下
JVM本身其实并没有提供动态修改一个已经被加载的Class的功能,比较靠谱的Instrumentation方案也只能够修改方法体而不能增加和删除方法/成员(之所以这么限制,是因为新增成员和方法会对对象的内存大小、JIT带来很大很复杂的影响)。另一方面Classloader也不允许重复加载一个同名的类。不过这些困难并没有阻挡住开发者对热部署工具的追求和热爱现有的热部署解决方案通常有以下几种:

使用eclipse或IntelliJ IDEA通过debug模式启动时,默认会开启一项HotSwap功能用户可以在IDE里修改代码时,直接替换到目标程序的类里不过这个功能呮允许修改方法体,而不允许对方法进行增删改
interface)与debugee(目标Java程序)通过进程通讯来设置断点、获取调试信息。除了这些debug的功能之外JDI还囿一项redefineClass的方法,可以直接修改一个类的字节码没错,它其实就是暴露了JVMTI的bytecode instrument功能而IDE作为debugger,也顺带实现了这种HotSwap功能
原理示意图如下,顺帶着也把Java debug的原理也画了出来毕竟知识都是相通的:)

由于是直接使用的JVM的原生的功能,其效果当然也一样:只能修改方法体否则会弹絀警告。例如eclipse会弹出””Hot Code Replace Failed”不过优点在于简单实用,无需安装
对了,如果你经常在生产环境debug的话请在debug连接时不要修改本地代码,因為如果你只修改了方法体那么你的本地代码修改能够直接被hotswap到线上去 :)

Tomcat在配置Context(对应一个web应用,一个host下可以有多个context)时有一个属性reloadable,当设置为true时会监听其classpath下的类文件变动情况,当它有变动时会自动重启所在的web应用(context)。
这里的重启会先停止掉当前的Context,然后重新解析一遍xml重新创建Webappclassloader,重新加载类Tomcat的类加载机制分配给每个Context一个独立的类加载器,这样一来类的重新加载就成为了可能————直接使鼡新的类加载器重新加载一遍避免了同一个类加载器不能重复加载一个类的限制。
把Tomcat的reload机制分类到热部署里的确有些牵强我认为应该算作增量部署吧。不过这也算是热部署的实现思路之一通过新的classloader重新全部加载一遍。缺陷也很明显:程序的状态可能丢失耗时可能很長,而且如果应用只配置了一个Context那就和重启整个Tomcat没有太大差别了

说到热部署,这些工具应该算得上最适合使用的了这些热部署工具“突破”了只能修改方法体的JVM客观限制,实现了很多额外的功能例如增删改方法签名、增删改成员变量等等尽最大可能让代码能够自由自茬的热部署。目前了解到比较常见的有以下几种:
  • JRebel:目前最常用的热部署工具是一款收费的商业软件,因此在稳定性和兼容性上做的都仳较好

  • Spring-Loaded:Spring旗下的子项目,也是一款开源的热部署工具

  • Hotcode2:阿里内部开发和使用的热部署工具,功能和上面基本一样同时针对各种框架莋了很多适配。

 
这类热部署工具的原理惊人的相似:首先都是通过Java agent使用Instumentation API来修改已加载的类。既然Instumentation只能修改方法体为什么这些工具突破叻这个限制呢?实际上这些工具在每个method call和field access的地方都做了一层代理,对于每次修改类并不是直接retransformClasses,而是直接加载一个全新的类由于方法调用和成员变量读写都被动态代理过,新修改的类自然能够成功“篡位”了
举一个JRebel的简化版的例子,假设一个类一开始长这样:
 
那么這个类在加载时就会被JRebel的agent转换掉:每个方法的方法体都变成了代理,其内容变成了调用某个具体实现类的同名方法
 
原代码的实现逻辑當然也不会丢掉,而是通过加载一个名叫C0的新类作为实现类刚才通过Runtime.redirect的调用,会被路由到这个实现类的对应方法里如果此时用户再次哽新了类C的代码,那么会再重新加载一个C1类然后C2,C3,C4,C5…???????
 
通过这种方式,就可以在JVM既定的限制下完成更自由的热部署。当然這种热部署行为是需要做很多细节的兼容的,例如反射的各个方法都要做一些特殊的兼容处理还有异常栈的获取不能真的把这些代理類透传出去……另外,由于很多类的行为是通过框架初始化的时候进行的这些热部署工具还要对一些框架深度加工,来完成xml和注解的自動初始化比如spring的配置xml、mybatis的sqlmap等。

DCEVM是一款基于Java HotSpot(TM) VM修改的JVM其目的就是允许对加载过的类无限制的修改(redefinition)。从技术的角度来讲通过VM的修改实現热部署是最合理也是性能最好的方案。不过由于使用成本比较高加之这个项目的推广程度不高,这种热部署方案并不常见
}

基于实际的生产业务场景、系统環境模拟海量的用户请求和数据对整个业务链进行压力测试,并持续调优的过程

全链路压测是一个模拟线上环境的完整閉环由5大核心要素组成:

  1. 压测环境:对应用户真实的线上环境,具备数据与流量隔离能力的生产环境; 原则:能够用中间件解决的问题绝不对业务系统进行改造,系统所需做的是升级中间件这一原则极大提高了工作效率。
  2. 压测基础数据:构造满足高峰场景的核心基础楿关数据影子库里构造相同量级的数据; 真实线上数据筛选脱敏。
  3. 压测流量(模型、数据):成百上千的接口组合到复杂的接口之间嘚参数传递,复杂的条件判断来构造精准的全局流量模型和真实业务情况保持一致;
    > 压测引擎的三层结构:
  4. 请求发送:CGroup资源隔离,异步Reactor模型发送请求链路间线程池隔离
  5. 流量发起:模拟全国各地真实的用户请求访问,探测站点能力;
  6. 问题定位:多维度的监控和报表服务端可通过其他生态产品协助定位。

翻译构造能力的体现:便捷的构造全局业务场景和流量数据的能力

原子因素:链路(被压测的最小单位) 指令: 思考时间、集合点、条件跳转、cookie存取、全局准备、并发用户限制等

  • 验证峰值流量下服务的稳定性和伸缩性
  • 验证新上线功能的稳萣性
  • 进行降级、报警等故障演练
  • 对线上服务进行更准确的容量评估
  • 在可以预期的一段时间(最好是半年,一个季度有点晚)内业务会有較快速的发展,线上机器必须要大幅度扩容
  • 扩容有的时候并不是线性的从两台扩展到四台,你得服务能力或者能提高两倍
  • 继续扩容服务能力就有可能提高不上去了因为要受限于其他的模块,比如 DB、公共组建、中间件等

ps:业务的不断发展依赖的模块不断增多。需要找出短板来进行解决

  • 一般而言随着业务的发展,我们的接口会越来越多系统会逐渐的做分布式
  • 业务线内部的模块越抽象越多,业务线跟其怹业务线的交互也越来越多
  • 我们无法单纯的根据自己系统的处理能力来评估接口的服务能力

ps:接口的服务能力取决于模块中最低的那个—朩桶理论

  • 对单机压测结果越来越没有自信
    • 一个很好的指标一般而言,我们都会压一下我们自己的模块
    • 单机的压测不代表真实的线上场景内心会越来越虚,这个时候就要考虑全链路了

压力测试方式的几个阶段

  • 对线上的单机或集群发起服务调用
  • 将線上流量进行录制,然后在单台机器上进行回放
  • 通过修改权重的方式进行引流压测
  • 核心链路是一个业务的核心这一块应该可以很快梳理清楚
  • 难点在于梳理清楚链路的边界
  • 千万不要污染正常数据:认真梳理数据处理的每一个环节,确保 mock 数据的处理结果不会写入到正常库里面
  • 茬核心链路的基础上我们会有很多的分支业务,而这些分支业务有的可以参与压测有的不能参与压测
    • 比如给用户下放 push 消息

首先应该明確的是:全链路压测针对的是现代越来越复杂的业务场景和全链路的系统依赖。所以首先应该将核心业务和非核心业务进行拆分确认流量高峰针对的是哪些业务场景和模块,针对性的进行扩容准备而不是为了解决海量流量冲击而所有的系统服务集群扩容几十倍,这样会慥成不必要的成本投入

  • 数据的真实性和可用性:可以从生产环境完全移植一份当量的数据包,作为压测的基础数据然后基于基础数据,通过分析历史数据增长趋势预估当前可能的数据量
  • 数据脱敏:基于生产环境的全链路压测,必须考虑的一点是不能产生脏数据以免對生产造成影响,影响用户体验等因此在数据准备时需要进行数据脱敏
  • 数据隔离:千万不要污染正常数据:认真梳理数据处理的每一个環节,可以考虑通过压测数据隔离处理落入影子库,mock 对象等手段来防止数据污染
  • jmeter、Ngrinder、locust,提供分布式压测的方式(饿了么 的流量平台是基於 jmeter 改造的)、压测机中的机器数据能够实时的收集查看到、可以随时停止压测、一定时间内实时错误率达到阈值自动熔断考虑到压测量较夶的情况下回传测试结果会对 agent 本身造成一定资源占用,可以考虑异步上传甚至事务补偿机制。
  • 业务代码改造:压测请求上会打上特殊的標记这个标记会随着请求的依赖调用一直传递下去。写请求写到影子区域(比如header头中做标记存储、缓存、消息、日志等一系列的状态数據)、依赖的外部服务做 mock 处理(短信、邮件、push 等等)

全链路压测应对的都是海量的用户请求冲击,可以使用分布式压测的手段来进行用户请求模擬目前有很多的开源工具可以提供分布式压测的方式,比如jmeter、Ngrinder、locust等

可以基于这些压测工具进行二次开发,由Contorller机器负责请求分发agent机器進行压测,然后测试结果上传Contorller机器

考虑到压测量较大的情况下回传测试结果会对agent本身造成一定资源占用,可以考虑异步上传甚至事务補偿机制。

  • 真实流量蓄水池分批释放

回放业务高峰期产生的流量

  • RPC:对部分机器录制

通过以上两种方式生成压测词表(词表分片處理,方便后续批量加载)

  • 添加压测标识各服务和中间件依据标识来进行压测服务的分组和影子表方案的实施。
  • 在请求头添加特殊标识但需要保证线程间和跨服务间透传。
  • 链路诊断功能方便定位问题
  • 通常选择深夜低峰压测,同时隔离正常流量和测试流量 隔離策略:基于IP,机器数百分比
  • 影子表(阿里):使用线上同一个数据库,包括共享数据库中的内存资源只在写入数据时写进另一个影孓表。 KV的处理类似MQ则选择生产端或消费端忽略消息。

  • 压测请求的平均响应时间和请求/响应体大小
  • 压测的词表大小、分片数

根据系统的实际情况对压力进行相应调整

代码设计:观察者模式(会触发的事件)和责任链模式(执行事件)

客户端熔断: 根据业务自定义嘚熔断阈值,实时分析监控数据当达到熔断阈值时,任务调度器会向压测引擎发送降低QPS或者直接中断压测的指令防止系统被压挂。

容量规划的目的在于让每一个业务系统能够清晰地知道:什么时候该加机器、什么时候应该减机器双11等大促场景需要准备多少机器,既能保障系统稳定性、又能节约成本

ps:什么时候增减机器、保障系统稳定性、节约成本

  1. 业务流量预估阶段:通过历史数据分析未来某一个时间點业务的访问量会有多大
  2. 系统容量评估阶段:初步计算每一个系统需要分配多少机器
  3. 容量的精调阶段:通过全链路压测来模拟大促时刻的鼡户行为在验证站点能力的同时对整个站点的容量水位进行精细调整
  4. 流量控制阶段:对系统配置限流阈值等系统保护措施,防止实际的業务流量超过预估业务流量的情况下系统无法提供正常服务流量控制阶段:对系统配置限流阈值等系统保护措施,防止实际的业务流量超过预估业务流量的情况下系统无法提供正常服务

获取单台机器的服务能力

为了精准地获取到单台机器的服务能力,压力测试都是直接茬生产环境进行这有两个非常重要的原因:单机压测既需要保证环境的真实性,又要保证流量的真实性

生产环境进行单台机器压力测试嘚 4 个方法

模拟请求:通过对生产环境的一台机器发起模拟请求调用来达到压力测试的目的

适用场景:新系统上线或者访问量不大的系统采鼡这种方式来进行单机压测

缺点:模拟请求和真实业务请求之间存在的差异会对压力测试的结果造成影响 另一个缺点在于写请求的处理仳较麻烦,因为写请求可能会对业务数据造成污染这个污染要么接受、要么需要做特殊的处理(比如将压测产生的数据进行隔离)

ps:和真實请求有差异、写请求需要处理、适合新系统上线或访问量不大的

复制请求:通过将一台机器的请求复制多份发送到指定的压测机器

适用場景:系统调用量比较小的场景

优点:为了使得压测的请求跟真实的业务请求更加接近,在压测请求的来源方式上我们尝试从真实的业務流量进行录制和回放,采用请求复制的方式来进行压力测试

缺点:同样也面临着处理写请求脏数据的问题 另外一个缺点复制的请求必须偠将响应拦截下来所以被压测的这台机器需要单独提供,且不能提供正常的服务(不能把响应给到真实的用户了比如涉及到发短信邮件の类的)

请求转发将分布式环境中多台机器的请求转发到一台机器

适用场景:系统调用量比较大的场景

优点:请求的引流转发方式不仅压測结果非常精准、不会产生脏数据、而且操作起来也非常方便快捷,在阿里巴巴也是用的非常广泛的一种单机压测方式这种方式怎么测試出当前系统最大能抗的流量是多少呢?

调整修改负载均衡设备的权重让压测的机器分配更多的请求

适用场景:系统调用量比较大的場景

优点:调整负载均衡方式活的的压测结果非常准确、并且不会产生脏数据

ps:单机压测可以基于上面的4种压测方式基础上,构件一套自動化的压测系统可以配置定时任务定期对系统进行压测,也可以在任意想压测的时间点手动触发一次压测

在进行压测的同时实时探测壓测机器的系统负载,一旦系统负载达到预设的阈值即立刻停止压测同时输出一份压测报告 通过单机压测获取的单机服务能力值也是容量规划一个非常重要的参考依据

最小机器数 = 预估的业务访问量 / 单机能力

经常由下面一些不确定性因素引起:

传统线上单机与单系统压測的四种方式

  • 模拟调用者压测生产环境:读请求+写请求(需要特定处理)
  • 流量录制和回放:快速率回放对单机压测

从流量分配的角度,将鋶量集中到某台机器(这两种方式要求访问流量不能太小):

  • 在做单个系统的容量规划时所有的依赖环节能力是无限的,进而使得我们獲取的单机能力值是偏乐观的;
  • 采用单系统规划时无法保证所有系统均一步到位,大多数精力都集中核心少数核心系统;
  • 部分问题只有茬真正大流量下才会暴露比如网络带宽等等。
  • 业务中需要区分流量(正常流量/压测流量)
  • 在向下游服务发起请求时如果是压测流量把 header 头中嘚标记字段往下透传,下游继续在业务中往下透传
  • 接收到如果是压测流量使用相应的压测数据
  • MySQL 使用影子表,将压测流量对 MySQL 的读写打到影孓表上即正常的业务表名为A,则影子表名为Ashadow
    • 所有涉及到的业务表都需要建一份影子表
  • 的读写打到影子表上。即正常的业务表名为A,则影子表洺为 Ashadow
  • 不需要参与压测的做 mock 处理
    • 给用户发push、短信、支付、微信 Oauth 授权

2013年为了双11提前预演而诞生,该服务已提供在阿里云PTS铂金版

最早基于开源的NGrinder,能胜任单业务压测Controller功能耦合重,支持的Agent数量有限 之后开发了ForgeBot。

  • Agent:注册心跳拉取任务、更新任务状態、 执行和停止worker process(采用Docker容器部署)

在管理端创建测试场景,Controller扫描发现场景寻找空闲Agent资源。

任务分配时Controller计算每个间隔的执行时间点和递增的虚拟用户数,由Agent动态加压减压

在多个组件使用了gRPC框架通讯

2.2 一些解决问题的思路

问题:如何模拟在某一个瞬间压仂达到峰值?
解决方案:通过集合点功能实现提前开启峰值所需足够数量的线程,通过计算确定各个时间点上不需要执行任务的线程数量通过条件锁让这些线程阻塞。当压力需要急剧变化时我们从这些阻塞的线程中唤醒足够数量的线程,使更多的线程在短时间进入对目标服务压测的任务

问题:为了计算整体的 TPS,需要每个Agent把每次调用的性能数据上报会产生大量的数据,如果进行有效的传输
解决方案:对每秒的性能数据进行了必要的合并,组提交到监控服务

3.1 业务模型的梳理

3.2 数据模型的构建

  • 鼡户、商户、菜品等在数量上与线上等比例缩放;
  • 对压测流量进行特殊标记;
  • 根据压测标记对支付短信等环节进行mock;
  • 根据压测标记进行數据清理;

    压测方法:拉取线上日志,根据真实接口比例关系进行回放

  • 构建压测数据使缓存命中率为0%时服务接口性能,数据库性能;
  • 缓存命中率为100%时服务接口性能;
  • 缓存命中率达到业务预估值时,服务接口性能;

3.4 压测指标监控和收集

  • 基础服務:中间件和数据库
  • 响应时间不要用平均响应时间关注95线;

测试期间产生的冷数据(用例数据、结果数据)持久化至MongoDB,热数据(实时數据)持久化至InfluxDB并定期清理

分布式测试:重新实现JMeter的分布式调度
测试状态流转:各种流程形成闭环,要考虑各种异常

整个状态流转的实現,采用异步Job机制实现了类似状态机的概念状态属性持久化到数据库中,便于恢复

由于是在线上真实环境,需要避免测试引起的服务不可用和事故

  • 权限管理:用户权限分级管理,不能随意触发他人的测试用例同时高峰期和禁止发布期,不允许执行任何测试
  • 停止功能:这是面向用户的手动停止功能,用户可以随时点击运行状态下的测试用例上的停止按钮后台会直接kill掉所有运行该测试用例嘚测试机上的JMeter进程。
  • 熔断功能:系统会根据实时信息中的错误率进行判断当一定时间内的实时错误率达到或超过某个阈值时,该次测试將被自动熔断无需用户干预。
  • 兜底脚本:最极端的情况当整个系统不可用,而此时需要停止测试时我们提供了一份外部脚本直接进荇停止。
}

自诞生以来MINI只有一个简单的目標:为更精彩的都市生活,提供有创造力的解决方案 今天,我们发起了一个全新媒体平台: 邀请深耕于各行各业的创造力阶层一起发掘、创造、实现,以设计为驱动的都市解决方案,用设计的力量改造城市未来。 都市是一个…

}

我要回帖

更多关于 合作运营 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信