qq可以交多少天前的作业,为qq输入什么会掉东西往下拉显示“没有更多作业”,但是我其他手机有很久以前的作业

  • Rookie成为LPL第二个2000杀先生Uzi纪录至今无囚能破

}

摘要:本文由 bilibili 大数据实时平台负責人郑志升分享基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践本次分享主要围绕以下四个方面:

各个业务部门进荇业务研发时都有实时计算的需求。早期在没有平台体系做支撑时开发工作难度较大,由于不同业务部门的语言种类和体系不同导致管理和维护非常困难。其次bilibili 有很多关于用户增长、渠道投放的分析等 BI 分析任务。而且还需要对实时数仓的实时数据进行清洗此外,bilibili 作為一个内容导向的视频网站AI 推荐场景下的实时计算需求也比较强烈。

  • 开发门槛高:基于底层实时引擎做开发需要关注的东西较多。包括环境配置、语言基础而编码过程中还需要考虑数据的可靠性、代码的质量等。其次市场实时引擎种类多样,用户选择有一定困难

  • 運维成本高:运维成本主要体现在两方面。首先是作业稳定性差早期团队有 Spark 集群、YARN 集群,导致作业稳定性差容错等方面难以管理。其佽缺乏统一的监控告警体系,业务团队需要重复工作如计算延时、断流、波动、故障切换等。

  • AI 实时工程难:bilibili 客户端首页推荐页面依靠 AI 體系的支撑早期在 AI 机器学习方面遇到非常多问题。机器学习是一套算法与工程交叉的体系工程注重的是效率与代码复用,而算法更注偅特征提取以及模型产出实际上 AI 团队要承担很多工程的工作,在一定程度上十分约束实验的展开另外,AI 团队语言体系和框架体系差异較大所以工程是基建体系,需要提高基建才能加快 AI 的流程降低算法人员的工程投入。

为解决上述问题bilibili 希望根据以下三点要求构建基於 Apache Flink 的流式计算平台。

  • 第二点DAG 拖拽编程,一方面用户可以通过画板来构建自己的 Pipeline,另一方面用户也可以使用原生 Jar 方式进行编码

  • 第三点,作業的一体化托管运维

涵盖场景:bilibili 流式计算平台主要涵盖四个方面的场景。

  • AI 工程方向解决了广告、搜索、推荐的流式 Joiner 和维表 Joiner;

  • 实时计算嘚特征支持,支持 Player 以及 CDN 的质量监控包括直播、PCU、卡顿率、CDN 质量等;

  • 用户增长,即如何借助实时计算进行渠道分析、调整渠道投放效果;

  • 實时 ETL包括 Boss 实时播报、实时大屏、看板等。

实时平台由实时传输和实时计算两部分组成平台底层统一管理元数据、血缘、权限以及作业運维等。实时传输主要负责将数据传入到大数据体系中实时计算基于 BSQL 提供各种应用场景支持。

如下图所示实时传输有 APP 日志、数据库 Binlog、垺务端日志或系统日志。bilibili 内部的 Lancer 系统解决数据落地到 Kafka 或 HDFS计算体系主要围绕 Saber 构建一套 BSQL,底层基于 YARN 进行调度管理

上层核心基于 Flink 构建运行池。再向上一层满足多种维表场景包括 MySQL、Redis、HBase。状态(State)部分在 RocksDB 基础上还扩展了 MapDB、Redis。Flink 需要 IO 密集是很麻烦的问题因为 Flink 的资源调度体系内有內存和 CPU,但 IO 单位未做统一管理当某一个作业对 IO 有强烈的需求时,需要分配很多以 CPU 或内存为单位的资源且未必能够很好的满足 IO 的扩展。所以本质上 bilibili 现阶段是将 IO 密集的资源的 State 转移到 Redis 上做缓解数据经过 BSQL 计算完成之后传输到实时数仓,如 Kafka、HBase、ES 或 MySQL、TiDB最终到 AI 或 BI、报表以及日志中惢。

(1)开发架构图:如下图左侧所示最上层是 Saber-Streamer,主要进行作业提交以及 API 管理下一层是 BSQL 层,主要进行 SQL 的扩展和解析包括自定义算子囷个性算子。再下层是运行时态下面是引擎层。运行时态主要管理引擎层作业的上下层bilibili 早期使用的引擎是 Spark Streaming,后期扩展了 Flink在开发架构Φ预留了一部分引擎层的扩展。最下层是状态存储层右侧为指标监控模块。

(2)平台设计准则:Saber 平台系统设计时团队关注其边界以及规范和准则有以下四个关键点。第一是对 Streaming workflows 进行抽象第二是数据规范性,保证 schema 完整第三是通用的 BSQL 解析层。第四是工程效率

在上述抽象過程中规范语义化标准。即最后输入、输出给定规范标准底层通过 Json 表达方式提交作业。在没有界面的情况下也可以直接通过 Json 方式拉起莋业。

  • 让数据说话:数据抽象化计算过程中的数据源于数据集成的上报。数据集成的上报有一套统一的平台入口用户首先需要在平台仩构建一个输入的数据源。用户选择了一个对应的数据源平台可以将其分发到 Kafka、 HBase、 Hive 等,并且在分发过程中要求用户定义 Schema所以在数据集荿过程中,可以轻松地管理输入语言的 Schema计算过程中,用户选择 Input Source比如选择一个 HBase 的表或 Kafka 的表,此时 Schema 已是强约束的用户通过平台提供的 BSQL 或鍺 DAG 的方式进行结果表或者指标的输出。

  • 参照阿里云对外资料进行了扩展另外,BSQL 针对计算过程进行了优化如针对算子计算的数据倾斜问題采取分桶 + hash 策略进行打扫。针对 distinct 类 count非精准计算采用 Redis 的 HyperLogLog。

  • BSQL 解析模型:BSQL 解析模型拓扑展开如下图当用户提交了一个 SQL,目标是将 SQL 转化成树の后可以获取 SqlNode 节点。SqlNode 节点中有很多元数据信息在 SqlNode 树的情况下实现 Table 解析器,将不同的 SqlNode 节点转化成 Flink 相应的 Streamer 进行映射

  • BSQL 执行流程:用户提交 SQL,BSQL 艏先进行验证并构建 SQL 树验证与构建主要是提取表名、字段信息,从元数据库中提取 schema 验证 SQL 的规范性、完整性和合法性验证完成后,将输叺表和结果表注册到 Flink 的运行时态其中还包括 UDF 和 watermark 信息的完善。另外平台对 SQL 有一些扩展。第三块是扩展的核心工作将 SQL 树中扩展的子树转換为新的节点,然后将 SQL 的 DAG 提交到 Flink 上运行

  • 效果展示-DAG:如下图所示,DAG 产品展示包括并行度的设计、日志、监控指标告警输出。

  • 效果展示-BSQL:鼡户根据选择的表的输入源的 schema 编写相应的 SQL最后选择相应 UDF 就可以提交到相应集群。

  • 效果展示-作业调试:如下图所示为平台支持的作业调试如果只有 SQL 开发却没有作业调试环节,是令用户痛苦的故平台支持通过文件上传的方式以及线上采样的方式进行作业调试 SQL。

  • 效果展示-作業运维:平台提供给用户一些监控指标、用户可自定义扩展的指标以及 bilibili 实现的一些特殊 SQL 的自定义指标下图所示为部分队列的运行情况。

AI 體系中有 Offline 和 Online 过程Online(线上训练)根据流量做 A/B 实验,根据不同实验的效果做推荐同时每个实验需要有相应的模型 push 到线上。AI 的痛点集中在 Offline(離线训练)Offline 则通过流式方式进行训练。下图是 Offline 流式训练早期情况用户需要构建流和流的实时 join,从而产出实时 label 流而流和维表及特征信息的 join 来产出实时 instance 流,但早期相关的工程服务存在着单点问题服务质量、稳定性带来的维护成本也很高,致使 AI 在早期 Pipeline 的构建下投入非常大

  • 数据时效性:数据时效性无法得到保证。很多数据是通过离线方式进行计算但很多特征的时效性要求非常高。

  • 工程质量:单点工程不利于服务扩展以及稳定性保障

  • 工程效率:每一个实验都有较高门槛,需要做 Label 生产Features 计算以及 Instance 拼接。在不同业务线不同场景的推荐背后,算法同学做工程工作他们掌握的语言不同,导致工程上语言非常乱另外,流、批不一致模型的训练在实时环境与离线批次环境的笁程差异很大,其背后的逻辑相似导致人员投入翻倍增长。

  • SJoin-工程背景:流量规模大如 bilibili 首页推荐的流量,AI 的展现点击 Join来自全站的点击量和展现。此外不仅有双流 Join,还有三流及以上的 Join如广告展现流、点击流、搜索查询流等。第三不同 Join 对 ETL 的清洗不同。如果不能通过 SQL 的方式进行表达则需要为用户提供通用的扩展,解决不同业务对 Join 之前的定制化 ETL 清洗第四,非典型 A Left Join B On Time-based Window 模型主流 A 在窗口时间内 Join 成功后,需要等待窗口时间结束再吐出数据延长了主流 A 在窗口的停留时间。此场景较为关键bilibili 内部不仅广告、AI、搜索,包括直播都需要类似的场景洇为 AI 机器学习需要正负样本均匀以保证训练效果,所以第四点问题属于强需求

  • SJoin-技术痛点:下图是 Flink 使用 WindowOperator 时的内部拓扑图。用户打开窗口烸一条记录都是一个 Window 窗口。第一个问题是窗口分配量巨大QPS 与窗口分配量基本持恒。第二个问题是 Timer Service 每一个记录都打开了一个窗口在早期原生 Flink 中是一个内存队列,内存队列部分也存在许多问题底层队列早期是单线程机制,数据 Cache 在内存中存在许多问题。

简单总结其技术痛點首先,Timer 性能较差且内存消耗大。第二Value RocksDB State 在 compact 时会导致流量抖动。类似 HBase多 level 的 compact 会造成性能抖动和写放大。第三重启流量过大时,由于 Timer 早期只有内存队列Window 和 Keystate 恢复周期不可控。从磁盘加载大量数据耗时长服务 recovery 时间久。

  • SJoin 优化-自研 Timer:实现将内存数据达到 Max 之后溢写到磁盘底層用 MapDB 做磁盘溢写。磁盘溢写原理是 LSM 模型同样存在数据抖动问题。由于窗口是 1 小时相当于数据以 1 小时为单位进行 State 管理。如下图右侧所示当 0 点到 1 点的 1 小时,由于记录在 1 小时后才会吐出数据进来只有写的动作。在 1 点到 2 点数据会写入到新的 State,0 点到 1 点的 State 已经到达窗口时间進行数据吐出。自研 Timer 很好地解决了数据的读写问题和抖动问题但是由于自研 Timer 缺乏 CheckPoint 机制,如果节点上的磁盘出现故障会导致 State 数据丢失。

  • 存储后续进行压缩后数据量约 700G。

  • SJoin 优化-扩展 SQL 语法:扩展 SQL 的功能诉求是展现流等待 1 小时窗口当点击流到达时,不立即吐出 Join 完成的数据而等待窗口结束后再吐出。故扩展了 SQL 语法虽然目前未达到通用,但是能满足诸多部门的 AI 需求语法支持 Select * from A left(global)$time window and

提供的异步 IO 能力,将异步子树轉换为 Streaming Table并将其注册到 Flink 环境中。通过以上过程支持 SQL 表达

  • DJoin-工程背景:bilibili 对于维表数据要求不同。比如一些维表数据很大以 T 为单位,此时如果用 Redis 存储会造成浪费而有一些维表数据很小,如实时特征同时,维表数据更新粒度不同可以按天更新、按小时更新、按分钟更新等。

    另外维表性能要求很高。因为 AI 场景会进行很多实验例如某一个特征比较好,就会开很多模型、调整不同参数进行实验单作业下实驗组越多,QPS 越高RT 要求越高。不同维表存储介质有差异对稳定性有显著影响。调研中有两种场景当量比较小,可以使用 Redis 存储稳定性較好。当量很大使用 Redis 成本高,但 HBase CP 架构无法保证稳定性

  • DJoin-工程优化:需要针对维表 Join 的 SQL 进行语法支持。包括 Cache 优化当用户写多条 SQL 的维表 Join 时,需要提取多条 SQL 维表的 Key并通过请求合并查询维表,以提高 IO以及流量均衡优化等。第二KV 存储分场景支持,比如 JDBC、KVKV 场景中,对百 G 级别使鼡 Redis

  • DJoin-语法扩展:DJoin 语法扩展与 SJoin 语法扩展类似对 SQL 树子树进行转化,通过 AsyncIO 进行扩展实现维表。

  • DJoin-HBase 高可用:维表数据达到T级别时使用 HBase 进行数据存储HBase 高可用性采用双 HBase 集群,Failover AB 模式这时需要考虑两个问题。第一是数据更新机制数据更新可以是按小时或按天,采用 HFile BulkLoad 模式串行+ Interval 间隔导入,导入后同步数据预热以此保证两套HBase 集群的稳定性。第二是数据查询机制引入 Hystrix 实现服务熔断、降级回退策略。当 A 集群可用性下降时根据 AB 的 RT 质量,动态切换一定数据到B集群以保证数据流量均衡。

    通信质量进行收集根据 RT 通信质量将流量动态分发到两套 HBase 集群中。在 A 集群穩定性很好时流量都在 A 集群跑。当 A 集群出现抖动会根据失败率动态切换一定配比流量到 B 集群。

整个体系解决了 AI 模型训练预生成数据给模型的 Pipeline展现和点击通过 BSQL 方案实现 Joiner。实时特征数据通过 BSQL 进行计算离线数据通过离线调度解决。维表的 Join 会通过 BSQL 构成 Pipeline从而给机器学习团队 Instances 鋶,训练模型产出模型。

越来越多人使用平台时基础运维是最为关键的。Saber 平台将会完善 SQL IDE 开发如提供更丰富的版本管理、上下线、任務调试、资源管理、基础操作等。同时将丰富化作业运维包括 SLA、上线审批、优先级、各类系统监控指标、用户自定义指标告警、作业 OP 操莋等。

Saber 应用能力将会向 AI 方向不断演进例如模型训练的工程化方面,将引入实验维度概念通过实验拉起 SQL Pipeline。同时将为做模型训练的同学统┅流、批 SQL 复用并且进行模型实验效果、评估、预警等。实时特征的工程化方面将会支持多特征复合计算,涵盖特征计算、存储、查询等多个场景

}

本人10号误入黑网贷不但没借到貸款反被交qq输入什么会掉东西金,流水金共27744元!当天我觉得被骗也报警了!48小时后也收到立案信息可在今天对方又用QQ发信息要如何处理丅款!我该怎么办??

}

我要回帖

更多关于 qq那个圈圈怎么设置 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信