[TOC]

0x00 智能大数据平台

智能大数据平台作为风控平台的基础部分,提供大数据存储和计算能力,此外还有系统DevOps相关功能。存储包括HBase、HDFS、ES、Zookeeper、Kafka等,计算包括Spark、Flink、Hive、Tez、Yarn等,调度框架集成了DolphinScheduler。

  • 支持完善的服务器初装时初始化工具;
  • 支持友好的Web浏览器管理控制台;
  • 支持多集群管理;配合设备网络策略可实现多集群间的访问隔离;
  • 支持存储集群与计算集群分离架构;
  • 支持集群节点管理,如节点监控、资源私用率、节点状态等;
  • 支持集群大数据服务的服务监控、组件管理、组件启停、组件扩展及删除,组件滚动重启;
  • 支持丰富的监控模板和视图;
  • 支持大数据服务的扩展;
  • 支持服务配置文件修改;
  • 支持配置文件修改后集群服务自动检测需要重启生效的依赖服务提示;
  • 支持各大数据服务Web UIs便捷访问;
  • 支持服务异常终止时自动拉起;
  • 提供丰富的监控模板,涵盖服务器监控及大数据服务监控等;
  • 支持监控模板规则自定义;
  • 支持通知组、通知对象管理;
  • 支持邮件、微信、钉钉、回调函数等多种告警通知方式;
  • 支持控制台与系统配置双向同步;
  • 支持Dophinschdler 可视化DAG工作流任务调度服务;
  • 支持授权证书管理和查看功能;
  • 支持服务日志查看及下载;

智能大数据平台

1.1 目前提供服务

大数据生态服务 服务版本 描述
计算服务
YARN 3.1.1 分布式资源调度服务
SQOOP 1.4.7 数据采集与转储服务
FLUME 1.9.0 数据采集与转储服务
FLINK 1.13.2 分布式计算引擎
HIVE 3.1.2 常用的 HQL 数仓工具
PHOENIX 5.0.0 HBase SQL 化查询分析工具
SPARK 3.0.1 分布式计算引擎
TEZ 0.10.0 优化 MapReduce 任务的 DAG
存储服务
HDFS 3.1.1 分布式存储服务
HBASE 2.1.10 分布式非关系型数据库
KAFKA 2.11-2.0.1 超高吞吐的分布式消息队列
ELASTICSEARCH 7.8.0 分布式全文检索数据库
ZOOKEEPER 3.4.13 分布式注册中心服务
可视化服务
HUE 4.8.0 可视化管理服务
KAFKAEAGLE 2.0.6 Kafka 可视化管理服务
KIBANA 7.8.0 为 ElasticSearch 提供 Web 页面分析入口
ZEPPELIN 0.9.0 可视化管理服务
ZKUI 2.0.0 Zookeeper可视化管理服务
调度服务
DOLPHINSCHEDULER 2.0.0 可视化DAG工作流任务调度服务
安全服务
RANGER 2.1.0 授权服务
监控服务
ALERTMANAGER 0.21.0 发送监控告警信息
GRAFANA 6.5.1 展示监控数据
INFLUXDB 1.8.0 存储监控数据
NODEEXPORTER 1.0.0 读取节点资源监控指标
PROMETHEUS 2.18.1 拉取监控数据

1.2 未来支持版本

大数据生态服务 服务版本 描述
计算服务
DATAX 2.0.0 数据采集与转储服务
IMPALA 3.2.0 分布式计算服务
KYLIN 3.1.2 数仓维度建模服务
LIVY 0.8.0 Spark的REST服务
存储服务
HUDI 0.9.0 数据湖服务
TiDB 6.1.2 分布式行列数据库服务
NEO4J 3.5.28 高性能的NOSQL图形数据库
安全服务
KERBEROS 1.8.2 严格身份验证服务
元数据管理服务
ATLAS 2.1.0 元数据管理服务

0x01 风控中台

2.1 决策引擎

规则解析执行服务,提供决策结果。

2.2 正则库

决策引擎的子模块,解决批量正则匹配问题,为决策引擎提供更精准的更高效的决策能力。

2.3 关键词库

决策引擎的子模块,解决关键词检索逻辑,为决策引擎提供灵活的词库匹配能力。