明珠简介 明珠( 四 )


同时,“实时”响应方面,利用图计算系统可将数据实时传输到Hadoop系统、传统数据库仓库或者其他外围系统 。借助TigerGraph 图计算系统,针对点播数据以及用户关系数据进行实时处理,再通过TigerGraph图数据库来计算分析千万级用户的点播特征数据与实时数据关联分析 。
一人多号:针对“一人多号”的普遍现象,通过TigerGraph图分析计算技术可以筛出的可疑号码,找出该号码一段时间内的位置轨迹,从而找出那些相同时间段内轨迹拟合度最高的号码 。此场景中主要的挑战在于要根据用户一段时间的行为轨迹,比如一个月,基于相似度算法查找出相似的号码 。之前该客户用了10倍的硬件资源,都无法得到计算结果,而借助TigerGraph的超高速的计算效率,仅用一台机器便可完成计算任务 。
实名不实人:当前电信网络诈骗持续高发的一大根源,就是因为大量“实名不实人”的银行卡、电话卡被骗子购买后实施诈骗 。对此,中国移动借助TigerGraph 图计算分析技术,打造了一套专业的系统,包括三个模型,分别是常驻地分析、交往圈分析、同时通话分析模型,这三个模型互为补充,从而可以准确判断号码是办理人在使用,还是办理人的家人在使用,还是转卖给了其他人使用 。
上述四个场景共同的底层技术逻辑就是图计算和机器学习结合的创新方式 。不管是在线通信实时反欺诈,还是个性化视频推荐、一人多号,还是实名不实人的场景中,都采用的是基于图的特征提取 。因此在实时反欺诈中,基于全省级的通话数据,TigerGraph 可以毫秒级返回118个基于图的特征收集和模型打分结果,为机器学习生成新的训练数据来检测电话欺诈,从而很好地提高了机器学习模型的精准度 。
同时,基于深度图关联得到的图特征进行机器学习预测时,可以通过对比判断识别“欺诈者”真实身份,大幅地降低了误判比例 。最后,基于图特征的收集,即使是面对全省级的通话数据量,TigerGraph 仍然可以做到毫秒级地收集和打分,接近于实时 。
场景四:TDengine时序数据库满足车企数据存储、查询和扩容需求
涛思数据(TAOS Data)是一家专注时序空间大数据的存储、查询、分析和计算的数据库厂商,近几年公司瞄准日益庞大的物联网数据市场,开发出了拥有自主知识产权、100% 自主可控的开源、高性能、云原生的时序数据库 TDengine,可广泛运用于物联网、车联网、工业大数据等领域 。
目前,TDengine 已经演进到 3.0 版本,成为一款真正的高性能、云原生的时序数据库 。在云原生的加持下,TDengine 3.0可解决困扰时序数据库发展的高基数难题,支持 10 亿个设备采集数据、100 个节点,支持存储与计算分离,并打造了全新的流式计算引擎,无需再集成 Kafka、Redis、Spark、Flink 等软件,大幅降低系统架构的复杂度,真正成为了一款极简的时序数据处理平台 。同时,TDengine 3.0 还将存储引擎、查询引擎都进行了优化升级,进一步提升了存储和查询性能 。
作为国内近几年迅速崛起的“新能源三杰”,蔚来汽车为了给用户带来更好的补能体验,在加电基础设施上进行了大量的投入,在全国布局大量的换电充电设备,而为了对这些设备进行高效管理,需要将设备采集数据上报至云端进行存储,并提供实时数据查询、历史数据查询等业务服务,用来做设备监控和分析 。
为满足上述业务需求,蔚来在业务最初采用的数据选型是MySQL + HBase,MySQL 存储设备最新实时数据,HBase 存储设备原始数据 。但随着换电站和超充站等设备在全国的快速布局,设备数量持续增长,积累的数据越来越多,长时间跨度的数据查询也遭遇瓶颈,加之查询场景不断丰富,HBase 已经无法满足当前业务需要 。
因此蔚来能源接触了当下流行并且更适合物联网业务领域的时序数据库,在选型最初采用了OpenTSDB,OpenTSDB 是在 HBase 基础上做了优化,其底层技术还是基于 HBase 的,HBase所存在的一些问题,OpenTSDB 依然会有,并不能从根本上解决蔚来能源在数据存储查询上的难题,于是蔚来能源尝试采用时序数据库 TDengine,TDengine 具备的以下特点能够很好地解决其遇到的痛点:
?引入超级表概念对应设备类型,对每个设备创建子表继承超级表,通常相同设备类型的设备数据模型一定相同,通过超级表管理 schema 直接对子表生效,使用上很方便,同时对每个设备建表可以很好地做数据隔离,避免互相影响 。
?采用多级存储,不同时间的数据使用不同存储介质,新数据由于经常访问存 SSD 保证效率,老数据存 HDD,节约成本 。

秒懂生活扩展阅读