相关产品

客户案例

相关推荐

云上会展有限公司
云上会展有限公司

云上会展有限公司立足于打造线上会展数字基础设施,充分发挥阿里巴巴集团在人工智能、数据技术、云计算等方面的积累,集成阿里巴巴商业操作系统的全域数字化运营能力,逐步形成云上会展数字化智能平台。将通过数字化虚拟展馆、实时互动交易、智能商贸洽谈、全链路参会体验、展会生态服务、行业大数据资讯等平台的建设,服务云上会展新业态,为会展业发展贡献创新力量,迎接线上线下融合的“云上会展”时代的到来。

云上会展充分运用人工智能、云计算、大数据等技术,通过数字化虚拟展馆、实时互动交易、智能商贸洽谈、全链路参会体验、展会生态服务、行业大数据资讯等平台建设,逐步打造全球领先的云上会展数字化智能平台,致力于提供数字会展解决方案。

我们探索云上会展,坚信的是线上和线下的完美结合。线上和线下的结合,不仅是把线下内容翻到线上去,更重要的是通过新技术创造性地发展会展体验,让虚拟展馆、实时交易、实时推广、实时洽谈,变成沉浸式线上线下一体化的互动和体验,能够真正形成线上线下第一空间和第二空间、实体空间和数字空间的完美结合,推动会展行业走向全新的阶段。

中华联合财产保险股份有限公司
中华联合财产保险股份有限公司

中华联合保险集团股份有限公司始建于1986年7月15日,前身是新疆生产建设兵团农牧业生产保险公司,是新中国之后我国成立的第二家国有控股保险公司,简称中华保险。2020年6月1日,中华保险集团与阿里巴巴集团在北京签署全面合作协议,阿里云为集团旗下中华财险构建新一代全分布式保险核心系统,助力中华财险数字化加速转型。双方在核心系统层面的合作,开启了保险行业数字化创新的先河。

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

客户案例

相关推荐

云上会展有限公司
云上会展有限公司

云上会展有限公司立足于打造线上会展数字基础设施,充分发挥阿里巴巴集团在人工智能、数据技术、云计算等方面的积累,集成阿里巴巴商业操作系统的全域数字化运营能力,逐步形成云上会展数字化智能平台。将通过数字化虚拟展馆、实时互动交易、智能商贸洽谈、全链路参会体验、展会生态服务、行业大数据资讯等平台的建设,服务云上会展新业态,为会展业发展贡献创新力量,迎接线上线下融合的“云上会展”时代的到来。

云上会展充分运用人工智能、云计算、大数据等技术,通过数字化虚拟展馆、实时互动交易、智能商贸洽谈、全链路参会体验、展会生态服务、行业大数据资讯等平台建设,逐步打造全球领先的云上会展数字化智能平台,致力于提供数字会展解决方案。

我们探索云上会展,坚信的是线上和线下的完美结合。线上和线下的结合,不仅是把线下内容翻到线上去,更重要的是通过新技术创造性地发展会展体验,让虚拟展馆、实时交易、实时推广、实时洽谈,变成沉浸式线上线下一体化的互动和体验,能够真正形成线上线下第一空间和第二空间、实体空间和数字空间的完美结合,推动会展行业走向全新的阶段。

中华联合财产保险股份有限公司
中华联合财产保险股份有限公司

中华联合保险集团股份有限公司始建于1986年7月15日,前身是新疆生产建设兵团农牧业生产保险公司,是新中国之后我国成立的第二家国有控股保险公司,简称中华保险。2020年6月1日,中华保险集团与阿里巴巴集团在北京签署全面合作协议,阿里云为集团旗下中华财险构建新一代全分布式保险核心系统,助力中华财险数字化加速转型。双方在核心系统层面的合作,开启了保险行业数字化创新的先河。

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=299, bpId=173, name=基于DataWorks的大数据一站式开发及数据治理, author=null, keyword=EMR,dataworks,大数据一站式开发,数据治理,数据质量,实时计算,Flink, description=基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。, position=null, ossUrl=bp-6IIUKE6QSIDO3GXW.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。

, templateId=6F3N8YWNUEFZYSA9, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/22208, buttonName=null, buttonUrl=null, targetId=6F3N8YWNUEFZYSA9, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1基于DataWorks的大数据一站式开发及数据治理 最佳实践 业务架构 场景描述 解决的问题 本实践基于Dataworks做大数据一站式开发,包含  日志采集、处理及分析 数据实时采集到kafka通过实时计算对数据进行  日志使用Flink实时写入HDFS ETL写入HDFS,使用Hive进行数据分析。通过  日志数据实时ETL Dataworks进行数据治理,数据地图查看数据信息和 血缘关系,数据质量监控异常和报警。  日志HIVE分析  基于DataWorks一站式开发  数据治理 产品列表 实时计算、EMR、EIP、VPC、ECS、DataWorks
2云服务器ECS(产品名称) 文档模板(手册名称)/文档版本信息 文档版本:20150122(发布日期) 2
3基于Dataworks的大数据一站式开发及数据治理 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 基于DataWorks的大数据一站式开发及数据治理最佳实践 文档编号 173 文档版本 V1.3 版本日期 2020-02-07 文档状态 外部发布 制作人 弦望、川知、戎天、无框、背包 审阅人 文档变更记录 版本编号 日期 作者 审核人 说明 弦望、戎天、 V1.0 2020-09-10 创建 无框 弦望、川知、 场景迭代新版本发布,新 V1.1 2020-10-20 戎天、背包 增数据治理和HIVE分析 迭代 CADT 及使用云 V1.2 2020-02-01 弦望、川知 kafka V1.3 2020-02-07 弦望 注意事项更新 I
4基于Dataworks的大数据一站式开发及数据治理 法律声明 法律声明 II
5基于Dataworks的大数据一站式开发及数据治理 前言 前言 概述 基于DataWorks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数 据进行ETL写入HDFS,使用Hive进行数据分析。通过DataWorks进行数据治理, 数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 名词解释  HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分 布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的 分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部 署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集 上的应用。  实时计算:实时计算(AlibabaCloudRealtimeCompute,PoweredbyVerverica) 是阿里云提供的基于 ApacheFlink 构建的企业级大数据计算平台。在 PB 级别 的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行 业解决方案;支持 DatastreamAPI 作业开发,提供了批流统一的 FlinkSQL, 简化 BI 场景下的开发;可与用户已使用的大数据组件无缝对接,更多增值特性 助力企业实时化转型。详情请查看www.aliyun.com/product/bigdata/product/sc  EMR:阿里云 E-MapReduce(EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云 上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学 习等场景下的大数据解决方案。详情请查看www.aliyun.com/product/emapreduce  DataWorks: 基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户 提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中 台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万 名数据/算法工程师正在使用DataWorks,承担集团99%数据业务构建。详情请查 看https://www.aliyun.com/product/bigdata/ide III
6基于Dataworks的大数据一站式开发及数据治理 目录 目录 文档版本信息..................................................................................................................................................................I ......................................................................................................................................................................... 法律声明 II 前言................................................................................................................................................................................III ............................................................................................................................................................................... 目录 IV ................................................................................................................................................................ 最佳实践概述 1 前置条件........................................................................................................................................................................3 ................................................................................................................................................................................. 导读 4 1.基础环境搭建...........................................................................................................................................................5 ................................................................................................................... 1.1. 通过CADT搭建资源环境 5 ................................................................................................................................ 1.2. 创建实时计算集群 8 1.3. 创建DataWorks项目........................................................................................................................11 .............................................................................................................................................................. 2. 日志采集 16 3. 日志实时ETL写入HDFS.................................................................................................................................22 .................................................................................................................... 3.1. 自定义SinkDemo打包 22 ......................................................................................................... 3.2. 基于dataworks实时计算开发 24 4. 基于hive的离线分析.........................................................................................................................................31 .............................................................................................................................................................. 5. 数据治理 40 5.1. 数据地图..............................................................................................................................................40 .............................................................................................................................................. 5.2. 数据质量 42 .................................................................................................................................................. 6. 附件:源码解读 47 6.1. 自定义HDFSSink.............................................................................................................................47 IV
7基于Dataworks的大数据一站式开发及数据治理 最佳实践概述 最佳实践概述 概述 本实践基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计 算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据 治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于DataWorks一站式开发  数据治理 技术架构 本实践方案基于如下图所示的技术架构和主要流程编写操作步骤: 1
8基于Dataworks的大数据一站式开发及数据治理 最佳实践概述 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据 源计算等DataLake相关功能,以及各种流式及静态数据源关联查询。  安全:原生的多租户系统,以项目进行隔离,所有计算任务在安全沙箱中运行。 2