相关产品

客户案例

相关推荐

上海数禾信息技术有限公司
上海数禾信息技术有限公司

数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的愿景是做陪伴用户一生的智能金融家,秉承开放,挑战,专业,创新的价值观,让人人享有金融服务最优解。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。作为国内金融科技代表性企业,数禾科技率先将大数据和AI技术引入智能获客、智能风控、智能运营、智能客服等多个方面。截至目前,数禾科技已与包括银行、信贷、持牌消金、基金和保险等在内的100余家金融机构展开合作。

杭州启博科技有限公司
杭州启博科技有限公司

启博社交新零售系统基于SAAS云平台,通过技术创新将时下热门社交新零售模式构建成便捷操作的标准化系统,帮助商家快速布局社交电商市场,打造企业私域流量生态,实现流量裂变变现,提升商家经营性效益!

Boomplay
Boomplay

Boomplay是传易音乐娱乐集团(Transsnet Music Entertainment Group)旗下的音乐流媒体和下载服务APP。2015年3月,在尼日利亚首次亮相,主要面向非洲用户提供全球正版音乐及视频的在线播放和下载服务。截至2020年9月,Boomplay已经拥有超过6200万激活用户,曲库规模超4000万,拥有全球最大的在线非洲音乐曲库。

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

客户案例

相关推荐

上海数禾信息技术有限公司
上海数禾信息技术有限公司

数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的愿景是做陪伴用户一生的智能金融家,秉承开放,挑战,专业,创新的价值观,让人人享有金融服务最优解。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。作为国内金融科技代表性企业,数禾科技率先将大数据和AI技术引入智能获客、智能风控、智能运营、智能客服等多个方面。截至目前,数禾科技已与包括银行、信贷、持牌消金、基金和保险等在内的100余家金融机构展开合作。

杭州启博科技有限公司
杭州启博科技有限公司

启博社交新零售系统基于SAAS云平台,通过技术创新将时下热门社交新零售模式构建成便捷操作的标准化系统,帮助商家快速布局社交电商市场,打造企业私域流量生态,实现流量裂变变现,提升商家经营性效益!

Boomplay
Boomplay

Boomplay是传易音乐娱乐集团(Transsnet Music Entertainment Group)旗下的音乐流媒体和下载服务APP。2015年3月,在尼日利亚首次亮相,主要面向非洲用户提供全球正版音乐及视频的在线播放和下载服务。截至2020年9月,Boomplay已经拥有超过6200万激活用户,曲库规模超4000万,拥有全球最大的在线非洲音乐曲库。

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=163, bpId=36, name=EMR弹性数据湖分析, author=null, keyword=大数据分析,计算存储分离,低成本, description=利用阿里云日志服务、存储服务以及EMR构建弹性低成本大数据日志离线分析系统, position=null, ossUrl=bp-D49APX3CYIP1OG1H.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 基于阿里云的E-MapReduce(EMR) 、对象 存储OSS、日志服务SLS、抢占式ECS实 例、大数据开发平台DataWorks构建弹性、低成本的弹性数据湖。 方案优势 ⚫弹性低成本,集群快速部署 ⚫支持多种大数据计算模式 ⚫无缝对接开源生态 ⚫一站式管理平台 解决问题 1.大数据平台运维管理成本高 2.计算资源弹性能力不足 3.海量日志数据下的存储容量不足 4.离线分析场景下的计算资源成本控制 产品列表 ⚫E-MapReduce ⚫对象存储OSS ⚫日志服务SLS ⚫专有网络VPC ⚫负载均衡SLB ⚫弹性计算ECS

, templateId=XMRC252GTZ9YU1LI, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21999, buttonName=null, buttonUrl=null, targetId=XMRC252GTZ9YU1LI, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)
1 EMR弹性数据湖分析 最佳实践 业务架构 场景描述 基于阿里云的 E-MapReduce(EMR) 、对象存 储 OSS、日志服务 SLS、抢占式 ECS实例、 DataWorks构建弹性、低成本的弹性数据湖分 析系统。 方案优势 弹性低成本,集群快速部署 支持多种大数据计算模式 无缝对接开源生态 一站式管理平台 产品列表 解决问题 E-MapReduce 1. 大数据平台运维管理成本高 对象存储 OSS 2. 计算资源弹性能力不足 日志服务 SLS 3. 海量日志数据下的存储容量不足 专有网络 VPC 4. 离线分析场景下的计算资源成本控制 负载均衡 SLB 5. 数据分析作业调度与管理 弹性计算 ECS 数据开发平台 DataWorks 最佳实践频道 阿里云最佳实践技术分享群
2文档模板(手册名称)/Error! Use the Home tab to apply 标 云服务器 ECS(产品名称) 题 to the text that you want to appear here. 阿里云 企业上云实践 EMR弹性数据湖分析 文档版本:20210712(发布日期) 文档版本:20210712(发布日期) 1
3EMR弹性低成本离线大数据分析 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 EMR弹性数据湖分析 文档编号 036 文档版本 V1.7 版本日期 2021/07/12 文档状态 外部发布 制作人 明誉 审阅人 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019/04/25 明誉 弦望 创建以及文档验证 V1.1 2019/06/17 明誉 更新文档封面等内容 V1.2 2019/08/15 明誉 调整文档格式和内容 V1.3 2020/02/01 明誉 修改在日志投递到 OSS时 的数据类型 V1.4 2020/02/11 明誉 1.根据日志服务 SLS 和 EMR的最新功能进行迭代;; 2.完善一些技术细节说明 V1.5 2020/3/23 明誉 1.增加对数据存储在 OSS 上通过 Hive 外部表的关于 数据表分区及示例加载 OSS日志分区说明; 2.增加对 EMR JindoFS选 型的描述; 3.增加 EMR 的存储选择 OSS或者 HDFS的对比说 明描述; V1.6 2020/12/14 明誉 使用 CADT开通方案所需资 文档版本:20210712(发布日期) I
4EMR弹性低成本离线大数据分析 文档版本信息 源,并且根据产品功能更新 进行了迭代 V1.7 2021/07/12 衾影 明誉 引入 DataWorks 作为大数 据开发管理平台 文档版本:20210712(发布日期) II
5EMR弹性数据湖分析 前言 前言 概述 大数据是一项设计不同业务和技术的领域的技术和工具的集合,海量离线数据分析可 以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业 的海量离线计算分析任务等场景。 应用范围 互联网、科学计算等行业用于海量数据离线分析、数据仓库、BI分析等。 名词解释 E-MapReduce(EMR): 阿里云构建于阿里云云服务器 ECS之上的基于开源生态 的大数据系统处理解决方案,包含 Hadoop、Spark、Kafka、Flink、Storm等组 件,让用户可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统(例如 Hive、Pig、HBase等)来分析和处理自己的数据。 日志服务 LOG:LogService,简称 LOG/原 SLS是针对实时数据一站式服务,在 阿里集团经历大量大数据场景锤炼而成,提供日志类数据采集、消费、投递及查 询分析功能,全面提升海量日志处理/分析能力,服务智能研发/运维/运营/安全等 场景。 CADT(云架构设计工具): 是一款为上云应用提供自助式云架构管理的产品,显著 地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模版, 同时也支持自助拖拽方式定义云上架构;支持大量阿里云服务的配置和管理。 对象存储(OSS):对象存储(OSS):是阿里云提供的海量、安全、低成本、高可靠的 云存储服务。用户可以在任何应用、任何时间、任何地点存储和访问任意类型的 数据。 弹性伸缩服务(ESS):弹性伸缩可以根据用户设置的伸缩规则,自动调整弹性资源 大小,在业务需求增长时自动增加 ECS实例以保证计算能力,在业务需求下降时 自动减少 ECS实例以节约成本。 抢占式 ECS实例:抢占式 ECS实例是一种按需实例,可以降低用户在部分应用 场景下使用 ECS的成本,例如可弹性伸缩的 Web站点服务、图像渲染、大数据 分析和大规模并行计算等,应用程序的分布度、可扩展性和容错能力越高,使用 抢占式实例越能节省成本和提升吞吐量。 文档版本:20210712(发布日期) IV
6EMR弹性数据湖分析 前言 DataWorks: DataWorks(数据工场,原大数据开发套件 )是阿里云重要的 PaaS(Platform as a Service)平台产品,为用户提供数据集成、数据开发、数据地 图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企 业专注于数据价值的挖掘和探索。 联系作者钉钉二维码 文档版本:20210712(发布日期) V
7EMR弹性数据湖分析 最佳实践概述 最佳实践描述 概述 本实践结合阿里云 EMR以及日志服务 LOG、对象存储 OSS、抢占式 ECS实例、弹 性伸缩等产品,以电商网站日志埋点采集存储投递并利用 EMR进行日志消费分析并 且利用阿里云 DataWorks 来作为大数据开发管理平台来展示了如何构建弹性低成本 的离线海量日志大数据分析最佳实践。 场景描述 主流的三大分布式计算框架系统分别为 Hadoop、Spark和 Storm, Hadoop可以运用 在 很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark 采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算 等多种计算范式,Spark能够与 Hadoop很好地结合,Storm用于处理高速、大型数 据流的分布式实时计算系用,为 Hadoop添加可靠的实时数据处理能力。海量离线数 据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析; 科研行业例如海量离线计算分析和数据查询;游戏行业的游戏日志分析、用户行为分 析;商业用户数据仓库解决方案的 BI分析、多维分析报表;大型企业的海量 IT运维 日志分析等。 方案架构和优势 方案架构 方案优势 ᅳ 高性能、低成本 ᅳ 快速部署 文档版本:20210712(发布日期) VI
8EMR弹性数据湖分析 最佳实践概述 ᅳ 弹性 ᅳ 多种计算模式 ᅳ 无缝对接开源生态 ᅳ 一站式管理平台 文档版本:20210712(发布日期) VII