客户案例公司图标
BpClientCase(id=7, title=上海数禾信息技术有限公司, thumbnail=https://channel-static-resource-online.oss-cn-hangzhou.aliyuncs.com/bp-admin/sr-L1YM65SQ9PDTSATM.png, status=1, sort=1, tagList=[BpClientTag(id=7, name=金融科技, status=1, sort=1)], extensionList=[BpClientCaseExtension(id=1923, title=客户简介, description=

数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的愿景是做陪伴用户一生的智能金融家,秉承开放,挑战,专业,创新的价值观,让人人享有金融服务最优解。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。作为国内金融科技代表性企业,数禾科技率先将大数据和AI技术引入智能获客、智能风控、智能运营、智能客服等多个方面。截至目前,数禾科技已与包括银行、信贷、持牌消金、基金和保险等在内的100余家金融机构展开合作。

, sort=5, simpleDescription=数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的愿景是做陪伴用户一生的智能金融家,秉承开放,挑战,专业,创新的价值观,让人人享有金融服务最优解。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。作为国内金融科技代表性企业,数禾科技率先将大数据和AI技术引入智能获客、智能风控、智能运营、智能客服等多个方面。截至目前,数禾科技已与包括银行、信贷、持牌消金、基金和保险等在内的100余家金融机构展开合作。), BpClientCaseExtension(id=1922, title=客户需求, description=

客户业务及技术挑战:

1、在大数据上云过程中,客户遇到最大的问题就是计算资源不足,以及大规模计算用量带来的高成本。在创建多个EMR集群之后,如何按照业务维度进行合理的分账也是一个运维难题。

2、基于EMR+OSS的数据湖方案,如何与MaxCompute数仓有机结合,统一元数据管理和权限管理。

, sort=4, simpleDescription=客户业务及技术挑战:1、在大数据上云过程中,客户遇到最大的问题就是计算资源不足,以及大规模计算用量带来的高成本。在创建多个EMR集群之后,如何按照业务维度进行合理的分账也是一个运维难题。2、基于EMR+OSS的数据湖方案,如何与MaxCompute数仓有机结合,统一元数据管理和权限管理。), BpClientCaseExtension(id=1921, title=客户价值, description=

1、弹性资源保障及成本优化:

    a. 对可用区及服务器规格做合理的规划选型,避免底层资源不足导致的业务被动迁移。

    b. EMR集群的task节点起初选择的是抢占式实例(相比较按量有较低折扣),但在底层资源不足的情况下会导致扩容失败。为了保障资源交付,弹性资源从抢占式实例切换到按量付费,随之而来带来的就是按量资源的高成本。梳理客户按量资源类型,推荐客户购买预留实例券XXX台覆盖稳态按量资源,使用率达 100%,保守估计降本 40% 以上。目前客户也正在参考SCU最佳实践部分对块存储进行成本优化。

    c. 后来EMR集群集成了弹性伸缩的成本优先策略,即优先创建抢占式实例、若失败再创建按量实例,增加弹性资源交付成功率,同时降低成本。

2、成本管理:
阿里云提供了给资源打TAG的方式实现分账,具体实现上,客户通过给EMR集群打TAG的方式实现多EMR业务集群之间的分账管理。客户在此基础之上,拉取ResourceManger里的MemorySeconds指标,按照计算公式:MemorySeconds Of SQL/Total MemorySeconds Of EMR * EMR集群总费用 估算出每条SQL的费用,督促业务优化消耗资源多的SQL和下线无用SQL。
3、前沿技术探索:
当前客户正在尝试基于DLF的数据湖架构,将EMR的元数据和Maxcompute元数据迁移到DLF,底层使用OSS作统一存储,打通EMR构建的数据湖和Maxcompute构建的数据仓库两套体系,让数据和计算在湖和仓之间自由流动,真正实现湖仓一体。

, sort=3, simpleDescription=1、弹性资源保障及成本优化: a. 对可用区及服务器规格做合理的规划选型,避免底层资源不足导致的业务被动迁移。 b. EMR集群的task节点起初选择的是抢占式实例(相比较按量有较低折扣),但在底层资源不足的情况下会导致扩容失败。为了保障资源交付,弹性资源从抢占式实例切换到按量付费,随之而来带来的就是按量资源的高成本。梳理客户按量资源类型,推荐客户购买预留实例券XXX台覆盖稳态按量资源,使用率达 100%,保守估计降本 40% 以上。目前客户也正在参考SCU最佳实践部分对块存储进行成本优化。 c. 后来EMR集群集成了弹性伸缩的成本优先策略,即优先创建抢占式实例、若失败再创建按量实例,增加弹性资源交付成功率,同时降低成本。2、成本管理:阿里云提供了给资源打TAG的方式实现分账,具体实现上,客户通过给EMR集群打TAG的方式实现多EMR业务集群之间的分账管理。客户在此基础之上,拉取ResourceManger里的MemorySeconds指标,按照计算公式:MemorySeconds Of SQL/Total MemorySeconds Of EMR * EMR集群总费用 估算出每条SQL的费用,督促业务优化消耗资源多的SQL和下线无用SQL。3、前沿技术探索:当前客户正在尝试基于DLF的数据湖架构,将EMR的元数据和Maxcompute元数据迁移到DLF,底层使用OSS作统一存储,打通EMR构建的数据湖和Maxcompute构建的数据仓库两套体系,让数据和计算在湖和仓之间自由流动,真正实现湖仓一体。), BpClientCaseExtension(id=1920, title=客户之声, description=

数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。在大数据上云过程中,我们遇到最大的问题就是计算资源不足,以及大规模计算用量带来的高成本。参考最佳实践《RI和SCU全链路使用实践》我们梳理了大数据集群的服务器弹性用量情况,通过预留实例券将原来的按量资源费用降低了40%。在《单账户企业分账最佳实践》指导下,我们也采用了给各个集群打TAG标签的方式,实现了多个EMR业务集群的分账管理。在摸索湖上建仓的过程中,阿里云计算平台和最佳实践团队输出的《MaxCompute湖仓一体方案》给了我们很多宝贵的思路。希望能继续和阿里云最佳实践团队保持密切合作。

, sort=2, simpleDescription=数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。在大数据上云过程中,我们遇到最大的问题就是计算资源不足,以及大规模计算用量带来的高成本。参考最佳实践《RI和SCU全链路使用实践》我们梳理了大数据集群的服务器弹性用量情况,通过预留实例券将原来的按量资源费用降低了40%。在《单账户企业分账最佳实践》指导下,我们也采用了给各个集群打TAG标签的方式,实现了多个EMR业务集群的分账管理。在摸索湖上建仓的过程中,阿里云计算平台和最佳实践团队输出的《MaxCompute湖仓一体方案》给了我们很多宝贵的思路。希望能继续和阿里云最佳实践团队保持密切合作。), BpClientCaseExtension(id=1919, title=解说人, description=

大数据平台架构师 程俊杰

, sort=1, simpleDescription=大数据平台架构师 程俊杰)], fileList=[BpFile(id=163, bpId=36, name=EMR弹性数据湖分析, author=null, keyword=null, description=利用阿里云日志服务、存储服务以及EMR构建弹性低成本大数据日志离线分析系统, position=null, ossUrl=bp-D49APX3CYIP1OG1H.pdf, tags=null, level=3, tagList=null, products=null, productList=[Product(id=39, name=块存储, description=块存储是为云服务器ECS提供的低时延、持久性、高可靠的数据块级随机存储。块存储支持在可用区内自动复制您的数据,防止意外硬件故障导致的数据不可用,保护您的业务免于组件故障的威胁。就像对待硬盘一样,您可以对挂载到ECS实例上的块存储做分区、创建文件系统等操作,并对数据持久化存储。 , link=https://www.aliyun.com/product/disk , productName=null, logo=null, code=disk), Product(id=41, name=云服务器ECS, description=云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。 , link=https://www.aliyun.com/product/ecs , productName=null, logo=null, code=ecs), Product(id=43, name=对象存储 OSS, description=海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%的数据可靠性。使用RESTful API 可以在互联网任何位置存储和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储成本。 , link=https://www.aliyun.com/product/oss , productName=null, logo=null, code=oss), Product(id=49, name=日志服务(SLS), description=行业领先的日志大数据解决方案,一站式提供数据收集、清洗、分析、可视化和告警功能。全面提升海量日志处理能力,实时挖掘数据价值,智能助力研发/运维/运营/安全等场景。 , link=https://www.aliyun.com/product/sls , productName=null, logo=null, code=sls), Product(id=61, name=E-MapReduce, description=E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括Hadoop、Spark、Kafka和Storm,为用户提供集群、作业、数据等管理的一站式大数据处理分析业务。 , link=https://www.aliyun.com/product/emapreduce , productName=null, logo=null, code=emapreduce), Product(id=151, name=云速搭CADT, description=云速搭CADT是一款为上云应用提供自助式云架构管理的产品,显著地降低应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板,同时也支持自助拖拽方式定义应用云上架构;支持较多阿里云服务的配置和管理。用户可以方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。, link=https://www.aliyun.com/product/developerservices/cadt, productName=null, logo=null, code=bpstudio)], hotspot=null, oneClick=null, createTime=null, modifiedTime=null, timeConsuming=null, status=0, pdfDescription=null, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21999, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null), BpFile(id=180, bpId=159, name=RI和SCU全链路使用实践, author=null, keyword=null, description=随着云计算的不断发展,更多的企业会使用云计算,且会有越来越多的企业和用户开始重视云上使用成本。 其中计算和存储是云资源使用的主要服务之一。采用预留实例券(RI)和存储容量单位包(SCU)可以帮助客户灵活的节省成本。 本文提供全链路使用实践,帮助客户快速验证云上服务,更合理的使用RI/SCU。借助覆盖率指标和智能推荐,有效管理云上资源成本。, position=null, ossUrl=bp-NTLXXXVCX2TGRMYB.pdf, tags=null, level=3, tagList=null, products=null, productList=[Product(id=40, name=专有网络 VPC, description=帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP 地址范围、网段、路由表和网关等;此外,也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。 , link=https://www.aliyun.com/product/vpc , productName=null, logo=null, code=vpc), Product(id=41, name=云服务器ECS, description=云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。 , link=https://www.aliyun.com/product/ecs , productName=null, logo=null, code=ecs), Product(id=44, name=负载均衡 SLB, description=对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 , link=https://www.aliyun.com/product/slb , productName=null, logo=null, code=slb), Product(id=47, name=容器服务 ACK, description=容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 , link=https://www.aliyun.com/product/kubernetes , productName=null, logo=null, code=csk), Product(id=118, name=存储容量单位包, description=存储容量单位包,英文名称为StorageCapacityUnit,是一种预付费存储售卖形态,可以用来抵扣多种不同类型云盘的按量付费账单。相比于随ECS预付费实例购买云盘的模式,存储容量单位包与按量付费云盘的组合使用,兼具性价比与资源使用的灵活性。 , link=https://www.aliyun.com/product/scu , productName=null, logo=null, code=scu), Product(id=123, name=预留实例券, description=预留实例券是一种抵扣券,可以抵扣按量付费实例(不含抢占式实例)的账单,也能够预留实例资源。相比包年包月实例,预留实例券与按量付费实例这种组合模式可以兼顾灵活性和成本。 , link=https://help.aliyun.com/document_detail/100370.html , productName=null, logo=null, code=RI)], hotspot=null, oneClick=null, createTime=null, modifiedTime=null, timeConsuming=null, status=0, pdfDescription=null, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null), BpFile(id=292, bpId=168, name=单账户下企业分账, author=null, keyword=null, description=不同企业上云后,在企业IT治理分账方面,表现为不同的形态,大致分为以下三种类型的企业: 1. 集中型的企业,所有云资源由统一的一个部门进行规划和统筹。 2. 分散型的企业,每个部门和团队,对云资源的管理,拥有自主管理权。 3. 混合型的企业,部分业务由上级主管单位管理,部分业务由下级业务方管理。 从集中化的运维到分散化运维,整个模式的转化过程中,整个企业面临着权限拆分和账单拆分的业务挑战,为了应对这个挑战,阿里云根据许多客户的真实场景,总结了分权分账的解决方案 , position=null, ossUrl=bp-7BXTTJ5QCG4744VB.pdf, tags=null, level=2, tagList=null, products=null, productList=[Product(id=40, name=专有网络 VPC, description=帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP 地址范围、网段、路由表和网关等;此外,也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。 , link=https://www.aliyun.com/product/vpc , productName=null, logo=null, code=vpc), Product(id=41, name=云服务器ECS, description=云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。 , link=https://www.aliyun.com/product/ecs , productName=null, logo=null, code=ecs), Product(id=42, name=云数据库RDS MySQL 版, description=MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。 , link=https://www.aliyun.com/product/rds/mysql , productName=null, logo=null, code=rds), Product(id=43, name=对象存储 OSS, description=海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%的数据可靠性。使用RESTful API 可以在互联网任何位置存储和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储成本。 , link=https://www.aliyun.com/product/oss , productName=null, logo=null, code=oss), Product(id=45, name=弹性公网IP, description=独立的公网IP资源,可以绑定到阿里云专有网络VPC类型的ECS、NAT网关、私网负载均衡SLB上,并可以动态解绑,实现公网IP和ECS、NAT网关、SLB的解耦,满足灵活管理的要求。 , link=https://www.aliyun.com/product/eip , productName=null, logo=null, code=eip), Product(id=50, name=访问控制, description=RAM 使您能够安全地集中管理对阿里云服务和资源的访问。您可以使用 RAM 创建和管理用户和组,并使用各种权限来允许或拒绝他们对云资源的访问。 , link=https://www.aliyun.com/product/ram , productName=null, logo=null, code=ram), Product(id=85, name=运维编排, description=阿里云运维编排服务(OOS)是一个全面的云上自动化运维平台,提供了运维任务的管理和执行。使用场景有:事件驱动,批量操作,定时运维任务,跨地域等,OOS特别为重要的场景提供了审批,通知等功能。OOS支持跨产品使用,您可以使用OOS管理ECS、RDS、SLB、VPC等云产品。 , link=https://www.aliyun.com/product/oos , productName=null, logo=null, code=oos), Product(id=101, name=OpenAPI, description=阿里云开放平台,快速检索、可视化调试API、在线命令行工具、同步动态生成可执行 SDK Example。 , link=https://open.aliyun.com/apis , productName=null, logo=null, code=openapiexplorer), Product(id=140, name=资源管理, description=阿里云资源管理服务包含一系列支持企业IT治理的资源管理产品集合。其中主要产品为资源组和资源目录。资源管理服务支持您按照业务需要搭建适合的资源组织关系,使用目录、资源夹、账号、资源组分层次组织与管理您的全部资源。 , link=https://www.aliyun.com/product/entconsole , productName=null, logo=null, code=entconsole), Product(id=141, name=配置审计, description=配置审计服务为您提供面向资源的配置历史追踪、配置合规审计、自动修正“不合规”配置等能力。面对大量资源,让您轻松实现基础设施的自主监管,确保持续性合规。 , link=https://www.aliyun.com/product/config , productName=null, logo=null, code=config)], hotspot=null, oneClick=null, createTime=null, modifiedTime=null, timeConsuming=null, status=0, pdfDescription=null, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21908, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null), BpFile(id=295, bpId=169, name=MaxCompute湖仓一体方案, author=null, keyword=null, description=自建数据湖与云数仓的融合解决方案,将MaxCompute与自建的Hive集群做数据打通,通过存储共享,元数据镜像等方式,解决传统模式下的存储冗余,计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性,解决业务高峰期计算资源不足的问题。, position=null, ossUrl=bp-BBKJTLSE9VHUOQVF.pdf, tags=null, level=4, tagList=null, products=null, productList=[Product(id=40, name=专有网络 VPC, description=帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP 地址范围、网段、路由表和网关等;此外,也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。 , link=https://www.aliyun.com/product/vpc , productName=null, logo=null, code=vpc), Product(id=41, name=云服务器ECS, description=云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。 , link=https://www.aliyun.com/product/ecs , productName=null, logo=null, code=ecs), Product(id=58, name=云企业网, description=阿里云致力于为用户提供优质、高效、稳定的网络传输环境,云企业网(Cloud Enterprise Network)将提供一种能够快速构建混合云和分布式业务系统的全球网络,帮助用户打造一张具有企业级规模和通信能力的云上网络。 , link=https://www.aliyun.com/product/cbn , productName=null, logo=null, code=cbn), Product(id=61, name=E-MapReduce, description=E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括Hadoop、Spark、Kafka和Storm,为用户提供集群、作业、数据等管理的一站式大数据处理分析业务。 , link=https://www.aliyun.com/product/emapreduce , productName=null, logo=null, code=emapreduce), Product(id=67, name=大数据计算服务 MaxCompute, description=MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。 , link=https://www.aliyun.com/product/odps , productName=null, logo=null, code=odps), Product(id=85, name=运维编排, description=阿里云运维编排服务(OOS)是一个全面的云上自动化运维平台,提供了运维任务的管理和执行。使用场景有:事件驱动,批量操作,定时运维任务,跨地域等,OOS特别为重要的场景提供了审批,通知等功能。OOS支持跨产品使用,您可以使用OOS管理ECS、RDS、SLB、VPC等云产品。 , link=https://www.aliyun.com/product/oos , productName=null, logo=null, code=oos), Product(id=151, name=云速搭CADT, description=云速搭CADT是一款为上云应用提供自助式云架构管理的产品,显著地降低应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板,同时也支持自助拖拽方式定义应用云上架构;支持较多阿里云服务的配置和管理。用户可以方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。, link=https://www.aliyun.com/product/developerservices/cadt, productName=null, logo=null, code=bpstudio)], hotspot=null, oneClick=null, createTime=null, modifiedTime=null, timeConsuming=null, status=0, pdfDescription=null, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21793, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)], description=最佳实践助力数禾构建高弹性低成本数据湖方案, voiceId=11, voice=BpClientVoice(id=11, title=最佳实践助力数禾构建高弹性低成本数据湖方案, description=数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。在大数据上云过程中,我们遇到最大的问题就是计算资源不足,以及大规模计算用量带来的高成本。参考最佳实践《RI和SCU全链路使用实践》我们梳理了大数据集群的服务器弹性用量情况,通过预留实例券将原来的按量资源费用降低了40%。在《单账户企业分账最佳实践》指导下,我们也采用了给各个集群打TAG标签的方式,实现了多个EMR业务集群的分账管理。在摸索湖上建仓的过程中,阿里云计算平台和最佳实践团队输出的《MaxCompute湖仓一体方案》给了我们很多宝贵的思路。希望能继续和阿里云最佳实践团队保持密切合作。, videoUrl=http://cloud.video.taobao.com/play/u/1482397/p/1/e/6/t/1/294850627015.mp4, status=1, sort=1, tagList=null, company=上海数禾信息科技有限公司, thumbnail=https://channel-static-resource-online.oss-cn-hangzhou.aliyuncs.com/bp-admin/sr-5GAQJ97HMFNV6UN9.png, ccase=null, poster=https://channel-static-resource-online.oss-cn-hangzhou.aliyuncs.com/bp-admin/sr-SN5G8F2TA2KQR46C.jpg), partner=, partnerUrl=, partnerLogo=, projectName=)

最佳实践助力数禾构建高弹性低成本数据湖方案

客户之声

客户简介

数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的愿景是做陪伴用户一生的智能金融家,秉承开放,挑战,专业,创新的价值观,让人人享有金融服务最优解。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。作为国内金融科技代表性企业,数禾科技率先将大数据和AI技术引入智能获客、智能风控、智能运营、智能客服等多个方面。截至目前,数禾科技已与包括银行、信贷、持牌消金、基金和保险等在内的100余家金融机构展开合作。

客户需求

客户业务及技术挑战:

1、在大数据上云过程中,客户遇到最大的问题就是计算资源不足,以及大规模计算用量带来的高成本。在创建多个EMR集群之后,如何按照业务维度进行合理的分账也是一个运维难题。

2、基于EMR+OSS的数据湖方案,如何与MaxCompute数仓有机结合,统一元数据管理和权限管理。

客户价值

1、弹性资源保障及成本优化:

    a. 对可用区及服务器规格做合理的规划选型,避免底层资源不足导致的业务被动迁移。

    b. EMR集群的task节点起初选择的是抢占式实例(相比较按量有较低折扣),但在底层资源不足的情况下会导致扩容失败。为了保障资源交付,弹性资源从抢占式实例切换到按量付费,随之而来带来的就是按量资源的高成本。梳理客户按量资源类型,推荐客户购买预留实例券XXX台覆盖稳态按量资源,使用率达 100%,保守估计降本 40% 以上。目前客户也正在参考SCU最佳实践部分对块存储进行成本优化。

    c. 后来EMR集群集成了弹性伸缩的成本优先策略,即优先创建抢占式实例、若失败再创建按量实例,增加弹性资源交付成功率,同时降低成本。

2、成本管理:
阿里云提供了给资源打TAG的方式实现分账,具体实现上,客户通过给EMR集群打TAG的方式实现多EMR业务集群之间的分账管理。客户在此基础之上,拉取ResourceManger里的MemorySeconds指标,按照计算公式:MemorySeconds Of SQL/Total MemorySeconds Of EMR * EMR集群总费用 估算出每条SQL的费用,督促业务优化消耗资源多的SQL和下线无用SQL。
3、前沿技术探索:
当前客户正在尝试基于DLF的数据湖架构,将EMR的元数据和Maxcompute元数据迁移到DLF,底层使用OSS作统一存储,打通EMR构建的数据湖和Maxcompute构建的数据仓库两套体系,让数据和计算在湖和仓之间自由流动,真正实现湖仓一体。

客户之声

数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。在大数据上云过程中,我们遇到最大的问题就是计算资源不足,以及大规模计算用量带来的高成本。参考最佳实践《RI和SCU全链路使用实践》我们梳理了大数据集群的服务器弹性用量情况,通过预留实例券将原来的按量资源费用降低了40%。在《单账户企业分账最佳实践》指导下,我们也采用了给各个集群打TAG标签的方式,实现了多个EMR业务集群的分账管理。在摸索湖上建仓的过程中,阿里云计算平台和最佳实践团队输出的《MaxCompute湖仓一体方案》给了我们很多宝贵的思路。希望能继续和阿里云最佳实践团队保持密切合作。

解说人

大数据平台架构师 程俊杰

相关产品

云数据库RDS MySQL 版 存储容量单位包 云速搭CADT 专有网络 VPC 负载均衡 SLB 大数据计算服务 MaxCompute 资源管理 弹性公网IP 对象存储 OSS 云企业网 块存储 E-MapReduce 运维编排 云服务器ECS 预留实例券 容器服务 ACK 日志服务(SLS) OpenAPI 配置审计 访问控制

相关最佳实践

加入最佳实践客户交流钉钉群

阿里巴巴众多专家将在群内定期分享行业最佳实践和前沿技术干货,与更多行业精英互动交流。搜索钉钉群:31852400