BpFile(id=242, bpId=106, name=基于MaxCompute的大数据BI分析, author=null, keyword=数据分析,ADB,BI,BI分析,Quick BI,大数据,数据仓库,MaxCompute, description=在互联网、电商及游戏等行业通常需要对海量数据做快速实时分析和决策/本文演示如何将业务数据和日志数据通过MaxCompute处理后汇总到ADB/并通过QuickBI等工具进行可视化分析的方案。, position=null, ossUrl=bp-4BYDA6V6SDWPHZJV.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
本文以电商行业为例,将业务数据和日志数据使用
MaxCompute做ETL之后,同步到ADB进行实时
分析,之后通过QuickBI进行快速可视化展示。
解决问题
1.互联网行业、电商、游戏行业等网站、App、
小程序应用内BI分析场景。
2.可扩展到各类网站BI分析场景使用。
产品列表
1.MaxCompute
2.分析型数据MySQL版
3.日志服务SLS
4.QuickBI
5.云服务器ECS
6.RDSMySQL版
, templateId=E16HCGZ2QVU43JRL, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=E16HCGZ2QVU43JRL, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1基于MaxCompute的大数据BI分析 最佳实践
业务架构图
场景描述
本文以电商行业为例,将业务数据和日志数据
使用MaxCompute做ETL之后,同步到ADB
进行实时分析,之后通过QuickBI进行快速可
视化展示。
解决问题
1. 互联网行业、电商、游戏行业等网站、
App、小程序应用内BI分析场景。
2. 可扩展到各类网站BI分析场景使用。
如有问题请使用钉钉扫码联系文档作者:
产品列表
1. MaxCompute
2. 分析型数据MySQL版
3. 日志服务SLS
4. QuickBI
5. 云服务器ECS
6. RDSMySQL版
文档版本:20191021
2云服务器ECS(产品名称) 文档模板(手册名称)/文档版本信息
阿里云
企业上云实践
基于MaxCompute的大数据BI分析
最佳实践
文档版本:20150122(发布日期) 2
3基于MaxCompute的大数据BI分析 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 基于MaxCompute的大数据BI分析最佳实践
文档编号 106
文档版本 V1.5
版本日期 2021-07-08
文档状态 外部发布
制作人 弦望、期会、衾影
审阅人 云魁、敬海
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2019-07-12 弦望、期会 云魁、敬海 创建
V1.1 2019-10-21 筱晖 - 文档优化
V1.2 2019-10-29 期会 敬海 ADB更新3.0
文档优化
V1.3 2020-01-20 期会 - 增加概览页
V1.4 2021-06-02 衾影 解决 python2
版本问题
V1.5 2021-07-08 衾影 适配DW更新
文档版本:20210708 I
4基于MaxCompute的大数据BI分析 前言
前言
概述
本文以电商行业为例,将业务数据和日志数据同步到ADB之后通过QuickBI做快速可
视化展现,其中对业务场景数据的ETL采用MaxCompute处理。本文提供全流程完
整的Demo演示,可作为客户、架构师PoC验证使用。
应用范围
互联网行业、电商、游戏行业等网站、App、小程序应用内BI分析场景。
可扩展到各类网站BI分析场景使用。
名词解释
专有网络VPC:VirtualPrivateCloud,简称VPC,是基于阿里云创建的自定义私
有网络,不同的专有网络之间二层逻辑隔离。您可以在自己创建的专有网络内创
建和管理云产品实例,比如ECS、负载均衡、RDS等。在部署云资源前,您需要
结合具体业务,规划VPC和交换机的数量及网段等。更多信息,请参见专有网络
VPC简介(https://www.aliyun.com/product/vpc)。
弹性公网IP:独立的公网IP资源,可以绑定到阿里云专有网络VPC类型的ECS、
NAT网关、私网负载均衡SLB上,并可以动态解绑,实现公网IP和ECS、NAT
网关、SLB 的解耦,满足灵活管理的要求。更多信息请参见:
(https://www.aliyun.com/product/eip)。
关系型数据库RDS:RelationalDatabaseService,简称RDS,是一种稳定可靠、
可弹性伸缩的在线数据库服务。RDS基于阿里云分布式文件系统和SSD盘高性
能存储,支持MySQL、SQLServer、PostgreSQL、PPAS和MariaDB引擎,提
供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,彻底解决数据库运
维的烦恼。更多信息,请参见云数据库 RDS MySQL 版简介
(https://www.aliyun.com/product/rds/mysql)。
DataWorks:是一个提供了大数据OS能力、并以allinonebox的方式提供专业
高效、安全可靠的一站式大数据智能云研发平台。同时能满足用户对数据治理、
质量管理需求,赋予用户对外提供数据服务的能力。更多信息,请参见Dataworks
简介:(https://data.aliyun.com/product/ide)。
数据传输服务(DataTransmissionService):DTS支持关系型数据库、NoSQL、大
文档版本:20210708 III
5基于MaxCompute的大数据BI分析 前言
数据(OLAP)等数据源间的数据传输。 它是一种集数据迁移、数据订阅及数据实
时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下,解决
远距离、毫秒级异步数据传输难题。 它底层的数据流基础设施为阿里双11异地
多活基础架构,为数千下游应用提供实时数据流,已在线上稳定运行5年之久。
您可以使用数据传输轻松构建安全、可扩展、高可用的数据架构。更多信息,请
参见DTS简介:(https://www.aliyun.com/product/dts)。
云服务器 ECS(ElasticComputeService):是一种弹性可伸缩的计算服务,助您
降低 IT 成本,提升运维效率,使您更专注于核心业务创新。更多信息,请参见
ECS简介:(https://www.aliyun.com/product/ecs)。
分析型数据库MySQL版(后文简称ADB):分析型数据库MySQL版(AnalyticDB
forMySQL)是一种高并发低延时的PB级实时数据仓库,全面兼容MySQL协议
以及SQL:2003 语法标准,可以毫秒级针对万亿级数据进行即时的多维分析透视
和业务探索。更多信息请参见(https://www.aliyun.com/product/ads)。
日志服务SLS:行业领先的日志大数据解决方案,一站式提供数据集、清洗、分
析、可视化和告警功能。全面提升海量日志处理能力,实时挖掘数据价值,智能
助力研发/运维/运营/安全等场景。
MaxCompute(原ODPS):是一项大数据计算服务,它能提供快速、完全托管的
PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。更多信息请
参见(https://www.aliyun.com/product/odps)。
数据管理DMS:数据管理DMS源自阿里数据库服务平台,是一个免安装、免运
维、即开即用、多环境来源、多种数据库类型统一的数据库管理web终端,已为
数万人员提供数据库研发支撑。更有完善的安全合规审计保障、数据库全流程
DevOps服务支持。更多信息请参见(https://www.aliyun.com/product/dms)。
文档版本:20210708 IV
6基于MaxCompute的大数据BI分析 目录
目录
文档版本信息..................................................................................................................................................................I
.........................................................................................................................................................................
法律声明 II
................................................................................................................................................................................
前言 III
目录................................................................................................................................................................................V
................................................................................................................................................................
最佳实践概述 1
前置条件........................................................................................................................................................................3
........................................................................................................................................................................
1. 导读 4
................................................................................................................................
1.1. 如何选择阅读内容 4
1.2. 如何下载源码和脚本文件....................................................................................................................4
.................................................................................................................................
1.3. 配置账号AK、SK 4
2. 搭建电商网站Demo.............................................................................................................................................6
...............................................................................................................................
2.1. 创建专有网络VPC 6
.................................................................................................................................
2.2. 创建并配置ECS 10
2.3. 创建RDS数据库................................................................................................................................17
..................................................................................................................................
2.4. 电商网站初始化 24
2.5. 构造用户数据......................................................................................................................................28
.................................................................................................................................................
3. ADB数据库配置 34
........................................................................................................................
3.1. 创建ADB数据库实例 34
3.2. 创建ADB账号....................................................................................................................................36
..........................................................................................................................................
3.3. 创建数据库 37
3.4. 创建数据表和日志表..........................................................................................................................40
..........................................................................................................................................
3.5. 添加白名单 42
..............................................................................................................................................................
4. SLS配置 45
4.1. 创建OSSBucket...............................................................................................................................45
............................................................................................................................
4.2. 开通SLS日志服务 47
4.3. WebTracking配置............................................................................................................................53
.............................................................................................................
4.4. magento系统开启日志采集 56
......................................................................................................................................
4.5. 查看日志数据 58
5. DataWorks大数据处理.....................................................................................................................................60
.....................................................................................................
5.1. 开通DataWorks(已开通跳过) 60
5.2. 创建工作空间......................................................................................................................................63
................................................................................................................................
5.3. 新增RDS数据源 68
..........................................................................................................................
5.4. 新增Loghub数据源 72
5.5. 新增ADB数据源................................................................................................................................73
......................................................................................................................................
5.6. 创建业务流程 74
5.7. 数据同步-customer表(从RDS同步到ADB)...........................................................................75
..............................................................................
5.8. 数据同步-product表(从RDS同步到ADB) 78
..........................................................................................................
5.9. 运行业务流程并检查数据同步 80
5.10. 数据同步-weblog表(从SLS同步到MaxCompute)...............................................................81
....................................................................................................................................
5.11. ETL-UDF开发 88
5.12. 创建日志结果表mc_weblog............................................................................................................96
文档版本:20191021 V
7基于MaxCompute的大数据BI分析 目录
5.13. ETL-数据开发.....................................................................................................................................98
......................................................................
5.14. 数据同步-weblog结果表(从MC同步到ADB) 101
..................................................................................................
5.15. 生成ADB中的weblog日志数据 105
6. 数据分析及QuickBI展示...............................................................................................................................109
...........................................................................................................................
6.1. 开通QuickBI服务 109
6.2. 添加数据源........................................................................................................................................109
........................................................................................................................................
6.3. 添加数据集 112
........................................................................................................................................
6.4. 添加仪表板 117
6.5. 数据分析-用户地域分布..................................................................................................................119
..................................................................................................................
6.6. 数据分析-用户年龄分布 121
6.7. 数据分析-用户画像..........................................................................................................................124
............................................................................................................................................
6.8. 展示页面 126
文档版本:20191021 VI
8基于MaxCompute的大数据BI分析 最佳实践概述
最佳实践概述
概述
本文以电商行业为例,将业务数据和日志数据使用MaxCompute做ETL之后,同步
到ADB进行实时分析,之后通过QuickBI进行快速可视化展示。
应用范围
互联网行业、电商、游戏行业等网站、App、小程序应用内BI分析场景。
可扩展到各类网站BI分析场景使用。
方案架构
公司在数据化建设中后期,数据结构非常复杂,数据量非常大,大量数据需要先进行
ETL,本方案通过数据集成把业务数据和日志数据同步到MaxCompute进行ETL后,
再同步到ADB数据分析,之后使用QuickBI进行快速可视化建立用户画像等。
方案优势
以ADB+QuickBI快速实时数据分析的核心能力为切入点,将客户的业务数据、
日志数据引导至阿里云的日志服务和分析性数据库。
融合阿里云的日志服务SLS的生态,增强用户体验(如无缝对接 Blink、
1
文档版本:20210708