Ctrl+F / Command+F 全文检索
客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 |

针对资讯聚合类业务场景,Step by Step介绍如何搭建实时数仓

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 NAT网关 云原生数据仓库AnalyticDB MySQL版 云速搭
数据分析 |

电商网站向用户推荐带有商品属性物品以促进交易,提升购买率和转化率

云服务器ECS 云数据库RDS MySQL 版 日志服务(SLS) 大数据计算服务 MaxCompute 智能推荐 云速搭
数据分析 |

使用阿里云服务实现电商网站购物数据实时分析后在大屏幕上展示/极大地增强数据的可读性

云服务器ECS 云数据库RDS MySQL 版 DataV数据可视化 实时计算 数据总线
数据分析 |

对网站用户行为的每一个事件对应的位置进行埋点通过SDK上报/汇总数据进行分析以推动产品优化及指导运营

云服务器ECS 云数据库RDS MySQL 版 日志服务(SLS) DataWorks Terraform
数据分析 |

Spark和云原生结合提供计算与存储分离的高性价比大数据分析

专有网络 VPC 对象存储 OSS 容器服务 ACK 弹性容器实例 ECI 文件存储HDFS

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=247, bpId=153, name=数据湖-在线学习场景数据分析, author=null, keyword=数据湖,数据分析,OSS,EMR,在线教育场景, description=本场景以在线教育中一个答题闯关类的应用为例,使用Web Server来模拟演示这类 日志数据的分析处理。通过Nginx和Python flask搭建Web Server,模拟应用中的关 键页面,比如登录、课程内容等,之后构造若干用户使用的模拟日志数据,投递到数 据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。, position=null, ossUrl=bp-27XKFH7MNOFCUX8F.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1数据湖-在线学习场景数据分析 最佳实践 场景描述 业务架构 本场景以在线教育中一个答题闯关类的应用为例, 使用WebServer来模拟演示这类日志数据的分析 处理。通过Nginx和Python flask搭建Web Server,模拟应用中的关键页面,比如登录、课程 内容等,之后构造若干用户使用的模拟日志数据, 投递到数据湖进行分析后获取应用PV、UV、课程 内容访问排行、平均得分等等。 解决问题 1. 基于数据湖(EMR+OSS)搭建大数据平台。 2. EMR和OSS使用和配置。 3. 数据统一存储到OSS。 产品列表  E-MapReduce  对象存储OSS  云服务器ECS  访问控制RAM  专有网络VPC
2云服务器ECS(产品名称) 文档模板(手册名称)/ 阿里云 企业上云实践 数据湖-在线学习场景数据分析 最佳实践 文档版本:20200331 文档版本:20150122(发布日期) 2
3数据湖-在线学习场景数据分析 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 数据湖-在线学习场景数据分析 文档编号 153 文档版本 V1.2 版本日期 2020-03-31 文档状态 外部发布 制作人 期会 审阅人 游圣 文档变更记录 版本编号 日期 作者 审核人 说明 阿瑟 雷飙 周皓 V1.0 2020-03-03 云魁敬海 创建 华颋期会 V1.1 2020-03-31 筱晖 期会 文档优化 V1.2 2021-02-01 期会 - 增加CADT、 EMR 更 新 3.33 文档版本:20200331 I
4数据湖-在线学习场景数据分析 前言 前言 概述 本实践以WebServer为例来模拟在线教育的应用场景,通过Nginx和Pythonflask 搭建WebServer,模拟应用中的关键页面,比如登录、课程内容等,之后构造若干用 户使用的模拟日志数据,投递到数据湖进行分析后获取应用PV、UV、课程内容访问 排行等。 应用范围 通用行业。 名词解释  专有网络VPC:VirtualPrivateCloud,简称VPC,是基于阿里云创建的自定义私 有网络,不同的专有网络之间二层逻辑隔离。您可以在自己创建的专有网络内创 建和管理云产品实例,比如ECS、负载均衡、RDS等。在部署云资源前,您需要 结合具体业务,规划VPC和交换机的数量及网段等。更多信息,请参见: www.aliyun.com/product/vpc  访问控制RAM:RAM使您能够安全地集中管理对阿里云服务和资源的访问。您 可以使用 RAM 创建和管理用户和组,并使用各种权限来允许或拒绝他们对云资 源的访问。更多信息,请参见:www.aliyun.com/product/ram  对象存储OSS:OSS是海量、安全、低成本、高可靠的云存储服务,提供 99.9999999999%的数据可靠性。使用RESTfulAPI 可以在互联网任何位置存储 和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储成本。更 多信息,请参见:www.aliyun.com/product/oss 文档版本:20200331 III
5数据湖-在线学习场景数据分析 目录 目录 文档版本信息..................................................................................................................................................................I 法律声明.........................................................................................................................................................................II ................................................................................................................................................................................ 前言 III 目录...............................................................................................................................................................................IV ................................................................................................................................................................. 最佳实践概述 1 前置条件.........................................................................................................................................................................3 演示环境说明及附件下载............................................................................................................................................4 ....................................................................................................................................................................... 1.数据湖 5 ................................................................................................................................................... 1.1.EMR+OSS 5 ................................................................................................................................................. 1.2.JindoFS简介 6 1.3.与OSS、HDFS对比...................................................................................................................................8 2.基础环境配置...........................................................................................................................................................9 ................................................................................................................................................ 2.1.基础环境配置 9 2.2.安全组规则设置.........................................................................................................................................12 .............................................................................................. 2.3.配置对象存储OSS用于JindoFS的目录 14 2.4.为EMR创建RAM角色............................................................................................................................14 2.5.EMR集群界面介绍.....................................................................................................................................21 .................................................................................................................................... 2.6.EMRJindoFS 配置 23 3.应用场景.................................................................................................................................................................31 ...................................................................................................................................................... 3.1.场景描述 31 3.2.日志格式......................................................................................................................................................32 3.3.模拟应用系统..............................................................................................................................................32 .............................................................................................................................................. 3.4.模拟数据生成 36 3.5.数据投递......................................................................................................................................................37 ..................................................................................................................................................... 3.6.添加UDF 46 3.7.添加event_log数据投递..........................................................................................................................47 3.8.数据加工分析..............................................................................................................................................50 ....................................................................................................................................... 3.9.配置EMR工作流 53 4.附录-TPCDS.........................................................................................................................................................62 ............................................................................................................................................... 4.1.JindoFS测试 62 4.2.OSS测试.....................................................................................................................................................63 文档版本:20200331 IV
6数据湖-在线学习场景数据分析 最佳实践概述 最佳实践概述 方案架构 本场景以在线教育中一个答题闯关类的应用为例,使用WebServer来模拟演示这类 日志数据的分析处理。通过Nginx和Pythonflask搭建WebServer,模拟应用中的关 键页面,比如登录、课程内容等,之后构造若干用户使用的模拟日志数据,投递到数 据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。 方案优势  支持超过10亿条元数据规模的数据管理,同时支持高可靠和高可用。  支持元数据实时备份和重建集群快速恢复导入。  支持数据归档备份和重建集群快速数据恢复。  支持冷热数据分层存储,可以对目录/表进行cache/archive操作。  支持缓存加速能力,提高数据吞吐100%以上,多个集群可以共享同一份缓存数据。  支持细化的数据湖权限管理,支持Ranger 权限集成。  支持Hadoop,Hive,Spark,Flink,Presto,HBase,Impala,Druid等引擎高 性能的运行在数据湖之上。 文档版本:20200331 1
7数据湖-在线学习场景数据分析 最佳实践概述  支持Fuse/Posix 文件接口。  支持混合云的方案,支持云上云下同时读写访问。 文档版本:20200331 2
8数据湖-在线学习场景数据分析 前置条件 前置条件 在执行本文操作前,请完成以下准备工作:  注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证 页面(account.console.aliyun.com/v2/#/authc/home)查看是否已经完成实名认 证。  阿里云账户余额大于100元。您可以登录阿里云控制台,并前往账户总览页面 (expense.console.aliyun.com/#/account/home)查看账户余额。  开通以下服务: ˉ ECS:详情请参见ecs.console.aliyun.com ˉ VPC:详情请参见vpc.console.aliyun.com ˉ RAM:详情请参见ram.console.aliyun.com/overview ˉ OSS:详情请参见oss.console.aliyun.com/overview ˉ EMR:详情请参见emr.console.aliyun.com 文档版本:20200331 3