BpFile(id=188, bpId=72, name=Serverless对日志数据进行ETL处理, author=null, keyword=函数计算,日志服务,ETL,SLS,FunctionCompute,Logtail, description=使用函数计算ETL托管程序对日志服务中的日志记录进行ETL处理, position=null, ossUrl=bp-DBD3UCY0F7TMD81Y.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
数据加工场景
通过日志服务+函数计算ETL,快速完成日志采
集、加工、查询、分析和展示。
数据投递场景
为数据的目的端落地提供支撑,构建云上大数据
产品间的数据管道。
解决的问题
日志服务进行海量日志存储
函数计算按调用次数计费
使用函数计算进行灵活的ETL日志数据处理
任务
产品列表
VPC,ECS,日志服务,函数计算
, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=N25BFVWYW04S8RK1, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1
使用函数计算对日志服务中的数据进行 ETL处理
场景描述 解决的问题
⚫ 日志服务进行海量日志存储
⚫ 数据加工场景
⚫ 函数计算按调用次数计费
通过日志服务+函数计算 ETL,快速完成日志采
⚫ 使用函数计算进行灵活的 ETL日志数据处理
集、加工、查询、分析和展示。
任务
⚫ 数据投递场景
为数据的目的端落地提供支撑,构建云上大数据
产品间的数据管道。
产品列表
VPC,ECS,日志服务,函数计算
文档版本:20200113
2文档模板(手册名称)/Error! Use the Home tab to apply
云服务器 ECS(产品名称) 标题 to the text that you want to appear here.
阿里云
使用函数计算对日志服务中的
数据进行 ETL数据处理
文档版本:20150122(发布日期) II
3应用IPv6改造最佳实践 【公开|阿里巴巴集团保密信息|普通商秘|核心商秘】
文档版本信息
文本信息
属性 内容
文档名称 使用函数计算对日志服务中的数据进行 ETL数据处理
文档编号 072
文档版本 V1.6
版本日期
2021-08-03
文档状态 外部发布
制作人 游士
审阅人 游圣、连辙、筱晖
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2019-07-20 云魁 游圣、连辙 创建
V1.1 2019-08-05 筱晖 云魁 内容优化
云魁 游圣 内容优化
V1.2 2019-08-07
V1.3 2019-08-14 云魁 游圣 增加 DemoCode下载链接
V1.4 2019-10-30 云魁 游圣 增加 Terraform脚本
云魁 游圣 增加概览页
V1.5 2020-01-13
使用 CADT创建资源,内容优
V1.6 2021-08-03 游士
化
文档版本:20150122(发布日期) I
4应用IPv6改造最佳实践 【公开|阿里巴巴集团保密信息|普通商秘|核心商秘】
钉钉扫码进入阿里云最佳实践生态群,获取最新最快的最佳实践信息。
文档版本:20150122(发布日期) II
5使用函数计算对日志服务中的数据进行 ETL数据处理 前言
前言
概述
本实践通过模拟搭建电商网站 Demo,演示如何使用阿里云日志服务接入电商系统
Web服务器的接入日志,并在函数计算中编写 ETL托管程序,对日志服务中数据
进行处理,然后通过日志服务的仪表盘进行可视化展示。ETL托管程序通过日志服
务触发器以秒级准实时的频率被调用。
名词解释
⚫ 云速搭 CADT:是一款为上云应用提供自助式云架构管理的产品,显著地降低
应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板,同时
也支持自助拖拽方式定义应用云上架构;支持较多阿里云服务的配置和管理。
用户可以方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的
管理。详见:https://www.aliyun.com/product/developerservices/cadt
⚫ 项目(Project)
项目(Project)是日志服务中的资源管理单元,用于资源隔离和控制。您可以通
过项目来管理某一个应用的所有日志及相关的日志源。项目管理着用户的所有日
志库(Logstore),采集日志的机器配置等信息,同时也是用户访问日志服务资
源的入口。
⚫ 日志库(Logstore)
日志库(Logstore)是日志服务中日志数据的收集、存储和查询单元。每个日志
库隶属于一个项目,且每个项目可以创建多个日志库。
⚫ 分区(Shard)
每个日志库分若干个分区(Shard),每个分区由 MD5左闭右开区间组成,各个
区间范围不会相互覆盖,并且所有的区间的范围是 MD5的整个取值范围。
⚫ 函数计算
函数计算是事件驱动的全托管计算服务。使用函数计算,您无需采购与管理服务
器等基础设施,只需编写并上传代码。函数计算为您准备好计算资源,弹性且可
靠地运行任务,并提供日志查询、性能监控和报警等功能。
⚫ 触发器
文档版本:20210803 II
6使用函数计算对日志服务中的数据进行 ETL数据处理 前言
触发器是触发函数执行的方式。在事件驱动的计算模型中,事件源是事件的生产
者,函数是事件的处理者,而触发器提供了一种集中的和统一的方式来管理不同
的事件源。在事件源中,当事件发生时,如果满足触发器定义的规则,事件源则
调用触发器所对应的函数。
文档版本:20210803 III
7使用函数计算对日志服务中的数据进行 ETL数据处理 目录
目录
文档版本信息 .................................................................... I
法律声明 ........................................................................ I
前言 ........................................................................... II
目录 ........................................................................... IV
最佳实践概述 .................................................................... 1
前置条件 ........................................................................ 1
演示环境说明 .................................................................... 2
1. 搭建电商网站 Magento Demo ................................................ 4
1.1. 使用云速搭 CADT快速创建资源 .......................................... 4
1.2. 查看电商系统 Magento .................................................. 7
2. 将网站接入日志接入到日志服务的 Logstore .................................. 8
2.1. 查看网站接入日志(magento-access_log) ............................... 8
2.2. 将magento-access_log日志接入到日志服务 ............................. 11
2.3. 查看日志库已经接收到的日志 .......................................... 22
2.4. 新生成的网站接入日志在日志库的入库情况 .............................. 23
3. 创建ETL托管函数 ........................................................ 24
3.1. 创建函数计算服务实例 ................................................ 24
3.2. 创建空白函数并上传 ETL托管函数的示例代码 ............................ 28
3.3. 配置并运行 ETL托管函数 .............................................. 34
4. 通过日志服务仪表盘进行可视化展示 ........................................ 38
附录1:ETL示例代码 ............................................................ 43
附录2:使用Terraform创建资源 ................................................. 47
文档版本:20210803 IV
8使用函数计算对日志服务中的数据进行 ETL数据处理 最佳实践概述
最佳实践概述
场景描述
⚫ 日志服务的 LogHub是流式的数据中心,日志写入后可被实时消费。
⚫ ETL是构建数据仓库的重要一环,用户从数据源抽取(Extract)出所需的数
据,经过数据加工(Transform),最终按照预先定义好的数据仓库模型,将数
据加载(Load)到数据仓库中去。
⚫ 本实践案例通过搭建基于 LAMP的 Magento电商网站 Demo,系统会记录每一
个用户的 Web访问日志。通过函数计算提供秒级、准实时的 ETL数据处理程
序,DemoCode用于分析该网站服务了哪些地区的用户,这些用户通过哪个 ISP
访问您的服务。
技术架构
应用场景
⚫ 数据加工场景
通过日志服务+函数计算 ETL,快速完成日志采集、加工、查询、分析和展示。
文档版本:20210803 1