简单讲就是数据仓库,可以存储海量数据,可针对海量数据进行分析、计算。
本命其实叫 MaxCompute ,本文介绍统称为ODPS
官方文档链接: https://help.aliyun.com/document_detail/27800.html?spm=a2c4g.11186623.6.542.17ae65d4wAeKXV
DataWorks 开发套件
是数据工场,对ODPS数据进行加工处理,主要提供了: 数据集成 、 数据开发 、 数据管理 、 数据治理 、 数据分享 等功能。
官方文档链接: https://help.aliyun.com/document_detail/73015.html?spm=a2c4g.11186623.2.13.5ef65b9cBmTZdQ#concept-wqv-qbp-r2b
2. 登录篇(阿里云子账号)
子账号登录地址: https://signin.aliyun.com/login.htm
产品列表:数加 · DataWorks
账号赋权:如需要进行数据开发,需要根据业务需求,赋对应的工作空间的对应权限。
进入DataWorks> 工作空间列表页面,单击对应项目中的进入工作区,即可进入数据开发页面。(如下图)
2.使用篇
目前数据仓库的整体概况
目前承载的业务
业务操作日志备份分析
其他日志:系统运行日志
BI 数据分析相关(市场部BI)
开发前环境准备
开通DataWorks 权限的子账号
创建项目(1)
官方的文档: https://help.aliyun.com/document_detail/27815.html?spm=a2c4g.11186623.6.568.60d01df0XvZAoh
目前我们的工作空间
新建调度资源(2)
一般进行简单的数据分析只需要默认的调度资源就满足业务需求(目前的模式就是按量付费)
需要进行特殊的数据集成、数据操作时会用到自定义资源
PyOdps 资源组:执行py脚本的资源组
mongoDB 资源组:进行MongDb -->ODPS 时会用到资源进行数据同步。
新增数据源(3)
路径:选择项目 ->选择数据集成 ->同步资源管理 ->数据源
按照官方文档新增即可
数据源列表
批量数据上云(4)
路径:选择项目 ->选择数据集成 ->同步资源管理 ->数据源 ->整库数据迁移
数据开发前准备工作完成,可以进入开发阶段。
3 开发篇
数据开发
基本概念:
业务流程:解决一个业务的抽象模型,可以是一个问题的处理流程。
解决方案:多个业务流程组合成一个解决方案,在同一个解决方案里面可以复用相同的业务流程。
其他的概念: https://help.aliyun.com/document_detail/73017.html?spm=a2c4g.11186623.6.543.3b757c78aHPhAD
数据开发流程:
数据开发流程:
选取两个现有的业务进行数据开发演示
财务部门需求
数据埋点分析
流程图如下
4 运维
运维中心:
ODPS(Open Data Processing Service),是阿里巴巴通用计算平台提供的一种快速、完全托管的GB/TB/PB级数据仓库解决方案,现在已更名为MaxCompute,MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。欢迎分享,转载请注明来源:民族网