数仓的命名规范

4 篇文章 1 订阅
订阅专栏

词根设计规范

词根属于数仓建设中的规范,属于元数据管理的范畴,现在把这个划到数据治理的一部分。完整的数仓建设是包含数据治理的,只是现在谈到数仓偏向于数据建模, 而谈到数据治理,更多的是关于数据规范、数据管理。 表命名,其实在很大程度上是对元数据描述的一种体现,表命名规范越完善,我们能从表名获取到的信息就越多。比如:一部分业务是关于货架的,英文名是: rack,rack 就是一个词根,那我们就在所有的表、字段等用到的地方都叫 rack,不要叫成 别的什么。这就是词根的作用,来统一命名,表达同一个含义。 指标体系中有很多“率”的指标,都可以拆解成 XXX+率,率可以叫 rate,那我们所有的指标都叫做 XXX+rate。

词根:可以用来统一表名、字段名、主题域名等等
举例: 以流程图的方式来展示,更加直观和易懂,本图侧重 dwm 层表的命名 规范,其余命名是类似的道理:

第一个判断条件是该表的用途,是中间表、原始日志还是业务展示用的表 如果 该表被判断为中间表,就会走入下一个判断条件:表是否有 group 操作 通过是否有 group 操作来判断该表该划分在 dwd 层还是 dwm 和 dws 层 如果不是 dwd 层,则需要判断该表是否是多个行为的汇总表(即宽表) 最后再分别填上事业群、部门、业务线、自定义名称和更新频率等信息即可。

  • 分层:表的使用范围
  • 事业群和部门:生产该表或者该数据的团队
  • 业务线:表明该数据是哪个产品或者业务线相关
  • 主题域:分析问题的角度,对象实体
  • 自定义:一般会尽可能多描述该表的信息,比如活跃表、留存表等
  • 更新周期:比如说天级还是月级更新

数仓表的命名规范如下:

数仓层次:

  • 公用维度:dim
  • DM 层:dm
  • ODS 层:ods
  • DWD 层:dwd
  • DWS 层:dws

周期/数据范围:

  • 日快照:d
  • 增量:i
  • 全量:f
  • 周:w
  • 拉链表:l
  • 非分区全量表:a

表命名规范

常规表

  • 常规表是我们需要固化的表,是正式使用的表,是目前一段时间内需要去维护去完善的表。
  • **规范:分层前缀[dwd|dws|ads]_部门_业务域_主题域_XXX_更新周期|数据范围 **
  • 业务域、主题域我们都可以用词根的方式枚举清楚,不断完善。
  • 更新周期主要的是时间粒度、日、月、年、周等。

中间表

  • 中间表一般出现在 Job 中,是 Job 中临时存储的中间数据的表,中间表的作用域只限于当前 Job 执行过程中,Job 一旦执行完成,该中间表的使命就完 成了,是可以删除的(按照自己公司的场景自由选择,以前公司会保留几天 的中间表数据,用来排查问题)。
  • **规范:mid_table_name_[0~9|dim] **
  • table_name 是我们任务中目标表的名字,通常来说一个任务只有一个目标表。 这里加上表名,是为了防止自由发挥的时候表名冲突,而末尾大家可以选择自由发挥,起一些有意义的名字,或者简单粗暴,使用数字代替,各有优劣吧,谨慎选择。通常会遇到需要补全维度的表,这里使用 dim 结尾。 如果要保留历史的中间表,可以加上日期或者时间戳。

临时表

  • 临时表是临时测试的表,是临时使用一次的表,就是暂时保存下数据看看,后续 一般不再使用的表,是可以随时删除的表。
  • **规范:tmp_xxx **
  • 只要加上 tmp 开头即可,其他名字随意,注意 tmp 开头的表不要用来实际使用, 只是测试验证而已。

维度表

  • 维度表是基于底层数据,抽象出来的描述类的表。维度表可以自动从底层表抽象出来,也可以手工来维护。
  • **规范:dim_xxx **
  • 维度表,统一以 dim 开头,后面加上,对该指标的描述。

手工表

  • 手工表是手工维护的表,手工初始化一次之后,一般不会自动改变,后面变更,也是手工来维护。 一般来说,手工的数据粒度是偏细的,所以暂时统一放在 dwd 层,后面如果有 目标值或者其他类型手工数据,再根据实际情况分层。
  • **规范:dwd_业务域_manual_xxx **
  • 手工表,增加特殊的主题域,manual,表示手工维护表。

指标命名规范

公共规则

  1. 所有单词小写
  2. 单词之间下划线分割(反例:appName 或 AppName)
  3. 可读性优于长度 (词根,避免出现同一个指标,命名一致性)
  4. 禁止使用 sql 关键字,如字段名与关键字冲突时 +col
  5. 数量字段后缀 _cnt 等标识…
  6. 金额字段后缀 _price 标识
  7. 天分区使用字段 dt,格式统一(yyyymmdd 或 yyyy-mm-dd)
  8. 小时分区使用字段 hh,范围(00-23)
  9. 分钟分区使用字段 mi,范围(00-59)
  10. 布尔类型标识:is_{业务},不允许出现空值

指标命名规范

结合指标的特性以及词根管理规范,将指标进行结构化处理。

  1. 基础指标词根,即所有指标必须包含以下基础词根:
  2. 业务修饰词,用于描述业务场景的词汇,例如 trade-交易。
  3. 日期修饰词,用于修饰业务发生的时间区间。
  4. 聚合修饰词,对结果进行聚集操作。
  5. 基础指标,单一的业务修饰词+基础指标词根构建基础指标 ,例如:交易金额 -trade_amt。
  6. 派生指标,多修饰词+基础指标词根构建派生指标。派生指标继承基础指标的特性,例如:安装门店数量-install_poi_cnt。
  7. 普通指标命名规范,与字段命名规范一致,由词汇转换即可以。
大数据-数据仓库.docx
03-22
申明:只适用于基于hive搭建的大数据数仓,其他不要下载,谢谢,适用与想从事数仓架构师和数仓开发人员,或者想入门数据仓库开发的人,大数据开发想整体了解数仓只看这个就够了,项目中用到的整体规范文档,包括数仓的规范,日常开发规范,解释spark脚本规范,其中数仓分层,数仓的命名,都是项目中实际用到的落地方案
数仓命名规范.pdf
07-23
大数据分层规范及表,字段规范,及数据处理方式,给予有需要的同学大数据分层规范及表,字段规范,及数据处理方式,给予有需要的同学大数据分层规范及表,字段规范,及数据处理方式,给予有需要的同学
数据治理之数仓命名规范大全.pdf
05-30
一、数据运营层:ODS(Operational Data Store) ODS层,是最接近数据源中数据的一层,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即 可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。 二、数据仓库层:DW (Data Warehouse) 数据仓库层是我们在做数据仓库时要核心设计的一层,在这里,从 ODS 层中 获得的数据按照主题建立各种数据模型 。DW 层又细分为DWD(Data Warehouse Detail )层、DWM(DataWareHouse Middle )层和DWS(Data WareHouse Servce ) 。
【推荐】最强大数据学习与最佳实践资料合集(基础+架构+数仓+治理+案例)(100份).zip
10-18
推荐,最强大数据学习与最佳实践资料合集,基础+架构+治理+案例,共100份。 一、基础篇 快手EB级HDFS挑战与实践 Hive任务开发规范 一文看懂Hadoop生态圈 资料-CentOS7搭建Hadoop-2.7.7集群 ClickHouse官方中文文档 ETL流程、数据流图及ETL过程解决方案 Google-MapReduce中文版_1.0 Hadoop安装及分布式部署 Hadoop精选面试题和MapReduce编程企业级编程实践 HDFS-part2-原理详解 HDFS核心内容及命令-2020 hive安装 hive语法和常用函数 Kafka安装 kylin安装 mapreduce调优指南 sqoop安装 二、架构篇 Flink-1.11 Hive集成与批流一体 ClickHouse在苏宁用户画像场景的实践 优酷大数据 OLAP 技术选型 阿里数据湖选型 各种系统架构图与详细说明 关于BI工具选型的参考依据 Apache Doris在京东搜索实时OLAP中的应用 ClickHouse官方中文文档 ClickHouse原理解析与应用实践 Doris竞品对比 Doris在美团外卖数仓架构中业务实践与改进思路 DorisDB原理剖析 和应用实践篇2021 Flink 流批一体的技术架构以及在阿里的实践 Flink实时仓库实践 Hadoop开源相关,Flink,Kylin等集群搭建2021 KylinCloud+Hudi实践 三、数仓篇 传统数仓与大数据数仓区别 模板-事实表梳理 模板-维度梳理 模板-业务梳理 模板-指标体系梳理 模板1-数据仓库项目计划 模板2-命名规范 模板3_访谈提问和沟通记录单模板 模板4_公共数据资源管理调研模板 模板5_公共数据资源管理分析模板 模板6-报表需求梳理 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 商业银行数据仓库系统V2.0 数据仓库建设方案 数据仓库建设规范模板 数据仓库整体设计方案模板 Hadoop构建数据仓库实践 四、治理篇 快手从模型规范开始的数据治理实践 第12章元数据管理-DAMA-DMBOK:数据管理知识体系 权限管理设计方案 数据安全模板-访问权限梳理表 数据治理服务解决方案 数据治理及数据资产化创新实践-京东 万振龙:数据治理与大数据平台设计 主数据管理实践白皮书(1.0版) Apache atlas使用说明文档 atlas安装 CDH启用kerberos身份认证和sentry权限管理 DAMA-部委级数据治理项目经验分享 GrowingIO 2020指标体系与数据采集 GrowingIO公开课:搭建业务+数据一体化的指标体系 IBM 数据治理统一流程 ISO38500 IT治理国际标准 ISO_IEC_38500_2008_version_PDF 五、案例篇 字节Apache Flink在字节跳动的实践 Hudi on Flink在顺丰的实践应用-蔡适择 滴滴Flink在滴滴出行的应用与实践 阿里基于Flink的实时计算平台 菜鸟在物流场景中基于Apache Flink的流计算实践 腾讯clickhouse实践 Clickhouse玩转每天千亿数据-趣头条 微博基于Flink的机器学习实践 快手稳定性体系建设 快手元数据平台化建设及应用场景 快手指标规范化及OneService平台化实战 Apache Flink 在美团的实践与应用 快手服务治理平台+KESS+的设计理念和实战 快手数据中台建设:大数据服务化之路 快手离线数据全链路分级保障平台化建设 快手万亿级实时 OLAP 平台的建设与实践 ClickHouse在快手的大规模应用与架构改进 美团点评酒旅数据仓库建设实践 美团酒旅数据治理实践 美团外卖为何使用Doris创建数据仓库 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 实时数据产品实践——美团大交通战场沙盘 ClickHouse在苏宁用户画像场景的实践 腾讯云clickhouse性能调优实践 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系 ClickHouse 在头条的技术演进 Doris的用户画像人群应用-会议组 Doris在美团外卖数仓架构中业务实践与改进思路 Flink 在 OPPO 的平台研发与应用实践 Flink实时仓库实践 Flink在滴滴的应用实践
电商平台数据仓库设计资料(16份).zip
03-16
Hadoop构建数据仓库实践1.pdf 传统数仓与大数据数仓区别.xlsx 基于 Hudi 和 Kylin 构建准实时高性能数据仓库.pdf 数据仓库建设方案.docx 数据仓库建设规范模板.pdf 数据仓库整体设计方案模板.docx 模板-业务梳理.xlsx 模板-事实表梳理.xlsx 模板-指标体系梳理.xlsx 模板-维度梳理.xlsx 模板1-数据仓库项目计划.xls 模板2-命名规范.xlsx 模板3_访谈提问和沟通记录单模板.xls 模板4_公共数据资源管理调研模板.xlsx 模板5_公共数据资源管理分析模板.xlsx 模板6-报表需求梳理.xlsx
数仓模型命名规范
12-14 2608
1. 词根设计规范 词根属于数仓建设中的规范,属于元数据管理的范畴,现在把这个划到数据治理的一部分。完整的数仓建设是包含数据治理的,只是现在谈到数仓偏向于数据建模, 而谈到数据治理,更多的是关于数据规范、数据管理。 表命名,其实在很大程度上是对元数据描述的一种体现,表命名规范越完善,我们能从表名获取到的信息就越多。比如:一部分业务是关于货架的,英文名是:rack, rack 就是一个词根,那我们就在所有的表、字段等用到的地方都叫 rack,不要叫成 别的什么。这就是词根的作用,用来统一命名,表达同一个含
数据仓库主题四--(表命名规范
热门推荐
weixin_40809627的博客
08-07 1万+
待总结 todo
建模规范:命名规范
u013288925的博客
07-04 3628
本文研究MAAB建模规范中的命名规范,同时结合工作实际谈谈博主的理解。本文参考的MAAB规范版本是Version 5.0。 文章目录1 命名规范2 命名规范内容2.1 基本规则2.2 企业命名规范 1 命名规范 命名规范是第一个在MAAB中定义的规范,其中规定了文件夹,模型,变量,接口等应该如何命名。 2 命名规范内容 2.1 基本规则 1)在命名规范中,可以对模块、信号等命名使用的字符只能是以下几种: 英文字母大小写:a-z, A-Z 阿拉伯数字:0-9 下划线:_ 2)除此之外,都不可以用于命名。例
数据仓库命名规范详解
jiang1182427208的博客
12-21 2130
小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)。实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)实时(rt)、小时(h)、天(d)、周(w)、月(m)、季(q)、年(y)、一次性任务(o)、无周期(n)
数仓---命名规范---表、字段、脚本
一枚小白的博客
04-29 2942
数仓命名规范(表、字段、脚本)
大数据数仓全知识领域总结
04-01
企业型数仓全知识体系介绍,包括大数据平台架构、数仓架构、数仓建模、常见模型、事实表、设计规范、表命名规范、开发规范、流程规范、元数据管理、维度表、三范式与反范式、数仓分层、数据治理、ETL、数据倾斜等
尚gg大数据项目实战电商数仓系统开发教程.txt
07-24
01_数仓项目介绍.avi4 b4 Q* Q8 Z0 Y) C6 O! w 02_数仓采集_用户行为采集课程介绍.avi8 \7 f3 O. c- {: v# W& V$ Y& b 03_数仓采集_数仓的概念.avi8 Z# X* q/ c; }3 A* [ T 04_数仓采集_项目需求.avi6 B8 n s0 h! M4 X# j! |0 ` 05_数仓采集_项目技术选型.avi8 [% N% W, U# y5 s 06_数仓采集_系统数据流程设计.avi8 N: L Y6 D6 y 07_数仓采集_框架版本选型.avi, k8 c& `! j& B 08_数仓采集_框架版本具体型号.avi1 x& Q/ D. O' l 09_数仓采集_服务器选型.avi3 _: b. H. i! a; O8 V3 A7 [1 s0 t; B 100_业务数仓_DWS层之用户行为宽表.avi* o! `2 N, _5 u& a$ W 101_业务数仓_需求九:GMV成交总额.avi; x4 H& X( _' I8 L7 r* n3 I/ y 102_业务数仓_需求十:ADS层之新增用户占日活跃用户比率.avi 103_业务数仓_需求十一:ADS层之用户行为漏斗分析.avi 104_业务数仓_用户购买商品明细表(宽表).avi 105_业务数仓_需求十二:ADS层品牌复购率.avi 106_业务数仓_需求十三:求每个等级的用户对应的复购率前十的商品排行(学生分享).avi6 e) h" C# G2 X+ z6 B 107_业务数仓_数据可视化.avi! @5 r5 g- n0 f, J3 l 108_业务数仓_Azkaban安装.avi( r9 z2 L3 \% G' k9 [: t9 K 109_业务数仓_GMV指标获取的全调度流程.avi& O, S. M2 Q# o 10_数仓采集_集群资源规划设计.avi 110_业务数仓_拉链表理论.avi 111_业务数仓_拉链表制作.avi+ k: N4 e; P4 X; ?( i' O0 {0 u. M9 Y 112_业务数仓_业务数仓项目总结.avi/ {1 S. ^* Y" b# M) | 113_业务数仓_即席数仓课程介绍.avi 114_即席数仓_Presto简介.avi+ r. E# z! Z4 t% o+ r8 }7 Q 115_即席数仓_Presto安装及使用.avi 116_即席数仓_Presto优化.avi% @4 x# m3 } G# h 117_即席数仓_Druid概念、特点、场景.avi 118_即席数仓_Druid对比其他框架.avi7 C4 m1 z" }# n% h( F 119_即席数仓_Druid框架原理.avi 11_数仓采集_测试集群服务器规划.avi* X" H5 S4 M1 C0 j" w 120_即席数仓_Druid数据结构.avi, V& D, ]# l" a0 R1 ?) n; L f 121_即席数仓_Druid安装.avi 122_面试题_总体架构.avi! c' O1 I8 T6 n Q 123_面试题_技术框架.avi 124_面试题_用户行为、业务数据、即席查询.avi4 N2 j# j6 P% O" a 125_面试题_开发经验.avi3 b$ C' k; H" B2 p# c( \ 126_CDH数仓_课程介绍.avi9 _. V/ m% J5 ^* s/ g+ f; g( s 127_CDH数仓_CM简介及架构.avi8 ]' ]* B! X' j. Z9 [ 128_CDH数仓_CM安装环境准备.avi, Q8 k8 x/ j3 v 129_CDH数仓_CM、Hadoop、Zookeeper安装.avi7 z) @! o) G0 @4 s; J 12_数仓采集_埋点数据基本格式.avi 130_CDH数仓_采集Flume的安装.avi# V L4 F& x1 t* }( Z8 F' o9 g' ` 131_CDH数仓_Kafka安装.avi" N8 o- i b/ W) o3 j8 j/ a/ g 132_CDH数仓_测试Flume和Kafka安装.avi 133_CDH数仓_消费Flume配置完成.avi6 ?$ m3 H4 m; C# ^$ j 134_CDH数仓_Hive、Oozie、Hue安装.avi# ]& Y, M2 |) A( o# Y( b& w 135_CDH数仓_用户行为数仓ODS层导数据.avi 136_CDH数仓_用户行为数仓完结.avi. F4 z* v& a; q" }% V* \ 137_CDH数仓_业务数据生成.avi7 W7 \$ ~$ n% w2 N, {( A; l! }8 K: S 138_CDH数仓_业务数仓完结.avi! N7 f. d0 U2 N( }' w) P- b" S 139_CDH数仓_Oozie执行前准备.avi 13_数仓采集_事件日志数据(上).avi2 S' ` H& ^& S3 a1 X 140_CDH数仓_Oozie任务编写及运行.avi 141_CDH数仓_即席查询数仓搭建Impala.avi 142_CDH数仓_Spark安装及总结.avi 14_数仓采集_事件日志数据(下).avi 15_数仓采集_日志生成代码编写.avi4 |* G) Z3 J4 ]/ b9 z$ @ 16_数仓采集_Logback日志打印控制.avi 17_数仓采集_服务器准备.avi 18_数仓采集_Hadoop安装.avi 19_数仓采集_项目经验之HDFS多目录配置.avi 20_数仓采集_项目经验之支持LZO压缩配置.avi j3 Q& D8 m* G9 R Q$ G 21_数仓采集_项目经验之基准测试.avi 22_数仓采集_项目经验之HDFS参数调优.avi; F" t) F) H7 W' {& L% n3 H ~7 s 23_数仓采集_Zookeeper安装.avi6 c1 v9 x4 \% K5 D. \0 M 24_数仓采集_项目经验之ZK集群启动停止脚本.avi( i1 P# ^( y1 Q- a 25_数仓采集_生成测试日志.avi 26_数仓采集_集群日志生成启动脚本.avi 27_数仓采集_集群时间同步修改脚本.avi, n2 a/ j1 @) t* d w 28_数仓采集_集群所有进程查看脚本.avi 29_数仓采集_每日回顾.avi; R" Y P2 X, E/ [+ B' j# ~& K. e 30_数仓采集_日志采集Flume安装.avi* V0 |0 U7 o- @* R; w) M 31_数仓采集_Flume组件及配置.avi 32_数仓采集_日志采集Flume配置分析.avi U6 j% Q4 F$ T6 U5 ^ 33_数仓采集_ETL拦截器.avi 34_数仓采集_分类型拦截器.avi! b5 ^. a8 ^; }$ x8 z) l2 U3 }" p 35_数仓采集_日志采集Flume启动停止脚本.avi2 ~/ r- J: h$ U, q/ e# e7 k% M 36_数仓采集_Kafka集群安装.avi3 L6 `7 F& o/ U6 F" U5 U 37_数仓采集_Kafka集群启动停止脚本.avi 38_数仓采集_Kafka Manager安装及脚本.avi& h9 z' v' g0 ^. }0 j 39_数仓采集_项目经验之Kafka压力测试.avi7 ~8 m+ w$ q/ G$ ?- _- K 40_数仓采集_项目经验之Kafka机器数量计算.avi 41_数仓采集_消费Kafka数据Flume.avi 42_数仓采集_项目经验之Flume内存优化.avi; q3 Q6 E! I, d7 n& k# {# B6 K 43_数仓采集_项目经验之Flume组件.avi- S+ J+ s/ {5 S0 d 44_数仓采集_采集通道启动停止脚本.avi! Q; X6 }4 C" g. f 45_数仓采集_调试经验.avi! P; q2 w N1 c i5 Z' c; i" i' O- x 46_数仓采集_面试题(Linux、Shell、Hadoop).avi2 R" A6 R7 D' p9 h( i. \ I" F9 w 47_数仓采集_面试题(Flume、Kafka).avi& A1 w0 W) S1 ~# i& n, } ~6 o( b& o 48_用户行为数仓_每日回顾.avi% U( @. v7 D* C* B W J 49_用户行为数仓_用户行为数仓课程介绍.avi 50_用户行为数仓_为什么要分层.avi! J- C* F* K' R* l 51_用户行为数仓_数仓分层.avi4 W _. ]: j5 U; l$ Q9 l. Q [/ u 52_用户行为数仓_数据集市与数据仓库概念.avi5 U5 c# e( Y8 B% c 53_用户行为数仓_数仓命名规范.avi 54_用户行为数仓_Hive&MySQL;安装.avi 55_用户行为数仓_Hive运行引擎Tez.avi! L# \% m0 s- F; A" q 56_用户行为数仓_项目经验之元数据备份.avi 57_用户行为数仓_ODS层启动日志和事件日志表创建.avi 58_用户行为数仓_ODS层加载数据脚本.avi' J8 ^- I/ b5 O3 Y) @9 a- h 59_用户行为数仓_DWD层启动日志建表及导入数据.avi9 h3 [. T0 F1 ~6 s! i/ J 60_ 用户行为数仓_DWD层启动表加载数据脚本.avi$ \1 Z0 Z/ m; d: F+ B5 u$ c 61_用户行为数仓_DWD层事件基础明细表创建.avi; Y& i+ U7 S6 P" X) T3 n! V 62_用户行为数仓_自定义UDF函数(解析公共字段).avi7 Q/ i) X8 O6 S0 M( V' m- ]- M 63_用户行为数仓_自定义UDTF函数(解析事件日志基础明细表).avi 64_用户行为数仓_DWD层数据解析脚本.avi 65_用户行为数仓_DWD层事件表加载数据脚本.avi 66_用户行为数仓_今日回顾.avi* e9 W+ P$ {5 ?! x9 [- e5 ]# a 67_用户行为数仓_业务术语.avi 68_用户行为数仓_日期的系统函数.avi 69_用户行为数仓_每日活跃设备明细.avi 70_用户行为数仓_每周活跃设备明细.avi 71_用户行为数仓_每月活跃设备明细.avi 72_用户行为数仓_DWS层加载数据脚本.avi- i* h$ d' Q7 M1 G0 ?% f 73_用户行为数仓_需求一:ADS层日活、周活、月活用户数.avi- I- Q* u3 n; v. n, T 74_用户行为数仓_每日新增设备明细表.avi/ B# |; {' c4 y6 y9 \2 r( i 75_用户行为数仓_需求二:ADS层每日新增设备表.avi 76_用户行为数仓_用户留存分析.avi 77_用户行为数仓_1、2、3、n日留存用户明细.avi v. ^5 Q1 \ `9 V4 Q 78_用户行为数仓_需求三:ADS层留存用户和留存比率.avi 79_用户行为数仓_新数据准备.avi 80_用户行为数仓_需求四:沉默用户.avi 81_用户行为数仓_需求五:本周回流用户数.avi 82_用户行为数仓_需求六:流失用户.avi2 x0 _( B( `, z4 j$ |5 S2 Z4 T- e% R) ] 83_用户行为数仓_需求七:最近连续3周活跃用户数.avi 84_用户行为数仓_需求八:最近七天内连续三天活跃用户数.avi- C- l" J O8 v3 x- J$ r 85_用户行为数仓_用户行为数仓业务总结.avi- V4 n, x9 B* A( P6 n/ e! E! U 86_用户行为数仓_Hive企业面试题总结.avi3 l9 J8 F2 t0 p& S! O! ^ 87_业务数仓_业务数仓课程介绍.avi 88_业务数仓_电商业务与数据结构简介.avi 89_业务数仓_表的分类.avi# X. Q* ~# f7 F P' @; i+ z 90_业务数仓_同步策略.avi; k0 r$ A: b9 E) @1 W 91_业务数仓_范式理论.avi5 ~2 z+ A' F+ N- J" S% r 92_业务数仓_雪花模型、星型模型和星座模型.avi 93_业务数仓_配置Hadoop支持Snappy压缩.avi 94_业务数仓_业务数据生成.avi 95_业务数仓_Sqoop安装及参数.avi% s/ l0 E. R( Y9 s, h3 k 96_业务数仓_Sqoop导入数据.avi4 {8 ~! a8 o4 `" y: p5 {1 ^ 97_业务数仓_ODS层建表及数据导入.avi 98_业务数仓_DWD层建表及导入数据.avi 99_业务数仓_需求讲解.avi7 X6 q, I3 Y+ F: N8 h 源码笔记资料.rar0 W
数仓规范文档.rar
05-30
本文档整理数据仓库搭建过程中的分层结构和数据库、表名、字段命名规范,对数仓开发、大数据开发有重要帮助,欢迎下载。有问题随时博客留言或者私信我。
MaxCompute数据开发实战—数据进入MaxCompute的N种方式.pdf
05-24
实现自动全链路的大数据处理流程(涵盖离线及实时数据)  离线数据上云(hdfs/hbase/文件/RDS/OSS)->MaxCompute数仓内部数据处理- >ADS同步->应用查询及大屏离线展现等;  实时数据上云(日志)->DataHub->StreamCompute->RDS->大屏实时展现等。 实现一个实际的、具有业务场景的项目交付过程,包含大数据主要产品, 并实现每个过程的资产积累 实现支持大客户、ISV人员快速上手并深入掌握项目实施方法、大数据技 能的目的 也称数据缓冲区,用来缓存上游系统加载进来的数据。上游系统数据每次加载到临时数据 区表的一个数据日期分区,该表在此区保留的时间是1周即7个分区,超过保留时间即自动 删除。不保留历史数据。  示例,从临时数据区交易流水表中删除一个日期分区数据:  alter table tx_jnl drop if exists partition(data_date='20160303'); 临时数据区设计原则:  贴源原则  临时性原则  访问隔离原则  与其他区域独立原则 临时数据区表命名规范:源系统表名 临时数据区数据加载转换策略:每次加载到临时数据区表的一个分区,进行全量加载。
数据仓库命名规范
04-08
1. 概述 2. 数据仓库命名规范 2.1. 命名规范 2.1.1. 表属性规范 2.1.2. 索引 2.1.3. 视图 2.1.4. 物化视图 2.1.5. 存储过程 2.1.6. 触发器 2.1.7. 函数 2.1.8. 数据包 2.1.9. 序列 2.1.10. 普通变量 2.1.11. 游标变量 2.1.12. 记录型变量 2.1.13. 表类型变量 2.1.14. 数据库链接 2.2. 命名 2.2.1. 语言 2.2.2. 大小写 2.2.3. 单词分隔 2.2.4. 保留字 2.2.5. 命名长度 2.2.6. 字段名称 2.3. 数据类型 2.3.1. 字符型 2.3.2. 数字型 2.3.3. 日期和时间 2.3.4. 大字段 2.3.5. 唯一键
数据仓库数据仓库分层
qq_59961910的博客
04-29 1732
2、数据结构清晰化,将数据分层后,每一层数据都会有作用域,方便我们对数据进行定位,当数据出现问题时,不用从头对数据进行修复,我可以根据数据表的特性找到具体的数据层,然后对数据进行修复;3、数据复用化,每一次进行数据计算,大可不用从原始数据重新跑一遍,可以找所需数据的数据层,然后从那一层进行计算,提高数据的复用性;
基于matlab实现实现了基于项目的协同过滤代码,MATLAB实现.rar
05-04
基于matlab实现实现了基于项目的协同过滤代码,MATLAB实现.rar
各地区年末城镇登记失业人员及失业率.xls
最新发布
05-05
数据来源:中国劳动统计NJ-2023版
企业固定资产信息管理系统设计与实现.doc
05-04
企业固定资产信息管理系统设计与实现.doc
doris 建设数仓 建表规范
09-21
Doris 建设数仓建表规范主要包括以下几个方面。 1. 表名规范:表名应具有明确的含义,能够清晰地反映表的内容和用途。表名应该使用小写字母,可以使用下划线分隔单词,遵循命名规范,以提高可读性。 2. 字段命名规范:字段名也应该具有明确的含义,用于描述字段所代表的数据意义。字段名应使用小写字母,如果字段名由多个单词组成,可以使用下划线分隔,遵循命名规范,以提高可读性。 3. 字段类型规范:根据实际的数据类型选择适当的字段类型,以减少存储空间的占用和提高查询效率。常见的字段类型包括整型、浮点型、日期时间型、字符型等。 4. 主键设置规范:每张表应该有一个主键,用于唯一标识每条记录。主键可以是单个字段或多个字段的组合,根据实际情况进行选择。主键的选择应尽量避免频繁变更和冲突。 5. 索引规范:根据查询的需求,合理设置索引,以提高查询效率。索引可以加快数据的查询速度,但同时也会增加写入和更新的时间。应根据实际情况进行权衡和选择。 6. 表关系规范:如果有多张表之间存在关联关系,应该明确定义和建立表之间的关系,如外键约束。这样可以保证数据的完整性,减少冗余和错误。 7. 数据分区规范:对于大型表,可以进行数据分区,将数据按照某个字段进行划分,以提高查询和处理的效率。数据分区可以根据时间、地域等维度进行划分。 通过遵循这些建表规范,可以提高数据仓库的可维护性、可扩展性和查询性能,减少数据质量问题和冗余数据的产生。同时,也能提高数据分析和业务应用的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

分类专栏

  • InfluxDB 1篇
  • 🌿挑战100天不停更,刷爆 hive sql🧲 35篇
  • hive 3篇
  • linux 1篇
  • mysql 1篇
  • 离线数仓 4篇
  • 开发工具 2篇
  • spark总结 1篇
  • spring 1篇

最新评论

  • 一次性解决datagrip连接hive报错问题

    程序员的三板斧: 应该不是的

  • 一次性解决datagrip连接hive报错问题

    xy_hgtc: 是不是datagrip版本的问题呀,

  • Filter(过滤器)、interceptor(拦截器)和Aspect(切面)的使用及区别

    Matthew_Van: 讲得清晰易懂,知识点间的关联性也讲的很清楚

  • 一次性解决datagrip连接hive报错问题

    程序员的三板斧: 这个也是我试出来的 因为不确定版本,所以只能用现成的,当时我也折腾了挺长时间

  • 一次性解决datagrip连接hive报错问题

    Fal_se: 找了一下午了,也试过用dbeaver的驱动去连dg,不知道哪出问题了,最后看你写的连上了表情包

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • InfluxDB的查询优化
  • 挑战100天不停更第35天 - 数字频率的中位数(+复盘)
  • 挑战100天不停更hive sql第34天 - 薪水求中位数
2023年1篇
2022年44篇
2021年2篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员的三板斧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源家纺店起什么名字好呢起名公司 创意年轻化黯然失色造句武汉卫星地图幻想曹操传密码入团志愿书范文婴儿起名字建筑建材有限公司起名灵异侦探旁氏骗局网上起名字很准不准索航起名网正杨氏婴儿起名大全吴闲云重庆同志蛇宝宝起名大全女孩转学申请书制造业起名文言文起名饭店起的名字免费中国水电十五局宁氏起名字洗劫天下姓牛男小孩起名七划的哪些起名字用朱晓雨牛年女孩起名字好寓意的字丁二狗的逍遥人生全本免费阅读好听的团起名淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化