关于数据仓库的分层,似乎大家都有一个共同的认识。但涉及到每一层该如何去建模,可能每个人都有自己的理解。数据建模,毫无疑问是数仓建设的重中之重,然后,在实际的开发过程中,会把大量的时间都投入到了需求开发,往往会忽略数据建模(尤其是DWS层的建模),长此以往,数据模型变的越来越杂乱,指标口径无法统一,造成的结果就是:虽然表很多,但是却很难取数。本文主要介绍DWS层建模的基本方法论,希望对你有所帮助。
记录一次hive堆内存溢出问题
目前运行环境是这样的:
1 | hive version: 3.1.0 |
默认tez引擎

A dog's Journal
The story of dog Hatchi is really tearjerking.
This movie realised at 2017, and critics in douban is good.
But today, I will recommend you another movie.

强大的调度系统是怎样炼成的?
随着业务发展,我们的任务会越来越多,任务之间依赖关系会越来越复杂,任务之间需要跨周期依赖,不同部门、不同用户之间任务需要做权限控制,任务失败、超时、开始结束之间不符合自定义的报警需要完善,重要任务的优先执行等等,需要一个强大的调度系统支持,才能保证数据部门的正常运转,下面来看看一个强大的调度系统需要支持的功能。

数据分析常用指标和术语
有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把这类些名词概念搞混,导致结果不准确。数据分析相关概念多且杂,容易搞混。为了便于大家区分,今天小编就来盘点一下数据分析常用的术语解释。建议大家收藏起来方便查看。

English Corner 20191115
When you enter this article, I think you are interested in English, or you are good at English. So I will tell you a good story you may like to you, check it out below.

OCR识别是什么?
OCR 是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过 扫描 和摄像等光学输入方式获取纸张上的文字图像信息,利用各种 模式 识别算法分析文字形态特征 可以将票据、报刊、书籍、文稿及其它印刷品转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据, 通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准,随着人工智能的兴起,人们在追求让工作更简单化,ocr识别技术可以让从事文字工作的人更加轻松,以下是ocr在生活和工作中的应用。

数据分析员一定要知道的分析指标
作为数据分析员,不管身处互联网公司,还是金融科技公司,都离不开一些指标的计算,下面来看看一般用到了哪些指标,这些指标有哪些参考价值。



