乐知付加密服务平台

如果你有资源, 平台可以帮你实现内容变现, 无需搭建知识付费服务平台。

点击访问官方网站 https://lezhifu.cc

扫码关注公众号 乐知付加密服务平台-微信公众号
说说数据那些事 | chenzuoli's blog

说说数据那些事

今天来说说我做数据这些年的一些感悟和体会,希望能够讲的通俗易懂,化繁为简,给刚入门的小伙伴一些帮助。
warehouse

数据,是当今世界很重要也很值钱的东西,从哪里来,怎么处理,到哪里去,这是要弄清楚的最基本路线图,本文分着3个部分来分别讲解。

  1. 从哪里来
    数据从哪里来的呢,从业务系统(网站浏览、点赞、评论等交互数据)、app、小程序、邮件系统等等系统产生,存储在关系型或菲关系新数据库中,或者直接落地磁盘,等待被拖走,然后进行下一步处理。
    目前数据接入的方式有很多,比如flume监控日志,sqoop离线从数据库导数据到目的端,canal、dbz监控数据库binlog获取最新增删改的实时数据等。
  2. 怎么处理
    在数据领域,处理数据就是将业务数据按照规范进行格式化、统一化,利用现有的技术手段,进行数据加工转换,变成我们想要的东西,然后进行数据分析、数据挖掘等,提供价值信息。
    那么现在的java python均可作为数据处理的语言选择,利用处理引擎mr、spark、flink进行批量并行处理,大数据的分而治之思想就是在大量数据处理的时候找到的。
    大数据时代,如何从大量的数据中抽取出我们想要的价值数据,就需要分而治之的思想,并行处理,能够大大利用现在廉价的机器资源,并且很重要的一点就是,如何进行数据筛选,如果在处理计算之前,过滤掉大部分数据,就会减少处理时间,提高数据响应度。
  3. 到哪里去
    数据去哪里,就是我们如何利用这些规范化的数据,去分析、挖掘,找到我们想要的数据,想要的数据,如何展示,以图表?文件?excel?方式呈现在需求方呢,这就是数据的去向。数据去向在数据仓库中就是app或者数据集市层,对外以api、表、图的形式对外提供数据服务。
    那么为了更好地提供数据服务,我们应该做好数据处理才行,于是就有了数据模型,一个好的模型,可以在同一个业务范围内,提供统一标准化的数据,也规范了统计口径,对下游使用方来说,减少了不必要的口径问题,也提供了好用的数据,这就是数据模型的作用,在数据处理阶段的重要职责。

为了让每天的数据能够稳定、高效、及时地产生,就少不了数据监控系统,但系统稳定,也不能代表不会出现什么问题,有可能是数据的问题,从源头开始就出现错乱数据,那么监控系统少不了,在监控我们自己的数据系统的同时,也要监控到数据源端,保证从源头就没有问题。


吾之初心,永世不忘。

欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
程序员写书

喜欢宠物的朋友可以关注:【电巴克宠物Pets】
电巴克宠物

一起学习,一起进步。

-------------本文结束感谢您的阅读-------------