HQL经典分析语句

发表于 2019-10-23 | 更新于: 2019-10-23 | 分类于大数据，数据仓库， Hive | 阅读次数:

      下面这篇文章会不定期更新数据仓库中常用到的数据分析场景中的hql实现，一起来看看。

阅读全文 »

国人买车欲望为什么急剧下降？

发表于 2019-10-22 | 更新于: 2024-05-16 | 分类于其他，汽车 | 阅读次数:

      中国车市未老先衰，中低收入者没钱买车。

阅读全文 »

Java集合对比

发表于 2019-10-17 | 更新于: 2024-04-20 | 分类于后端， JAVA | 阅读次数:

java中集合分List、Set、Map，下面来看看他们的实现类、底层结构及什么情境下使用。

阅读全文 »

cut命令常用方法总结

发表于 2019-10-16 | 更新于: 2019-10-16 | 分类于 Linux ，命令， cut | 阅读次数:

Linux：cut命令详解，cut能干什么呢？

文件内容查看；
显示行中的指定部分，删除文件中指定字段；
显示文件的内容，类似于下的type命令；

阅读全文 »

grep命令常用方法总结

发表于 2019-10-16 | 更新于: 2019-10-16 | 分类于 Linux ，命令， grep | 阅读次数:

      grep 是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。通常grep有三种版本grep、egrep（等同于grep -E）和fgrep。egrep为扩展的grep，fgrep则为快速grep（固定的字符串来对文本进行搜索，不支持正则表达式的引用但是查询极为快速）。grep是Linux文本处理三剑客之一。

阅读全文 »

Impala和Hive的对比

发表于 2019-10-15 | 更新于: 2024-03-10 | 分类于大数据，数据仓库， OLAP | 阅读次数:

      Impala和Hive两者都是构建在Hadoop之上的大数据查询分析工具，他们之间有什么区别和联系呢？

阅读全文 »

Presto和Hive的对比

发表于 2019-10-14 | 更新于: 2019-10-14 | 分类于大数据，数据仓库， Presto | 阅读次数:

      Presto和Hive作为大数据分析领域OLAP工具，他们之间有什么区别和联系呢？下面来看看。

阅读全文 »

数据仓库设计终极目标

发表于 2019-10-14 | 更新于: 2019-10-14 | 分类于大数据，数据仓库 | 阅读次数:

      我们设计的数据仓库，最基本的功能是服务对象需要什么数据，我们就能很简单地提供什么数据，什么是数据仓库的终极目标呢，即什么样的数据仓库是完美的数据仓库？

阅读全文 »

Mr&Tez&Spark引擎的区别

发表于 2019-10-14 | 更新于: 2019-10-14 | 分类于大数据，数据仓库， Spark | 阅读次数:

      spark号称比mr快100倍，tez也号称比mr快100倍，那么他们之间为什么有这么大的差距呢？下面来看看。

阅读全文 »

Hive优化之小文件合并

发表于 2019-10-13 | 更新于: 2019-10-13 | 分类于大数据，数据仓库， Hive | 阅读次数:

      当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。
      为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并。当然，在我们向一个表写数据时，也需要注意输出文件大小。

阅读全文 »