java中集合分List、Set、Map,下面来看看他们的实现类、底层结构及什么情境下使用。

Focus on truth. welcome to correct.
grep 是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。通常grep有三种版本grep、egrep(等同于grep -E)和fgrep。egrep为扩展的grep,fgrep则为快速grep(固定的字符串来对文本进行搜索,不支持正则表达式的引用但是查询极为快速)。grep是Linux文本处理三剑客之一。

我们设计的数据仓库,最基本的功能是服务对象需要什么数据,我们就能很简单地提供什么数据,什么是数据仓库的终极目标呢,即什么样的数据仓库是完美的数据仓库?

当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。
为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并。当然,在我们向一个表写数据时,也需要注意输出文件大小。

Hive的文件压缩格式应该在不同的应用场景下使用不同的方式,例如cpu资源足够,但是硬盘容量不足时,可以使用bzip2方式。也跟文件格式有关,对列式存储的文件进行压缩,会得到一个可观的压缩比例,我们在上一篇文章中讲解了 Hive文件格式的对比。

Hive表数据实际存储在HDFS文件系统中,而不同的文件格式,会有不同的特性,我们在数据仓库建设中,如何根据仓库不同层次特点设计不同的文件格式呢?下面来看下。

