明特量化大数据面试题( 二 ) 明特量化1、分析如下代码

D JobTracker协助ResourceManger进行资源管理。
22. HBase RowKey的设计原则是()
A.长度原则
B.胜列原则
C.唯一原则
D.业务原则
23.下列关于HBase的说法正确的是()
A.HBase是一个分布式的、面向性的非结构化数据库。
B.HBase有两个默认的表空间default、hbase 。
C.HBase集群中可以启动多个HMaster ，这些HMaster可以并行运行。
D.HRegionServer负责响应用户I/O请求，向HDF5中读写数据。
24.下列属于Hive执行引擎的是（)
A.HBase
B.MR
C.Tez
D.Spark
25.下列关于Hive的说法正确的是（)
A.Hive不支持从Linuxk文件系统中向表中导入数据。
B.Hive能使用from insert.select where 结构将一个数据表抽取的数据插入到另外不同的表和分区中。
C.Hive不支持CTE结构。
D.Hive删除外部表，只会删除表数据，不会删除元数据。
26.下列关于Kafa的说法正确的是（)
A.Kafa是一个分布式发布订阅消息系统，由Linkedin 最初开发。
B.对于阿一个topic ，只能有一个消费者。
C.同一个topic的partition只能增加，不能减少。
D.topic的pantion由多个segment组成。一个segment由index索引文件和log数据文件组成。
27.下列关于Storm的说法正确的是（)
A.nimbus与supervisor之间是通过rookeepr相互通信的
B.Storm不支持事务
C.Storm的spout具有tall特性
D.storm有多种类型的stream grouping策略，其中shuffle grouping表示随机分组。
28.Spark支持的分布式部署方式是（)
A.standalone
B.Spark on mesos
C.Spark on Yarn
D.Spark on local
29.Spark中RDD（弹性分布式数据集）有两种类型的操作：Transform操作和Action操作。下列方法属于Transform操作的是（）
A.Map() B.top()
C.reduce() D.filter(）
30 下列关于RDD的说法正确的是
A、 Transform操作只会由一个RDD生成另一个新的RDD.不会进行实质计算，只有第一次Action时，才会真正计算。
B、 Spark用户能够通过SparkContext 的 parallelize(seq)方法创建RDD.
C、 Spark通过读取外部数据，如HDFS. Hive等，创建RDD.
D、 Spark中RDD之间的依赖关系分为两种，窄依赖和宽依赖。其中的窄依赖是指多个子RDD的分区依赖一个父RDD的分区。
二在CentOS 7中， /home/centos/txt的方容如下:
aaa bbb abc
ccc aaa ddd
aab eee fff
aaa ggg hhh
(1)查找以aaa开头的行，要求一行命令
(2)将以aaa开头的那一行中的全部a换成大写A ，要求一行命令。
三在Linux的/root/text.txt中内容如下：
aIsjdlfkjsdlkfjd
alskdjf
laksdjfoiewjoijwf
lskdsldkj
lasef jiojefIkjdsjlk
eowjflakjsdlfkj
liaeaw
编写Scala代码，将test.txt中所有字符数大于12的单词打印出来。