明特量化大数据面试题( 二 )


D JobTracker协助ResourceManger进行资源管理 。
22. HBase RowKey的设计原则是()
A.长度原则
B.胜列原则
C.唯一原则
D.业务原则
23.下列关于HBase的说法正确的是()
A.HBase是一个分布式的、面向性的非结构化数据库 。
B.HBase有两个默认的表空间default、hbase 。
C.HBase集群中可以启动多个HMaster , 这些HMaster可以并行运行 。
D.HRegionServer负责响应用户I/O请求 , 向HDF5中读写数据 。
24.下列属于Hive执行引擎的是()
A.HBase
B.MR
C.Tez
D.Spark
25.下列关于Hive的说法正确的是()
A.Hive不支持从Linuxk文件系统中向表中导入数据 。
B.Hive能使用from insert.select where 结构将一个数据表抽取的数据插入到另外不同的表和分区中 。
C.Hive不支持CTE结构 。
D.Hive删除外部表 , 只会删除表数据 , 不会删除元数据 。
26.下列关于Kafa的说法正确的是()
A.Kafa是一个分布式发布订阅消息系统 , 由Linkedin 最初开发 。
B.对于阿一个topic , 只能有一个消费者 。
C.同一个topic的partition只能增加 , 不能减少 。
D.topic的pantion由多个segment组成 。 一个segment由index索引文件和log数据文件组成 。
27.下列关于Storm的说法正确的是()
A.nimbus与supervisor之间是通过rookeepr相互通信的
B.Storm不支持事务
C.Storm的spout具有tall特性
D.storm有多种类型的stream grouping策略 , 其中shuffle grouping表示随机分组 。
28.Spark支持的分布式部署方式是()
A.standalone
B.Spark on mesos
C.Spark on Yarn
D.Spark on local
29.Spark中RDD(弹性分布式数据集)有两种类型的操作:Transform操作和Action操作 。 下列方法属于Transform操作的是()
A.Map() B.top()
C.reduce() D.filter()
30 下列关于RDD的说法正确的是
A、 Transform操作只会由一个RDD生成另一个新的RDD.不会进行实质计算 , 只有第一次Action时 ,才会真正计算 。
B、 Spark用户能够通过SparkContext 的 parallelize(seq)方法创建RDD.
C、 Spark通过读取外部数据 , 如HDFS. Hive等 , 创建RDD.
D、 Spark中RDD之间的依赖关系分为两种 , 窄依赖和宽依赖 。 其中的窄依赖是指多个子RDD的分区依赖一个父RDD的分区 。
二 在CentOS 7中 , /home/centos/txt的方容如下:
aaa bbb abc
ccc aaa ddd
aab eee fff
aaa ggg hhh
(1)查找以aaa开头的行 , 要求一行命令
(2)将以aaa开头的那一行中的全部a换成大写A , 要求一行命令 。
三 在Linux的/root/text.txt中内容如下:
aIsjdlfkjsdlkfjd
alskdjf
laksdjfoiewjoijwf
lskdsldkj
lasef jiojefIkjdsjlk
eowjflakjsdlfkj
liaeaw
编写Scala代码 , 将test.txt中所有字符数大于12的单词打印出来 。