明特量化大数据面试题( 二 )
D JobTracker协助ResourceManger进行资源管理 。
22. HBase RowKey的设计原则是()
A.长度原则
B.胜列原则
C.唯一原则
D.业务原则
23.下列关于HBase的说法正确的是()
A.HBase是一个分布式的、面向性的非结构化数据库 。
B.HBase有两个默认的表空间default、hbase 。
C.HBase集群中可以启动多个HMaster , 这些HMaster可以并行运行 。
D.HRegionServer负责响应用户I/O请求 , 向HDF5中读写数据 。
24.下列属于Hive执行引擎的是()
A.HBase
B.MR
C.Tez
D.Spark
25.下列关于Hive的说法正确的是()
A.Hive不支持从Linuxk文件系统中向表中导入数据 。
B.Hive能使用from insert.select where 结构将一个数据表抽取的数据插入到另外不同的表和分区中 。
C.Hive不支持CTE结构 。
D.Hive删除外部表 , 只会删除表数据 , 不会删除元数据 。
26.下列关于Kafa的说法正确的是()
A.Kafa是一个分布式发布订阅消息系统 , 由Linkedin 最初开发 。
B.对于阿一个topic , 只能有一个消费者 。
C.同一个topic的partition只能增加 , 不能减少 。
D.topic的pantion由多个segment组成 。 一个segment由index索引文件和log数据文件组成 。
27.下列关于Storm的说法正确的是()
A.nimbus与supervisor之间是通过rookeepr相互通信的
B.Storm不支持事务
C.Storm的spout具有tall特性
D.storm有多种类型的stream grouping策略 , 其中shuffle grouping表示随机分组 。
28.Spark支持的分布式部署方式是()
A.standalone
B.Spark on mesos
C.Spark on Yarn
D.Spark on local
29.Spark中RDD(弹性分布式数据集)有两种类型的操作:Transform操作和Action操作 。 下列方法属于Transform操作的是()
A.Map() B.top()
C.reduce() D.filter()
30 下列关于RDD的说法正确的是
A、 Transform操作只会由一个RDD生成另一个新的RDD.不会进行实质计算 , 只有第一次Action时 ,才会真正计算 。
B、 Spark用户能够通过SparkContext 的 parallelize(seq)方法创建RDD.
C、 Spark通过读取外部数据 , 如HDFS. Hive等 , 创建RDD.
D、 Spark中RDD之间的依赖关系分为两种 , 窄依赖和宽依赖 。 其中的窄依赖是指多个子RDD的分区依赖一个父RDD的分区 。
二 在CentOS 7中 , /home/centos/txt的方容如下:
aaa bbb abc
ccc aaa ddd
aab eee fff
aaa ggg hhh
(1)查找以aaa开头的行 , 要求一行命令
(2)将以aaa开头的那一行中的全部a换成大写A , 要求一行命令 。
三 在Linux的/root/text.txt中内容如下:
aIsjdlfkjsdlkfjd
alskdjf
laksdjfoiewjoijwf
lskdsldkj
lasef jiojefIkjdsjlk
eowjflakjsdlfkj
liaeaw
编写Scala代码 , 将test.txt中所有字符数大于12的单词打印出来 。
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 同比|亚马逊公布“剁手节”创纪录战绩:第三方卖家全球销售额超48亿美元 同比大增60%
- 人民币|天猫国际新增“服务大类”,知舟集团提醒入驻这些类目的要注意
- 痛点|首个OTA智能社区诞生 解决行业四大痛点
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 长安|长安傍上华为这个大腿,市值暴涨500亿!可见华为影响力之大?
- 通气会|12月4~6日,2020中国信息通信大会将在成都举行
- 程序|2020全景生态流量秋季大报告:TOP100APP超半数布局小程序,全景流量重塑行业竞争新格局
- 操盘|中兴统一操盘中兴、努比亚、红魔三大品牌
