Hive应用(1.2)文本文件数据编码及读时模式

1.文本文件数据编码

Hive在文本文件中默认分割符如下:

分隔符 描述
\n 默认的记录分隔符,两条记录由\n进行切分
^A 默认的列分隔符,一条记录的不同列由^A切分,八进制编码\001
^B ARRARY、STRUCT、MAP中的元素分割,八进制编码\002
^C MAP中的键值之间分割,八进制编码\003

可以在建表时自定义这4个分隔符:

1
2
3
4
5
6
7
8
9
10
11
12
13
CREATE TABLE users (
name STRING,
age SMALLINT,
address STRUCT<street:STRING, city:STRING, state:STRING>,
contacts MAP<STRING, STRING>,
friends ARRAY<STRING>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
COLLECTION ITEM TERMINATED BY '\002'
MAP KEYS TERMINATED BY '\003'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE; --指定以文本文件存储

2.读时模式

关系数据库通常使用写时模式(schema on write):在数据写入时检查是否符合schema。

Read More

Hive应用(1.1)数据类型

Hive中除了关系数据库支持的基础数据类型外,还支持3种集合数据类型。

基本数据类型

数据类型 长度 举例
TINYINT 1byte 有符号整数
SMALLINT 2byte 有符号整数
INT 4byte 有符号整数
BIGINT 8byte 有符号整数
BOOLEAN 1byte true/false true
FLOAT 4byte 单精度浮点数
DOUBLE 8byte 双精度浮点数
STRING 变长
TIMESTAMP 整数、浮点、字符串 java.sql.Timestamp兼容格式
BINARY 变长 字节数组

集合数据类型

数据类型 描述 示例
STRUCT 类似于对象。name列中的数据:struct{first STRING, last STRING}可以使用name.first来访问first值 struct(‘John’, ‘Doe’)
MAP 键值对形式,user列的取值可以通过user[‘name’] map(‘name’, ‘Jack’, ‘age’, 18)
ARRAY 数组形式,friends列的取值可以通过friends[0] Array(‘Jack’, ‘tom’)

使用集合类型的一些示例:

1
2
3
4
5
6
7
CREATE TABLE users (
name STRING,
age SMALLINT,
address STRUCT<street:STRING, city:STRING, state:STRING>,
contacts MAP<STRING, STRING>,
friends ARRAY<STRING>
);

Read More

HBase应用(4.3)列族高级配置

1.数据块大小

HBase会索引数据块的起始键,所以数据块越小索引越大,随机查找(性能更强;数据块越大索引越小,能够加载更多的索引数据。默认块大小为64K。

1
create 'test', {NAME => 'cf1', BLOCKSIZE => '65536'}

2.数据块缓存

2.1数据块缓存的内容

HBase的缓存分为两种:MemStore(写缓存) 和 BlockCache(读缓存),BlockCache对随机读取性能提升较为明显。数据块缓存包含以下内容:

  • DataBlock
Read More

HBase应用(4.1)模式设计及反规范化

1.宽表

问题1:假设在微博系统中,设计一张表follows用来存储用户相互关注的关系

由于HBase不像关系数据库支持连表查询,所以为了快速查询我们把被关注者的信息同时插入follows表中,但是会导致用户信息更新时除了users表,还要更新follows表,这是一种典型的反规范化处理:

row_key follows列族
jerry 1:Jack 2:tom
jack 1:jerry

Read More

HBase应用(3.2)HBase与MapReduce

假设Users表有100万条数据,使用MapReduce统计各性别的用户数量,并将结果写入users_stats表中

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
package info.aviraer.demo.bigdata.core.hbase.chapter3;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Mutation;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import info.aviraer.demo.bigdata.base.PropsKey;
import info.aviraer.demo.bigdata.util.PropertiesUtils;

/**
* 使用HBase作为数据源,并将MR结果写入HBase
* @author
*
*/
public class HBaseDataSource extends Configured implements Tool{

public static class Map extends TableMapper<Text, IntWritable> {

private static Text outKey = new Text();
private static IntWritable outVal = new IntWritable(1);

@Override
protected void map(ImmutableBytesWritable key, Result value,
Mapper<ImmutableBytesWritable, Result, Text, IntWritable>.Context context)
throws IOException, InterruptedException {
String gender = new String(value.getValue("info".getBytes(), "gender".getBytes()));
outKey.set(gender);
context.write(outKey, outVal);
}
}

public static class Reduce extends TableReducer<Text, IntWritable, Text> {

private static IntWritable outVal = new IntWritable();

@Override
protected void reduce(Text arg0, Iterable<IntWritable> arg1,
Reducer<Text, IntWritable, Text, Mutation>.Context arg2) throws IOException, InterruptedException {
int count = 0;
outVal.set(count);
while (arg1.iterator().hasNext()) {
count += arg1.iterator().next().get();
}
Put put = new Put(arg0.copyBytes());
put.addColumn("stats".getBytes(), "cout".getBytes(), Bytes.toBytes(count + ""));
arg2.write(arg0, put);
}
}

public int run(String[] args) throws Exception {
Configuration config = HBaseConfiguration.create();
config.set(PropsKey.HB_ZK_QUORUM_KEY, PropertiesUtils.get(PropsKey.HB_ZK_QUORUM_KEY));
Job job = Job.getInstance(config);
job.setJarByClass(HBaseDataSource.class);
job.setJobName("HBaseUserCount");

Scan scan = new Scan();
TableMapReduceUtil.initTableMapperJob("users", scan, Map.class, Text.class, IntWritable.class, job);
TableMapReduceUtil.initTableReducerJob("users_stats", Reduce.class, job);
boolean success = job.waitForCompletion(true);
return success ? 0 : 1;
}

public static void main(String[] args) throws Exception {
ToolRunner.run(new HBaseDataSource(), args);
}

}

Read More

HBase应用(3.1)分布式HBase

切分和分配大表

HBase表的数据是TB甚至PB级别,所以在一台机器存放一张表是不合理的,HBase可以将一张表切分成多个部分,形成多个region,region的大小由HBase.hregion.max.filesize决定,当一个region大于该值时会被切分成两个region,一台RegionServer上同时托管多个region。

HBase region拆分

如何找到region

客户端读取数据时是如何从集群中找到要读取的RegionServer呢?

  • 通过 -ROOT-.META.表来查找region

Read More