1:日志采集;
2:传输日志;
3:将日志写入HDFS;
4:从HDFS中将日志装载入数据仓库中;
5:对装载的数据进行分析;
6:调用Hadoop集群的M/R执行并行计算,并返回结果;
7:将结果中有价值的数据写入HBASE数据库;
8:报表系统&应用程序端通过HBASE查询数据并展现;
备注:1:HBASE主要是和前端用户打交道的,因为HBASE的速度快;2:原始数据如果要被变化,可以使用Hive,Hive当不能完成时,可以通过扩展MapReduce来进行;3:最原始的数据存放在HDFS中;4:最原始的数据来自于业务系统;5:业务数据中的数据通过FLUME来进入HDFS中;
Zookeeper作用:
1:与FLUME服务器的交互:写入FLUME配置与读取HDFS配置信息,FLUME根据HDFS的配置信息将数据写入到HDFS中;
2:与Hadoop集群的交互:Hadoop集群将HDFS的配置信息写入到Zookeeper;
3:与Hive服务器的交互:Hive服务器读取HDFS的配置,读取HBase的配置;
4:与HBase K/V分布式数据库的交互:把HBASE配置信息写入Zookeeper;
Zookeeper充当一个配置管理的角色; FLUME一般部署在业务服务器上;
图:数据的流动与控制关系