Hadoop 技术在电信运营商上网日志处理中的应用架构

现在的位置: 首页 > 综合 > 正文

Hadoop 技术在电信运营商上网日志处理中的应用架构

2018年04月27日 ⁄ 综合 ⁄ 共 2752字 ⁄ 字号小中大 ⁄ 评论关闭

Hadoop 技术在电信运营商上网日志处理中的应用架构

一、电信运营商上网日志处理的现状

在移动互联网如此普及的今天，每天会产生大量的上网日志，这些上网日志由于数据量巨大，产生后只能被保留3 天，就因为存储空间等原因被丢弃。目前，电信运营商只能基于CDR（详细通话记录）为主的客户行为分析可能缺失了大量的客户行为有效信息。例如，两个通话行为相似的人可能是完全不同类型的客户，如果将之同等对待，客户的接受度必然很差，浪费大量资源，并且无法取得良好的效果。这种分析，由于无法知晓通话内容，两个通话行为模式类似（例如夜间长时间的长途电话），实际通话目的及生活方式（其中一个是晚上与朋友聊天，另一个是加班需要的工作电话）完全不同的两个人往往在分析中被误归为一类，从而导致对客户的理解有较大偏差，营销效果不佳。

用户的上网行为中蕴含着大量的客户特征和客户需求信息，这些信息至关重要，而又是传统的CDR 话单分析所不能提供的。因此，这就要求用户的上网日志记录必须被保存，而且还需要进行数据分析挖掘处理，然后根据处理结果定义用户的行为习惯，为电信运营商实现精细化运营提供重要的营销依据。

随着Hadoop 技术平台系统的出现，可以实现上网日志的存储，同时提供数据挖掘处理功能。

二、上网日志数据处理方法的流程

上网日志数据处理方法的流程如下：

1．对上网日志数据的URL 地址进行提取。

2．对已知的URL 数据，按照基准URL 分类准则进行分类。

3．对未知的URL 地址，首先爬取网页数据，然后对爬取的网页数据按照网页分类模型，进行网页分类，不断优化模型，提高网页分类的准确性。

4．根据每个人访问网址和对应网址的网页分类，利用模型统计出每个手机号码的个人喜好，为精准营销提供依据。

具体流程如下图所示。

图1

三、上网日志系统的技术架构方案

基于上述处理流程，上网日志处理系统的逻辑架构方案如下图所示。

针对每一部分的具体功能介绍如下。

数据源

从电信运营商系统服务器定时获取用户基本信息和上网日志信息，输入到集群HDFS 文件系统和HBase 数据库中。

图2

接口层

接口层负责与外部系统的数据进行交换，包括用户数据、上网日志数据的采集，互联网网页内容的爬取和对外围系统提供访问接口。

数据接口可实现对关系型数据库，如Oracle、DB2 等的数据交换，包括采集和加载过程，同时也支持文件类型的数据，可以通过FTP 等方Hadoop 技术在电信运营商上网日志处理中的应用架构式进行采集。系统对外提供统一访问接口，具有开放性、高性能、可监控管理和安全性等特征。

数据层

数据层是分布式大数据处理平台，从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据模型，将数据加载到分布式存储中去。通过分布式计算框架可以实现数据的清洗、转换、校验和装载等过程。

资源层

由于分布式架构带来的硬件部署的复杂度，需要对物理资源层和系统平台层提供进一步的抽象，以提供自动化部署和弹性的运维能力，因此资源层实现了对物理资源的自动部署和动态扩展，对分布式集群中不同角色进行灵活部署。

功能层

功能层实现了数据处理流程模块的模块化处理，提供集群的访问控制，并负责Hadoop 集群的运行管理和系统报警日志管理。数据处理能够进行任意串并联的流程调度，并且能够控制节点的优先级、超时时间、重试次数，同时具备路由判断能力，能够在多分支的情况下通过条件进行不同的流程流转。采用异步调度策略，能够支持大并发量的调度。

应用层

负责应用功能的具体算法实现。实现了网页分类索引，通过互联网注册URL 及其类别的爬取，对数据进行统一管理，并置于持久化存储中。

将其中的类别进行模块化重组，划分至对应的层次结构，如（社交-社区）或（社交-微博），对类别进行索引。实现了词库分类管理，通过对网络热门词汇及常用词汇的爬取，根据所属类别构建分词词库。词库定期更新，不断完善。实现了用户行为统一分析，基于客户的访问行为，识别其偏好特征，根据内容偏好特征进行客户细分，并支持目标客户群提取，以便支撑营销活动，实现了URL 地址统一管理。

展示层

负责将应用功能处理结果通过Web页面展示，并且提供交互页面，熟练使用各种应用处理功能，并对处理结果进行动态展示。

网络爬虫

负责从互联网系统中爬取网页的具体内容信息。具体处理流程是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。程序从日志文件中提取URL 地址，并进行过滤、去重操作。其中过滤操作去除图片、视频、软件等内容的URL 地址；去重会把重复的URL、已经抓取的URL、已经分类的URL 地址去掉。剩下的URL 地址送入爬虫的地址库中，爬虫会根据一定的规则产生要抓取的URL 地址，然后通过MapReduce 的方式并发抓取产生的URL 地址，最终把抓取到的URL 地址的内容存储到HDFS 文件系统中。

由于网络爬取流程需要互联网资源支持，数据处理Hadoop 集群是和电信运营商内部网络互联，而且Hadoop 集群的安全处理措施不够完善，因此，它们之间的访问需要严格控制，以保证网络部署安全。

在物理架构设计上，需要设计两个完整的内部集群网络，集群网络之间需要用防火墙进行访问控制。上网日志处理系统的物理网络部署拓扑如下图所示。

图3

四、上网日志系统方案的优势

上网日志系统采用Hadoop技术解决方案的优势有如下几点。

1．Hadoop 技术方案是基于分布式基础架构，充分利用分布式两大核心技术——分布式文件系统与分布式计算框架，构建了一整套完整的分布式存储和分布式计算系统。

分布式系统有着高容错性的特点，并且设计用来运行在采用X86 架构的普通PC 服务器上，大大降低了服务器和存储的成本，以及数据库License 的成本，有效缓解了系统扩容带来的高成本压力。

2．Hadoop 技术方案采用并行处理大数据集的软件框架。在处理大数据的时候，通过分布式计算将其任务分解并在运行的多个节点中处理。

当集群中的服务器出现错误时，整个计算过程并不会终止，同时分布式系统可保障在整个集群中发生故障错误时的数据冗余。这种设计方案可以使网络爬虫、网页分类和上网行为等模型快速、高效运行。

目前在国内，像天云大数据、华为、亚信等多家知名的大企业都针对上网日志处理系统按照上述架构，提出了完整的解决方案。尤其是天云大数据公司，他们依托自主研发的BDP 平台软件（包含Hadoop 平台的完整解决方案）和公司强大的算法支持团队，已经成功地在某省级运营商运行平台上部署了上网日志处理系统，为该公司的用户精准营销提供了强有力的支撑。

作者介绍：方建国，微软三届MVP，某知名房地产公司资讯科技高级主任。多次参与大型实际生产环境的部署及维护，对服务器存储以及虚拟化架构、解决方案（服务器整合、虚拟桌面架构）有深入的研究，尤其是基于Windows 虚拟化解决方案。

【上篇】敏捷大数据流程
【下篇】UNIX上C++程序设计守则(信号和线程)(下)

作者: exorcist

该日志由 exorcist 于6年前发表在综合分类下，最后更新于 2018年04月27日.
转载请注明: Hadoop 技术在电信运营商上网日志处理中的应用架构 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

Hadoop 技术在电信运营商上网日志处理中的应用架构

作者: exorcist

书签

最新文章New

本站推荐

返回首页