大数据应用之腾讯精准推荐

现在的位置: 首页 > 综合 > 正文

2012年09月01日 ⁄ 综合 ⁄ 共 1213字 ⁄ 字号小中大 ⁄ 评论关闭

基于腾讯8亿级用户画像，百亿级访问流量，百亿级的社交网络关系链等数据，在考虑用户体验的同时如何发挥大数据的价值？个性化推荐是一个不错的应用方向。本次演讲来自腾讯数据中心数据挖掘研究员肖磊，内容包括：腾讯精准推荐及其在社交广告，电商推荐，视频推荐等场景中的应用，面临的问题和挑战，以及尝试的解决方案。

【面临的问题和挑战】

腾讯的大数据现状：
- 800 mil | 8亿活跃用户
- 100 bn | 1000亿用户关系链
- 100 PB | 数据仓库存储100PB+
- ...…

腾讯精准推荐：视频推荐、电商推荐、广告推荐

推荐中的 3P：用户、ITEM、场景
1. 用户：
- 点击数据非常稀疏：大部分用户，一个月内都没有点击；平均1000次曝光，点击 1~8。
- 曝光数据偏态(以某个广告位为例)：40%的用户，一天内，曝光 = 1；80%的用户，一天内，曝光 < 3
2. ITEM（广告）：

- 素材内容对点击影响很大（如图：两个广告展示的点击率相差8倍）

- 新广告的冷启动：每天新增几十万新广告，没有用户反馈信息，自身信息匮乏。
3. 场景(广告位 )
- 上下文较少：没有明显的意图带入；没有固定的页面内容
- 广告位众多：网页、客户端、手机等

【解决之道】

解决之道3S：数据、算法、系统

1. 数据
用户画像

ITEM的图像特征
- 图像特征：亮度、饱和度、色彩度、对比度、尖锐度等
- 图像相似度：Item_id vs img_id

示例：广告图片相似度

2. 算法 - 运用之妙知行合一

示例：泰囧的推荐结果

3. 系统 - 流式计算,实时计算

【两大核心数据平台】

1. 腾讯分布式数据仓库（TDW）
- 基于开源hadoop和hive进行大量优化和改造
- 单集群4400台(业界顶级规模),存储容量100PB

关键技术
- Hadoop Master(NN/JT)节点实现并行扩展,支持灾难时自动热切

- Hive&Pig功能丰富,支持传统数据库的标准语法，提供可视化集成开发环境

- Lhotse一站式任务管理，每天支撑10 HADOOP万级任务调度，可平行扩展
2. 实时推荐平台（APOLLO）
- 泛平台支撑,满足腾讯各类个性化推荐需求
- 海量数据在线处理,日推荐请求300亿,实时计算30000亿
- 算法精准,平台高效,毫秒级响应

关键技术
- 多种算法模型灵活适配,LR、RDT、 SVD等
- 简单高效的扩展能力,数据动态伸缩,上层无感知

- 多副本数据容灾,服务可用度 99.995%以上

- 多级缓存技术,有效解决分布式计算的数据CoLocation问题
--
讲师简介：肖磊，腾讯数据中心数据挖掘研究员。2004年毕业入职腾讯，一直从事数据相关的工作；关注大数据环境下的数据挖掘，个性化精准推荐相关领域。

最后附上小编送给讲师肖磊的课堂笔记。也请关注小编的微信公众号：@shenzhenware

抱歉!评论已关闭.

学步园