现在的位置: 首页 > 综合 > 正文

大数据应用之腾讯精准推荐

2012年09月01日 ⁄ 综合 ⁄ 共 1213字 ⁄ 字号 评论关闭
基于腾讯8亿级用户画像,百亿级访问流量,百亿级的社交网络关系链等数据,在考虑用户体验的同时如何发挥大数据的价值?个性化推荐是一个不错的应用方向。本次演讲来自腾讯数据中心数据挖掘研究员肖磊,内容包括:腾讯精准推荐及其在社交广告,电商推荐,视频推荐等场景中的应用,面临的问题和挑战,以及尝试的解决方案。

【面临的问题和挑战】

腾讯的大数据现状:
- 800 mil | 8亿活跃用户
- 100 bn | 1000亿用户关系链
- 100 PB | 数据仓库存储100PB+
- ...…

腾讯精准推荐:视频推荐、电商推荐、广告推荐

推荐中的 3P:用户、ITEM、场景
1. 用户:
- 点击数据非常稀疏:大部分用户,一个月内都没有点击;平均1000次曝光,点击 1~8。
- 曝光数据偏态(以某个广告位为例):40%的用户,一天内,曝光 = 1;80%的用户,一天内,曝光 < 3
2. ITEM(广告):

- 素材内容对点击影响很大(如图:两个广告展示的点击率相差8倍)

- 新广告的冷启动:每天新增几十万新广告,没有用户反馈信息,自身信息匮乏。
3. 场景(广告位 )
- 上下文较少:没有明显的意图带入;没有固定的页面内容
- 广告位众多:网页、客户端、手机等

挑战:
- 50 ms | 用户体验,响应时延<50毫秒
- 10 bn | 100亿推荐请求
- 3~9 | 广告生命周期仅有3-9天左右
- 99% | 99%以上曝光无点击
- 1‰ | FACEBOOK平均点击率小于1‰

【解决之道】

解决之道3S:数据、算法、系统

1. 数据
用户画像

ITEM的图像特征
- 图像特征:亮度、饱和度、色彩度、对比度、尖锐度等
- 图像相似度:Item_id vs img_id

示例:广告图片相似度

2. 算法 - 运用之妙 知行合一

示例:泰囧的推荐结果

3. 系统 - 流式计算,实时计算

【两大核心数据平台】

1. 腾讯分布式数据仓库(TDW)
- 基于开源hadoop和hive进行大量优化和改造
- 单集群4400台(业界顶级规模),存储容量100PB

关键技术
- Hadoop Master(NN/JT)节点实现并行扩展,支持灾难时自动热切

- Hive&Pig功能丰富,支持传统数据库的标准语法,提供可视化集成开发环境

- Lhotse一站式任务管理,每天支撑10 HADOOP万级任务调度,可平行扩展
2. 实时推荐平台(APOLLO)
- 泛平台支撑,满足腾讯各类个性化推荐需求
- 海量数据在线处理,日推荐请求300亿,实时计算30000亿
- 算法精准,平台高效,毫秒级响应

关键技术
- 多种算法模型灵活适配,LR、RDT、 SVD等
- 简单高效的扩展能力,数据动态伸 缩,上层无感知

- 多副本数据容灾,服务可用度 99.995%以上

- 多级缓存技术,有效解决分布式计算 的数据CoLocation问题
--
讲师简介:肖磊,腾讯数据中心数据挖掘研究员。2004年毕业入职腾讯,一直从事数据相关的工作;关注大数据环境下的数据挖掘,个性化精准推荐相关领域。

最后附上小编送给讲师肖磊的课堂笔记。也请关注小编的微信公众号:@shenzhenware

抱歉!评论已关闭.