加入收藏 | 设为首页 | 会员中心 | 我要投稿 百客网 - 百科网 (https://www.baikewang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

小米广告大数据与算法实践

发布时间:2023-01-12 09:40:09 所属栏目:大数据 来源:转载
导读:
小米生态大数据
小米是一家硬件公司,也是一家移动互联网公司,但我更愿意把小米看成一家大数据公司。硬件方面,在过去几年中,小米一共售出了超过两亿部手机和1500万台电视和盒子,另外路

小米大数据_大数据大数据培训班_大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^

小米生态大数据

小米是一家硬件公司,也是一家移动互联网公司,但我更愿意把小米看成一家大数据公司。硬件方面,在过去几年中,小米一共售出了超过两亿部手机和1500万台电视和盒子,另外路由器和手环等生态链产品的销量也非常好。软件方面,深受用户喜欢的MIUI是一个深度定制的安卓系统。依托于强大的硬件销量和MIUI等软件系统,小米在过去几年积累了全生态、多样性的大数据。包括APP使用、搜索/购物/社交/娱乐等数据。

大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^_小米大数据_大数据大数据培训班

小米大数据应用

小米的大数据广泛应用于各个业务线,包括以下场景:

大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^_小米大数据_大数据大数据培训班

小米广告平台

以小米移动生态发起者角色打造的广告平台,服务于小米应用商店、浏览器、一点资讯、小米电视等全线软硬件几十个业务的变现。支持应用游戏下载、信息流、搜索、开屏、视频贴片、电视画报等十余种主流和创新的移动广告形式。专注移动原生广告、多屏互动、以及基于2亿MIUI用户画像的精准投放。

大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^_小米大数据_大数据大数据培训班

小米广告算法实践

算法团队在过去将近两年的时间里,从点击预估开始,逐步拓展到反作弊、用户体验优化、广告主ROI优化、智能出价、预算平滑等方向。取得了一些成绩,也踩过了很多坑。

这是点击预估的一个简单架构图:

大数据大数据培训班_大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^_小米大数据

点击预估工作大部分时间都是在做特征挖掘和模型优化。特征挖掘更像是一门艺术,需要熟悉业务,更需要灵感。算法工程师每天的工作就是搜肠刮肚找出跟用户点击广告相关的信号。大部分可能是弱信号,组合起来才能发挥威力。模型则是兵器库,过去两年我们尝试了离线LR,在线FTRL,非线性模型FM和GBDT,以及正在实验中的深度模型等,有很多收获,也碰到了很多坑。除了特征工程和模型优化,在线CTR服务也非常有挑战,我们也做了大量系统优化和工程相关的工作。

如前所述,小米广告平台支持多种产品形式,下面分别展开来讲。

点击预估 - 应用分发

移动互联网发展到今天,应用推广仍然是效果广告主的首要诉求。依托于小米应用商店、浏览器和小米视频等app,应用分发成为了小米广告平台收入的重要组成部分,算法优化则是不断提升收入的利器。

特征工程方面,我们尝试了以下几大类的特征:

用户特征:人口属性,系统信息…

广告特征:id,类别,位置…

用户行为特征:app历史安装,近期下载,近期使用…

用户广告行为特征:ad展现点击下载次数…

组合特征(笛卡尔积):用户特征×广告特征…

其中,用户行为特征被证明为最有效,这也是和业务/产品形态最最密切相关的特征。模型方面,从最开始的LR到天级的FTRL,再到小时级的FTRL小米大数据,效果逐步提升。

点击预估 - 搜索

这里的搜索指的也是应用搜索,主要依托于应用商店和浏览器庞大的搜索流量进行变现,参考下图:

小米大数据_大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^_大数据大数据培训班

在模型优化方面,最初的模型是一个纯文本相关性的模型,主要考虑搜索关键词和广告文本(包括app的名称,描述等)的相关性。接着我们尝试了行为相关性模型,主要是基于协同过滤的思想来计算两个app的相似性(item-based)。今年开始正式采用了点击率模型,收入也是取得了大幅度的增长。

特征工程方面,和应用分发类似,也是这么几大类的特征。需要重点highlight的是搜索上下文特征在搜索场景最有效。

上下文特征:搜索关键词,搜索自然结果及分类,搜索来源…

广告特征:id、类别、广告标题…

用户特征:人口属性、系统信息…

组合特征:用户特征×广告特征,搜索上下文特征×广告特征…

点击预估 - 信息流

信息流广告起源于facebook,在国内多家广告平台取得成功(如今日头条,微博等)。信息流的广告形式有大图、小图、组图等形式,广告类型包括应用分发、H5和视频等。竞价方式也是多种多样,包括CPC、CPD、CPM、CPT等。小米信息流广告的主要载体是一点资讯和浏览器,也是我刚进小米之后接手的第一块业务。

信息流广告的算法优化和应用分发类似,也有一些不同的地方。信息流广告的素材更新频繁,广告数量也比较多。反应到模型方面,小时级的FTRL模型比天级模型有大幅度的提升。

点击预估 - 浏览器导航

传统的浏览器导航售卖一般是CPT,以固定的价格全量售卖给固定的广告主,所有的用户看到的也是同样的导航入口,也就是“千人一面”。这种方式的主要问题是广告主ROI很低,广告主花了很多钱但有些用户根本不会点。

大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^_小米大数据_大数据大数据培训班

我们对浏览器导航引入了个性化算法,把导航入口按照用户切分成多份流量,分别售卖给不同的广告主,也就是“千人一面到千人千面”,售卖方式也从“人工排期到准实时竞价”(即每次竞价后会维持一段时间不变,比如两周)。每个人出的站点会不一样,充分的个性化带来了效果的大幅提升。

算法平台

早期的模型训练就是简单的单机多线程,后来随着业务的迅速发展,需要对100多个广告位同时进行CTR/CVR模型训练,并且每个模型的特征和训练样本也都迅速增长到亿级甚至几十亿级,单机版本已经无法满足需求。于是我们基于parameter server框架搭建了一个分布式的算法平台,可以支持100多个模型的分布式并行训练,并且可以支持FTRL小时级模型训练。

小米大数据_大数据大数据培训班_大数据战略重点实验室块数据2.0^^^块数据^^^dt时代^

(编辑:百客网 - 百科网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!