导读:用户画像将产品规划的焦点放在方针用户的动机和行为上,然后防止产品规划人员草率地代表用户。产品规划人员常常不自觉的把自己当作用户代表,依据自己的需求规划产品,导致无法捉住实践用户的需求。往往对产品做了许多功用的晋级,用户却觉得体会变差了。
在大数据范畴,用户画像的作用远不止于此。用户的行为数据无法直接用于数据剖析和模型练习,咱们也无法从用户的行为日志中直接获取有用的信息。而将用户的行为数据标签化今后,咱们对用户就有了一个直观的知道。
一同核算机也能够了解用户,将用户的行为信息用于个性化引荐、个性化查找、广告精准投进和智能营销等范畴。
01 概述
用户画像的中心作业便是给用户打标签,标签通常是人为规则的高度精粹的特征标识,如年纪、性别、地域、爱好等。这些标签调集就能笼统出一个用户的信息全貌,如图10-1所示是某个用户的标签调集,每个标签别离描绘了该用户的一个维度,各个维度之间彼此联络,一同构成对用户的一个全体描绘。
▲图10-1 用户标签调集
02 用户画像流程
1. 全体流程
咱们对构建用户画像的办法进行总结概括,发现用户画像的构建一般能够分为方针剖析、系统构建、画像树立三步。
画像构建中用到的技能稀有据核算、机器学习和自然语言处理技能(NLP)等,如图10-3所示。具体的画像构建办法会在本章后边的部分具体介绍。
▲图10-3 用户画像的构建技能
2. 标签系统
现在干流的标签系统都是层次化的,如下图10-4所示。首要标签分为几个大类,每个大类下进行逐层细分。在构建标签时,咱们只需求构建最基层的标签,就能够映射到上面两级标签。
上层标签都是笼统的标签调集,一般没有有用意义,只需核算意义。例如咱们能够核算有人口特点标签的用户份额,但用户有人口特点标签自身对广告投进没有任何意义。
▲图10-4 互联网大数据范畴常用标签系统
用于广告投进和精准营销的一般是底层标签,关于底层标签有两个要求:一个是每个标签只能表明一种意义,防止标签之间的重复和抵触,便于核算机处理;另一个是标签必须有必定的语义,便利相关人员了解每个标签的意义。
此外,标签的粒度也是需求留意的,标签粒度太粗会没有区别度,粒度过细会导致标签系统过分杂乱而不具有通用性。
表10-1列举了各个大类常见的底层标签。
标签类别
标签内容
人口标签
性别、年纪、地域、教育水平、出生日期、工作、星座
爱好特征
爱好爱好、运用APP/网站、阅览/保藏内容、互动内容、品牌偏好、产品偏好
社会特征
婚姻情况、家庭情况、交际/信息途径偏好
消费特征
收入情况、购买力水平、已购产品、购买途径偏好、终究购买时刻、购买频次
▲表10-1:常见标签
终究介绍一下各类标签构建的优先级。构建的优先级需求归纳考虑事务需求、构建难易程度等,事务需求各有不同,这儿介绍的优先级排序办法首要依据构建的难易程度和各类标签的依存关系,优先级如图10-5所示。
▲图10-5 各类标签的构建优先级
依据原始数据首要构建的是现实标签,现实标签能够从数据库直接获取(如注册信息),或通过简略的核算得到。这类标签构建难度低、实践意义清晰,且部分标签可用作后续标签发掘的根底特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。
现实标签的结构进程,也是对数据加深了解的进程。对数据进行核算的一同,不只完结了数据的处理与加工,也对数据的散布有了必定的了解,为高档标签的结构做好了预备。
模型标签是标签系统的中心,也是用户画像作业量最大的部分,大多数用户标签的中心都是模型标签。模型标签的结构大多需求用到机器学习和自然语言处理技能,咱们下文中介绍的标签结构办法首要指的是模型标签,具体的结构算法会在本文第03章具体介绍。
终究结构的是高档标签,高档标签是依据现实标签和模型标签进行核算建模得出的,它的结构多与实践的事务目标紧密联络。只需完结根底标签的构建,才能够结构高档标签。构建高档标签运用的模型,能够是简略的数据核算,也能够是杂乱的机器学习模型。
03 构建用户画像
咱们把标签分为三类,这三类标签有较大的差异,构建时用到的技能不同也很大。
第一类是人口特点,这一类标签比较安稳,一旦树立很长一段时刻根本不必更新,标签系统也比较固定;第二类是爱好特点,这类标签随时刻改变很快,标签有很强的时效性,标签系统也不固定;第三类是地舆特点,这一类标签的时效性跨度很大,如GPS轨道标签需求做到实时更新,而常住地标签一般能够几个月不必更新,发掘的办法和前面两类也大有不同,如图10-6所示。
▲图10-6 三类标签特点
1. 人口特点画像
人口特点包含年纪、性别、学历、人生阶段、收入水平、消费水平、所属职业等。这些标签根本是安稳的,构建一次能够很长一段时刻不必更新,标签的有用期都在一个月以上。一同标签系统的区别也比较固定,表10-2是MMA我国无线营销联盟对人口特点的一个区别。
大部分干流的人口特点标签都和这个系统比较类似,有些在分段上有一些差异。
性别
男
女
不知道
年纪
12以下
12-17
18-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65及以上
不知道
月收入
3500元以下
3500-5000元
5000-8000元
8000-12500元
12500-25000元
25001-40000
40000元以上
不知道
婚姻状况
未婚
已婚
离婚
不知道
从事职业
广告/营销/公关
航天
农林化工
轿车
核算机/互联网
修建
教育/学生
动力/采矿
金融/稳妥/房地产
政府/军事/房地产
服务业
传媒/出书/文娱
医疗/稳妥服务
制药
零售
电信/网络
旅行/交通
其它
教育程度
初中及以下
高中
中专
大专
本科
硕士
博士
▲表10-2 人口标签
许多产品(如QQ、facebook等)都会引导用户填写根本信息,这些信息就包含年纪、性别、收入等大多数的人口特点,但完好填写个人信息的用户只占很少一部分。而关于无交际特点的产品(如输入法、团购APP、视频网站等)用户信息的填充率十分低,有的乃至缺乏5%。
在这种情况下,咱们一般会用填写了信息的这部分用户作为样本,把用户的行为数据作为特征练习模型,对无标签的用户进行人口特点的猜测。这种模型把用户的标签传给和他行为类似的用户,能够认为是对人群进行了标签分散,因而常被称为标签分散模型。
下面咱们用视频网站性别年纪画像的比如来阐明标签分散模型是怎么构建的。
一个视频网站,期望了解自己的用户组成,所以对用户的性别进行画像。通过数据核算,有大约30%的用户注册时填写了个人信息,咱们将这30%的用户作为练习集,来构建全量用户的性别画像,咱们的数据如表10-3所示。
Uid
Gender
Watched videos
525252
Male
Game of throat
532626
Runing men、最强大脑
526267
琅琊榜、伪装者
573373
Female
欢喜喜剧人
▲表10-3:视频网站用户数据
下面咱们来构建特征。通过剖析,咱们发现男性和女人,关于影片的偏好是有不同的,因而运用观看的影片列表来猜测用户性别有必定的可行性。此外咱们还能够考虑用户的观看时刻、阅览器、观看时长等,为了简化,这儿咱们只运用用户观看的影片特征。
因为观看影片特征是稀少特征,咱们能够运用调用MLlib,运用LR、线性SVM等模型进行练习。考虑到注册用户填写的用户信息自身的精确率不高,咱们能够从30%的样本会集提取精确率较高的部分(如用户信息填写较齐备的)用于练习,因而咱们全体的练习流程如图10-7所示。
关于猜测性别这样的二分类模型,假如行为的区别度较好,一般精确率和掩盖率都能够到达70%左右。
▲图10-7 练习流程
关于人口特点标签,只需有必定的样本标签数据,并找到能够区别标签分类的用户行为特征,就能够构建标签分散模型。其间运用的技能办法首要是机器学习中的分类技能,常用的模型有LR、FM、SVM、GBDT等。
2. 爱好画像
爱好画像是互联网范畴运用最广泛的画像,互联网广告、个性化引荐、精准营销等各个范畴最中心的标签都是爱好标签。爱好画像首要是从用户海量行为日志中进行中心信息的抽取、标签化和核算,因而在构建用户爱好画像之前需求先对用户有行为的内容进行内容建模。
内容建模需求留意粒度,过细的粒度会导致标签没有泛化才能和运用价值,过粗的粒度会导致没有区别度。
为了确保爱好画像既有必定的精确度又有较好的泛化性,咱们会构建层次化的爱好标签系统,运用中一同用几个粒度的标签去匹配,既确保了标签的精确性,又确保了标签的泛化性。下面咱们用新闻的用户爱好画像举例,介绍怎么构建层次化的爱好标签。
2.1 内容建模
新闻数据自身对错结构化的,首要需求人工构建一个层次的标签系统。咱们考虑如下图10-9的一篇新闻,看看哪些内容能够表明用户的爱好。
▲图10-9 新闻比如
首要,这是一篇体育新闻,体育这个新闻分类能够表明用户爱好,可是这个标签太粗了,用户或许只对足球感爱好,体育这个标签就显得不行精确。
其次,咱们能够运用新闻中的关键词,尤其是里边的专有名词(人名、组织名),如“桑切斯”、“阿森纳”、“厄齐尔”,这些词也表明了用户的爱好。关键词的首要问题在于粒度太细,假如一天的新闻里没有这些关键词呈现,就无法给用户引荐内容。
终究,咱们期望有一个中心粒度的标签,既有必定的精确度,又有必定的泛化才能。所以咱们测验对关键词进行聚类,把一类关键词当成一个标签,或许把一个分类下的新闻进行拆分,生成像“足球”这种粒度介于关键词和分类之间的主题标签。咱们能够运用文本主题聚类完结主题标签的构建。
至此咱们就完结了对新闻内容从粗到细的“分类-主题-关键词”三层标签系统内容建模,新闻的三层标签如表10-4所示。
分类
主题
关键词
运用算法
文本分类、SVM、LR、Bayes
PLSA、LDA
Tf*idf、专门辨认、范畴词表
粒度
粗
中
细
泛化性
好
中
差
举例
体育、财经、文娱
足球、理财
梅西、川普、机器学习
量级
10-30
100-1000
百万
▲表10-4 三层标签系统
已然主题的精确率和掩盖率都不错,咱们只运用主题不就能够了嘛?为什么还要构建分类和关键词这两层标签呢?这么做是为了给用户进行尽或许精确和全面的内容引荐。
当用户的关键词射中新闻时,显着能够给用户更精确的引荐,这时就不需求再运用主题标签;而关于比较小众的主题(如体育类的冰上运动主题),若当天没有新闻掩盖,咱们就能够依据分类标签进行引荐。层次标签统筹了对用户爱好描写的掩盖率和精确性。
2.2 爱好衰减
在完结内容建模今后,咱们就能够依据用户点击,核算用户对分类、主题、关键词的爱好,得到用户爱好标签的权重。最简略的计数办法是用户点击一篇新闻,就把用户对该篇新闻的一切标签在用户爱好上加一,用户对每个词的爱好核算就运用如下的公式:
其间:词在这次阅览的新闻中呈现C=1,不然C=0,weight表明词在这篇新闻中的权重。
这样做有两个问题:一个是用户的爱好累加是线性的,数值会十分大,老的爱好权重会特别高;另一个是用户的爱好有很强的时效性,昨日的点击要比一个月之前的点击重要的多,线性叠加无法杰出近期爱好。
为了处理这个问题,需求要对用户爱好得分进行衰减,咱们运用如下的办法对爱好得分进行次数衰减和时刻衰减。
次数衰减的公式如下:
其间,α是衰减因子,每次都对上一次的分数做衰减,终究得分会收敛到一个安稳值 ,α取0.9时,得分会无限挨近10。
时刻衰减的公式如下:
它表明依据时刻对爱好进行衰减,这样做能够确保时刻较早的爱好会在一段时刻今后变的十分弱,一同近期的爱好会有更大的权重。依据用户爱好改变的速度、用户活跃度等要素,也能够对爱好进行周等级、月等级或小时等级的衰减。
3. 地舆位置画像
地舆位置画像一般分为两部分:一部分是常驻地画像;一部分是GPS画像。两类画像的不同很大,常驻地画像比较简单结构,且标签比较安稳,GPS画像需求实时更新。
常驻地包含国家、省份、城市三级,一般只细化到城市粒度。常驻地的发掘依据用户的IP地址信息,对用户的IP地址进行解析,对应到相应的城市,对用户IP呈现的城市进行核算就能够得到常驻城市标签。
用户的常驻城市标签,不只能够用来核算各个地域的用户散布,还能够依据用户在各个城市之间的出行轨道辨认出差人群、旅行人群等,如图10-10所示是人群出行轨道的一个示例。
▲图10-10 人群出行轨道
GPS数据一般从手机端搜集,但许多手机APP没有获取用户 GPS信息的权限。能够获取用户GPS信息的首要是百度地图、滴滴打车等出行导航类APP,此外搜集到的用户GPS数据比较稀少。
百度地图运用该办法结合时刻段数据,构建了用户公司和家的GPS标签。此外百度地图还依据GPS信息,核算各条路上的车流量,进行路况剖析,如图10-11是北京市的实时路况图,赤色表明拥堵线路。
▲图10-11 北京的实时路况图
04 用户画像评价和运用
人口特点画像的相关目标比较简单评价,而爱好画像的标签比较含糊,爱好画像的人为评价比较困难,咱们关于爱好画像的常用评价办法是规划小流量的A/B-test进行验证。
咱们能够挑选一部分标签用户,给这部分用户进行和标签相关的推送,看标签用户对相关内容是否有更好的反应。
例如,在新闻引荐中,咱们给用户构建了爱好画像,咱们从体育类爱好用户中选取一小批用户,给他们推送体育类新闻,假如这批用户的点击率和阅览时长显着高于平均水平,就阐明标签是有用的。
1. 作用评价
用户画像作用最直接的评价办法便是看其对实践事务的提高,如互联网广告投进中画像作用首要看运用画像今后点击率和收入的提高,精准营销进程中首要看运用画像后销量的提高等。
可是假如把一个没有通过作用评价的模型直接用到线上,危险是很大的,因而咱们需求一些上线前可核算的目标来衡量用户画像的质量。
用户画像的评价目标首要是指精确率、掩盖率、时效性等目标。
1.1 精确率
标签的精确率指的是被打上正确标签的用户份额,精确率是用户画像最中心的目标,一个精确率十分低的标签是没有使用价值的。精确率的核算公式如下:
其间|Utag|表明被打上标签的用户数,|Utag=true|表明有标签用户中被打对标签的用户数。精确率的评价一般有两种办法:一种是在标示数据集里留一部分测试数据用于核算模型的精确率;另一种是在全量用户中抽一批用户,进行人工标示,评价精确率。
因为初始的标示数据集的散布和全量用户散布比较或许有必定误差,故后一种办法的数据更可信。精确率一般是对每个标签别离评价,多个标签放在一同评价精确率是没有意义的。
1.2 掩盖率
标签的掩盖率指的是被打上标签的用户占全量用户的份额,咱们期望标签的掩盖率尽或许的高。但掩盖率和精确率是一对对立的目标,需求对二者进行权衡,一般的做法是在精确率契合必定规范的情况下,尽或许的提高掩盖率。
<p style="box-sizing: border-box; word