概述
最近需要分析数据,挖掘需求,提了不少关于家电品类和用户画像相关的数据,希望从中挖掘不同人群对于不同品类设备的需求。其中用户画像的生成方式觉得比较有学习意义,故有此文。
本文介绍了电商业务下用户画像的生成规则,如何使用数据提升产品,同时探讨不同业务场景下,用户画像的生成方式,最终扩展到联合不同公司、业务体系来共同精准定位用户的方案设想。
——————
什么是用户画像
用户画像(User Profile)是根据用户在互联网留下的种种数据,主动或被动地收集、加工成一系列的标签,用于刻画某一类人群。比如用户是男是女,年龄多少,家住哪里,工资多少,有无孩子,喜欢什么等等···
当我们讨论产品、需求、场景、用户体验的时候,往往需要将焦点聚集在某类人群上,用户画像便是一种抽象的方法,是目标用户的集合。

——————
电商业务用户标签及计算方式
序号 | 标签名 | 算法说明及标签解释 | 应用场景 |
1 | 用户级别 | 算法:统计算法 解释: 根据用户在平台的登录、购物、评价和晒单行为累积成长值对用户划分等级。 | 1.营销定位人群 2.网站用户结构 3.网站用户质量 4.成就勋章-用户行为细分 |
2 | 性别 | 算法:集成随机森林和GBDT 解释:根据已实名用户数据作为训练集,加工用户浏览、搜索、加购、评价、品牌、售后、购买等特征,采用集成随机森林与GBDT的分类算法建立模型。 | 1.营销定位人群 2.网站用户结构 3.个性化主题设置 4.个性化商品定制 5.社交人群分类 |
3 | 用户年龄 | 算法:最大熵模型(多分类) 解释: 根据用户购物行为(包括所购商品的购买词(产品词、品牌词、属性词)、店铺、品类、品牌)分析用户所处的年龄阶段。 1)用户范围:三年内有订单用户 2)数据口径:有效订单(排除虚拟订单) 3)特征提取:①用户订单商品标签分布:对用户三年购买过的商品title分词获得标签,计算每个用户购买标签的分布;②用户订单品类分布:对用户三年来购买三级品类、二级品类的分布 5)相关特征数据/统计数据:三年50单以上:准确率=0.72;三年30单以上 : 准确率=0.71 | 1.营销定位人群 2.个性化主题设置 3.网站用户结构 4.个性化商品定制 5.市场渗透率 |
用户婚姻状况 | 算法:贝叶斯算法 解释: 1.根据已知婚姻状况的用户近一年三级类目的购买情况建立贝叶斯模型对婚姻状况未知的用户进行预测。 2.根据模型结论,综合用户年龄信息,最终判断用户婚姻状况。 | 1.营销定位人群 2.网站用户结构 3.搜索推荐 4.个性化主题设置 5.个性化商品定制 | |
学历 | 算法:聚类算法 解释: 1.根据用户注册信息中填写的学历信息,结合上述用户的特定种类订单中的物品信息,反推学历未知的客户学历。 2.聚类的指标选择为用户购买商品数量、订单数、商品sku编号数量、注册距今时间、商品sku编号。 | 1.营销定位人群 2.网站用户结构 3.搜索推荐 4.个性化主题设置 5.个性化商品定制 | |
职业 | 解释: 1.职业标签加工的信息主要来自于两步: 第一步,为根据用户的收货地址,发票等包含明确职业信息的指标去定义用户职业; 第二步,为“教师/学生的细分”,通过校园计划确认学生种子用户,使用购买、浏览特征输入分类模型判定教师和学生。 2.第一步,首先以发票和收货地址,并根据具有某种特征的订单数量占比来判断职业标签,其次以图书来判断。 3.在第一步的基础上,应用第二步修正教师和学生的职业标签。 | 1.营销定位人群 2.网站用户结构 3.搜索推荐 4.个性化主题设置 5.个性化商品定制 | |
用户城市 | 根据用户登录IP信息、收货地址等信息计算而得 | 1.营销定位人群 2.网站用户分布 3.搜索推荐 4.个性化主题设置 5.个性化商品定制 | |
是否有车 | 算法:统计算法 解释: 1.获取近三年的有过有效订单下单记录的,并且购买了商品一级分类为“汽车用品”的人群,判断为有车。 | 1.营销定位人群 2.网站用户结构 3.搜索推荐 | |
最近x月客单价 | 算法:统计算法 解释: 1.计算规则是当订单完成时间在90天内时,根据用户分组,计算一个月内优惠后订单总价/订单完成时间在x天内的父单量,结果四舍五入保留一位小数。 | 1.数据统计 2.购物清单 | |
品类勋章 | 算法:统计算法 解释: 1.取优惠后金额大于0,且近一年父单量大于0,且最近一次订单时间在一年之内的相关二级品类; 2.根据优惠后订单总金额的不同划分母婴勋章等级。 | 1.数据统计 2.购物清单 | |
活跃度 | 算法:统计算法 解释: 1.综合用户在7日、30日、90日、180日上述4个不同的阶段内浏览商品详情页的pv,判断用户的活跃度(仅包括移动端),取整体用户的4个分位数对应1-4。以7天活跃类型的区间划分为例,分别取25%分位数、中位数、75%分位数作为分割点,分为四个区间,依次命名为1,2,3,4个级别,分别为:4 非常活跃 、3 活跃 、2 一般活跃 、1 不活跃 。30日、90日和180日同理。 2.活跃度类型为四位数“千位+百位+十位+个位”分别代表“7日活跃类型+30日活跃类型+90日活跃类型+180日活跃类型”。 | 1.数据统计 2.购物清单 | |
购买力 | 算法:聚类算法 解释: 1. 以用户近一年所购SKU数据为样本,将SKU的价格按其所属三级品类进行划分,划分为5档,观察用户所购SKU分别在其三级品类下所属的档次,集中档次最多的,则用户就属于这个档次。5档商品分别分为:高端商品,高中端商品,中端商品,低中端商品,低端商品。 2.根据dim_item_sku(商品sku)定义购买力区间,使用分位数函数划分,具体如下:1:价格>300且价格>90%分位数;2:价格的90%分位数<价格<价格的70%分位数;3:价格的70%分位数<价格<价格的30%分位数;4:价格的30%分位数<价格<价格的10%分位数;5:单价>价格的10%分位数 3.根据用户购买商品在五个区间中的占比,乘以不同的权重,计算商品区间得分。 4.使用决策树模型对商品区间得分、购买数量得分,平均购买价格得分以及总购买金额得分进行分群,分为五个群,分别对应五个区间。 客户特征: (1)1-土豪:经常买奢侈品和高端商品 (2)2-高级白领:生活品质较高,会偶尔高一些高端商品 (3)3-小白领:生活品质还不错,但是闲钱不多,喜欢买一些中端商品 (4)4-蓝领:生活品质一般,更倾向于购买中低端商品 (5)5-收入很少:量入为出,喜欢买经济实惠的东西,从不买高端商品 | 1.数据统计 2.购物清单 | |
个人用户生命周期 | 算法:统计算法 标签算法解释: 1.根据用户自注册为会员后,距今的时间段内订单量的变化判断用户在平台的成长阶段。此标签有助于判断网站用户的流失情况,不同阶段采取不同的客户营销策略。 2.划分标准如下: 1)1—考察阶段:最近30天注册未下单用户; 2)2—形成阶段-未复购-1:.最早一次销售日期>=系统日期-30天,且最早一次销售日期=最近一次销售日期; 3)3—形成阶段-未复购-2:系统日期-90天<=最早一次销售日期<系统日期-30天,且最早一次销售日期=最近一次销售日期 ; 4)4—形成阶段-未复购-3:系统日期-180天<=最早一次销售日期<系统日期-90天,且最早一次销售日期=最近一次销售日期; 5)5—适应阶段-已复购-1:最早一次销售日期不超过180天,且最近一次销售日期>=系统日期-30天,且最早销售日期<最近销售日期; 6)6—适应阶段-已复购-2:最早一次销售日期不超过180天,且系统日期-90天<=最近一次销售日期<系统日期-30天,且最早销售日期<最近销售; 7)7—适应阶段-已复购-3:最早一次销售日期不超过180天,且系统日期-180天<=最近一次销售日期<系统日期-90天,且最早销售日期<最近销售日期; 8)8—成长阶段-1:最早一次销售日期超过180天,且最近一次销售日期>=系统日期-30天,且最近一个月的订单量>6个月平均订单量+0.2; 9)9—成长阶段-2:最早一次销售日期超过180天,且系统日期-90天<=最近一次销售日期<系统日期-30天,且最近三个月的平均订单量>最近6个月的平均订单量+0.2; 10)10— 稳定阶段-1:最早一次销售日期超过180天,且最近一次销售日期>=系统日期-30天,且最近6个月的平均订单量-0.2<=最近1个月的订单量<=最近6个月的平均订单量+0.2; 11)11— 稳定阶段-2:最早一次销售日期超过180天,且系统日期-90天<=最近一次销售日期<系统日期-30天,且最近6个月的平均订单量-0.2<=最近3个月的平均订单量<=最近6个月的平均订单量+0.2; 12)12—衰退阶段-1:最早一次销售日期超过180天,且最近一次销售日期>=系统日期-30天,且最近1个月的订单量<最近6个月的平均订单量-0.2; 13)13—衰退阶段-2:最早一次销售日期超过180天,且系统日期-90天<=最近一次销售日期<系统日期-30天,且最近3个月的平均订单量<最近6个月的平均订单量-0.2; 14)14—沉睡阶段:最早一次销售日期超过180天,且最近一次销售日期在系统日期之前的90天-180天之间; 15)15—准流失阶段:最早一次销售日期超过180天,且最近一次销售日期在系统日期在系统日期180-365天之间; 16)16—流失阶段:最早一次销售日期在180天以上,且最近一次销售日期在系统日期365天以上。 3.客户群体特征如下: ●潜在用户-新人专区,采取措施减少用户观望时间,完成首单; ●形成阶段&适应阶段-客户成长阶段,采取相应措施优化用户体验,打好用户购物基础,如问卷调查,优惠让利活动; ●成长&稳定-客户维护阶段,提高用户粘性,比如优惠券营销,服务推荐; ●衰退-客户挽留阶段,设置问卷调查,了解用户需求。 ●沉睡&流失-客户唤醒阶段 | 1.数据统计 2.购物清单 | |
全站RFM分组 | 算法:统计算法 解释: 1.R表示平均购物时间间隔;F表示客户在统计时间内购买的次数;M表示客户在统计时间内购买的金额,3个指标将用户分了8类。RFM模型用于客户关系管理,是衡量客户价值和客户创利能力的重要工具和手段 2.选取一年内,单数小于400,且父订单优惠后金额之和小于100000的样本(即离群点检测并剔除-f m 大于均值3倍标准差外的标记为离群点) 3.RFM模型所需变量如下: 1) recent_ord(一年内首次订单距今天数-一年内最后一次订单距今天数)/365 订单分散度;2)money_ord优惠后金额 ;3)freq_ord父销售订单量 4.分段 1)rfm1_重要价值客户:优惠后金额>其均值,订单间隔>其均值,父销售订单量>其均值 2)rfm2_重要发展客户:优惠后金额>其均值,订单间隔>其均值,父销售订单量≤其均值 3)rfm3_重要保持客户:优惠后金额>其均值,订单间隔≤其均值,父销售订单量>其均值 4)rfm4_重要挽留客户:优惠后金额>其均值,订单间隔≤其均值,父销售订单量≤其均值 5)rfm5_一般价值客户:优惠后金额≤其均值,订单间隔>其均值,父销售订单量>其均值 6)rfm6_一般发展客户:优惠后金额≤其均值,订单间隔>其均值,父销售订单量≤其均值 7)rfm7_一般保持客户:优惠后金额≤其均值,订单间隔≤其均值,父销售订单量>其均值 8)rfm8_一般挽留客户:优惠后金额≤其均值,订单间隔≤其均值,父销售订单量≤其均值 | 1.营销定位人群 2.客户关系管理 | |
用户价值分组 | 算法:帕累托效应+指标归一化+综合评价 解释: 1.总体描述:根据近一年的用户购物、评价、晒单等情况,迭代相加后得出分数,按照整体数据分布和二八法则,将用户进行分组。 2.用户价值分组是在用户价值标准得分的基础上进行分组。 3.计算方法 1)在计算用户价值标准得分的基础上,去除极值并进行标准化 2)取分位数区间进行分组,具体如下: “用户价值标准得分”小于其50%分位数的记为“价值低”; “用户价值标准得分”位于50%分位数-80%分位数之间记为“价值中”; “用户价值标准得分”位于80%分位数-94%分位数之间记为“价值高”; “用户价值标准得分”高于其94%分位数的记为“非常高”。 | 1.营销定位人群 2.客户关系管理 3.网站用户质量 | |
用户忠诚度 | 算法:kmeans聚类算法 解释: 1.该标签可用于判断用户质量,根据用户近一年订单特征对用户忠诚度进行聚类,主要有以下5个特征:购物天数、优惠率、末单距今天数、购买SKU单数、购买三级品类数,其中: 活跃因子包括“购物天数,末单距今天数” 投机因子包括“优惠率” 广度因子包括“购买SKU数,购买三级品类数” 2. 计算步骤:第一步,确定聚类中心; 第二步,计算“购物天数、优惠率、末单距今天数、购买SKU单数、购买三级品类数”这五个指标距离8个聚类中心的距离,距离某个聚类中心最近,则属于某类。 距离的定义如下:距离得分=【(a.购物天数-b.购物天数)平方+(a.优惠率-b.优惠率)平方+(a.末单距今天数-b.末单距今天数)平方+(a.购买SKU单数-b.购买SKU单数)平方+(a.购买三级品类数-b.购买三级品类数)平方】开平方 其中a代表某用户的数数值,b代表聚类中心的数值。 3.枚举值含义 • 高度-忠诚型:购物天数、购买sku单数、购买三级品类数明显偏高。 • 中度-忠诚型:购物天数、购买sku单数、购买三级品类数较高。 • 近期-普通型:末单距今天数较近,其他三项指标(购物天数、购买sku单数、购买三级品类数)均低于中度-忠诚型。 • 远期-普通型:末单距今天数较远,其他三项指标(购物天数、购买sku单数、购买三级品类数)均低于近期-普通型。 • 近期-偶然型:末单距今天数较近,折扣率低。 • 近期-投机型:末单距今天数较近,折扣率高。 • 远期-偶然型:末单距今天数较远,折扣率低。 • 远期-投机型:末单距今天数较远,折扣率高。 | 1.营销定位人群 2.客户关系管理 3.网站用户质量 4.搜索推荐 | |
平台影响力 | 解释: 1.这个指标主要是为说明用户发表评论和晒单的积极性,这些行为会对网站产生一定的影响。在客服服务中,针对不同平台影响力的用户给予不同的服务。 2.指标选取:用户近半年评论数、好评数量、购买商品数量、晒单商品数量、好评商品数量,按月更新; 3.计算方法 1)如果某客户好评率>=平台好评率,则好评方向为1, 否则为-1; 2)计算的“评论sku个数排序分位数、晒单sku个数排序分位数”; 3)如果好评率>=平台好评率,则,平台影响力=(评论sku个数分位数*0.6 + 晒单sku个数分位数*0.4)*评论方向值+1; 如果好评率< 平台好评率,则,平台影响力=(评论sku个数分位数*0.6 + 晒单sku个数分位数*0.4)*评论方向值-1; 4)对计算后的结果进行标准化,方法如下: 影响力>0, 影响力/最大影响力*100;影响力<=0,影响力/最小影响力的绝对值*100 ; 5)(上述计算得到的数值+ 100)/2得到最后的影响力。 | 1.用户在评论,晒单方面的活跃程度 2.搜索推荐 3.营销定位人群 | |
促销敏感度类型 | 算法:聚类算法 解释: 1.首先按照最后一次下单时间及有无复购情况将用户分为四大群体:1.近一年有购物行为且复购的用户;2.近一年有购物行为但无复购的用户;3.最后一次下单时间在1年之前且有复购的用户;4.最后一次下单时间在1年之前但无复购的用户;其次,每一类用户群再根据优惠订单占比、每单优惠金额占比的平均值、优惠金额这三个指标进行聚类,分为:非常敏感、高度敏感、中度敏感、轻度敏感、不敏感。这样业务方在进行促销活动时,可根据营销的目的选择不同的促销敏感度人群,方便更精准、精细化的运营。 2.促销敏感度 算法简介: 1)根据订单表统计每个子订单的优惠金额和总金额; 2)统计计算每个父订单的优惠金额、总金额和优惠比率等数据信息; 3)根据购买行为对用户划分为今年复购用户、今年一单购用户、今年无购且只有一单用户、今年无购多单用户。并分别对这些用户计算优惠订单占比、优惠金额占比、总优惠金额等数据信息; 4)数据标准化和异常用户数据处理,通过数据标准化对异常用户数据进行处理; 5)对四个人群数据分别进行kmeans聚类得到促销敏感度的四个分类中心点; 6)根据用户数据距离各中心点的距离进行敏感度划分。 | 1.营销定位人群 2.促销方式的选取 3.搜索推荐 | |
潜在汽车用户模型 | 算法:关联+统计算法 解释: 针对人群:历史没有购买过汽车品类的用户;影响潜在用户的四大因素: 1、关联购买 2、近一个月内对汽车品类进行过浏览 3、近一月内对汽车品类进行过关注 4、近一月内对汽车进行过加入购物车 通过上述四个特征,共同决定最终是否为汽车的潜在用户。 | 1.营销定位人群 2.&品牌偏好&购买力-搜索推荐 |
– – – – – –
其他业务中的用户画像标签
由于电商平台的数据来自于用户浏览、购买数据,而且关注的也是用户购买行为,所以计算的标签绝大多数以营销定位人群、促进销量为目标,更关注用户浏览、下单、评论的相关动作。
在其他业务中,用户标签与用户画像应该以业务为出发点,以业务目标为最终目的,去标注用户,刻画用户画像。
比如在以信息流广告为主要盈利方式的浏览器产品中,业务目标是让用户更多地阅读信息流和广告,所以,用户的阅读偏好就是这类业务的核心标签。同时,浏览器可以获取到用户使用本产品时的浏览行为、点击行为,从浏览内容和点击偏好数据刻画用户画像。
——————
多业务协同的用户画像系统
目前各公司的用户画像系统相对封闭,用户信息的来源大部分来自本公司的业务,造成用户标签不准确,或存在系统性的误差。如何将各平台的用户数据和业务数据打通,从不同数据源描述用户标签,是一个值得探索的方向。
- 如何在不同系统间确定用户
- 不同系统间如何安全地共享数据
对于第一点,目前一般是通过账号来识别用户,要在不同平台间定位用户,即确定A平台的用户1就是B平台的用户2,可以通过打通账号体系,根据账号识别两平台上的相同用户。
一般做法是在A平台授权登录B平台,即可绑定两平台的账户。但此方案需要进行二次登录,对用户体验有所影响。或者通过手机号直接绑定,但可能某些账号没有绑定手机号,或者绑定了别人手机号,造成错误绑定。
两个平台打通后,平台上的用户数据如何安全地与其他平台数据融合分析,如何在不泄露本平台用户数据的前提下进行用户标注,目前还没有较好的方案,需要继续探究,有可能区块链技术可以给出新的解决问题的方案。
我们永远不知道用户在想什么,但用户的行为已经告诉我们,他们想要什么。