电商平台每天都会产生大量的用户购买商品的消费行为数据。通过分析这些数据,我们可以了解电商的运营情况,用户的消费规律等信息。有了这些信息,我们可以完善平台建设,预测用户的消费行为,从而提高用户体验。
首先导入数据分析三剑客模块:
1 | import numpy as np |
数据类型处理
数据加载
数据以文本形式保存在 CDNOW_master.txt
中,其中每一列的字段名称及含义为:
- user_id:用户 ID
- order_dt:购买日期
- order_product:购买产品的数量
- order_amount:购买金额
1 | data = pd.read_csv('CDNOW_master.txt', header=None, sep='\s+', names=['user_id', 'order_dt', 'order_product', 'order_amount']) |
要注意,这里面的数据之间以不同数目的空格分隔,所以 sep 不能写死了,而是要写成正则。另外,因为没有表头,所以要设置 header 为 None。
生成的数据前五行为:
1 | user_id order_dt order_product order_amount |
观察数据
查看数据的数据类型,并查看数据中是否存储在缺失值:
1 | data.info() |
数据全都为数值(整数或浮点数),且没有缺失数据:
1 | <class 'pandas.core.frame.DataFrame'> |
将 order_dt 转换成时间类型:
1 | data['order_dt'] = pd.to_datetime(data['order_dt'], format='%Y%m%d') |
to_datetime 转换的时间显示格式会到毫秒,我们只需要精确到天即可,format 就是用来指定输出的格式的:
1 | user_id order_dt order_product order_amount |
查看 data 的信息:
1 | data.info() |
order_dt 列已经成了时间类型:
1 | <class 'pandas.core.frame.DataFrame'> |
查看数据的统计描述
- 计算所有用户购买商品的平均数量
- 计算所有用户购买商品的平均花费
只需要使用 describe 方法,即可查看这些常用的统计信息:
1 | data.describe() |
相应的统计信息为,平均数量为 2.41,平均花费为 35.89:
1 | user_id order_product order_amount |
在源数据中添加一列表示月份,可以通过 astype('datetime64[M]')
方法:
1 | data['order_month'] = data['order_dt'].values.astype('datetime64[M]') |
values 不一定需要,但是不加的话有可能会报错。
新的数据前五行为:
1 | user_id order_dt order_product order_amount order_month |
虽然月份的数据后面都跟了个 1 号,但不影响后续的计算。
按月数据分析
所有用户每月花费的总金额,绘制曲线图展示
首先拿到数据,只需要对月份进行分组,然后就可得到每月所有用户的总花费了:
1 | data.groupby('order_month')['order_amount'].sum() |
数据如下:
1 | order_month |
我们可以直接使用 Pandas 绘制线型图:
1 | data.groupby('order_month')['order_amount'].sum().plot() |
绘制出了图像:
我们也可以通过 Matplotlib 绘制图像:
1 | plt.figure(figsize=(8, 8)) |
图像为:
从图像中可以看出,1997 年 1 到 3 月是这个电商平台的巅峰时期。但是貌似经营不善,或者因为前期有很大补贴,后期补贴减少优惠力度降低,1997 年 3 月以后,用户的消费行为急剧下降,最后稳定在一个水平上下。
所有用户每月的产品购买量,计算方法跟花费总金额是相似的,只是要计算的是商品数量了而已:
1 | plt.figure(figsize=(8, 8)) |
图形和总金额的十分相似:
所有用户每月的消费总次数。每一条数据即为一次消费,只需查询每月有多少条数据即可:
1 | data.groupby('order_month')['user_id'].count() |
得到的数据为:
1 | order_month |
统计每月的消费人数。这个注意不能用消费时间统计,因为存在某个用户当天多次消费的情况。我们需要统计每个月有多少个独立的用户购买了商品:
1 | data.groupby('order_month')['user_id'].nunique() |
每月消费人数的数据为:
1 | order_month |
用户个体消费数据分析
所有用户消费总金额和消费总购买量的统计描述:
1 | data['order_amount'].sum() # 2500315.6300000004 消费总金额 |
各个用户消费金额和消费产品数量的散点图:
1 | user_total = data.groupby('user_id').sum() |
画出来的散点图为:
各个用户消费总金额的直方分布图(消费金额在 1000 之内的分布):
1 | plt.hist(data.groupby('user_id').sum().query('order_amount <= 1000')['order_amount'], bins=50) |
画出的直方图为:
各个用户消费的总数量的直方分布图(消费商品的数量在 100 次之内的分布):
1 | plt.hist(data.groupby('user_id').sum().query('order_product <= 100')['order_product'], bins=30) |
画出来的直方图为:
用户消费行为分析
用户消费时间统计
用户第一次消费的月份分布,和人数统计,绘制线形图。
用户第一次消费的时间是该用户消费时间的最小值,因为可能很多用户都会在同一个月份买东西,可以通过 unique 去重:
1 | data.groupby('user_id')['order_month'].min().unique() |
就得到了消费的月份:
1 | array(['1997-01-01T00:00:00.000000000', '1997-02-01T00:00:00.000000000', |
我们也可以统计每月第一次购买的人数:
1 | data.groupby('user_id')['order_month'].min().value_counts() |
每月第一次购买的人数数据为:
1 | 1997-02-01 8476 |
可以画出线形图:
1 | data.groupby('user_id')['order_month'].min().value_counts().plot() |
图像就是这样的:
用户最后一次消费的时间分布,和人数统计,并绘制线形图。
这个跟第一次的数据很相似了,只需要把时间的最小值换成最大值即可。
首先看最后一次消费的时间分布:
1 | data.groupby('user_id')['order_month'].max().unique() |
用户最后一次购买的时间分布就很分散了:
1 | array(['1997-01-01T00:00:00.000000000', '1998-05-01T00:00:00.000000000', |
类似地,我们也可以求出每月最后一次消费的用户数目:
1 | data.groupby('user_id')['order_month'].max().value_counts() |
每个月份,最后一次购买的用户数目为:
1 | 1997-02-01 4912 |
我们也可以画出线形图:
1 | data.groupby('user_id')['order_month'].max().value_counts().plot() |
线形图为:
新老客户的占比
我们认为,仅消费一次的用户为新用户,消费多次的用户为老用户
分析出每一个用户的第一个消费和最后一次消费的时间。
我们可以通过 agg(['func1','func2'])
方法对分组后的结果进行指定多种形式的聚合:
1 | first_last_dt = data.groupby('user_id')['order_dt'].agg(['min', 'max']) |
用户首次和最后一次消费的时间数据前五条为:
1 | min max |
分析出新老客户的消费比例。
如果该用户第一次消费的时间等于最后一次消费的时间,说明他只消费了一次,我们就认为他是新用户;如果用户第一次消费的时间不等于最后一次消费的时间,则说明他消费了多次,我们认为他是老用户。根据这个性质,我们就可以计算出新用户和老用户的数量,进而计算出新老客户的比例了:
1 | (first_last_dt['min'] == first_last_dt['max']).value_counts() |
根据刚刚的分析,结果中 True 的数目为新用户的数目,False 的数目为老用户的数目:
1 | True 12054 |
比例也就一目了然。
用户分层
分析得出每个用户的总购买量和总消费金额以及最近一次消费的时间的表格 rfm
RFM 模型设计:
- R 表示客户最近一次交易时间的间隔。
/ np.timedelta64(1, 'D')
:去除时间单位 days
- F 表示客户购买商品的总数量。F 值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。
- M 表示客户交易的金额。M 值越大,表示客户价值越高,反之则表示客户价值越低。
- 将 R,F,M 作用到 rfm 表中
总数量和总金额很容易计算到。因为数据比较简单,除了 user_id,只有商品数量和消费金额是数值型数据,所以得到的结果我们甚至不需要索引取列:
1 | rfm = data.groupby('user_id').sum() |
直接拿到每个用户购买商品总数目和交易总金额:
1 | order_product order_amount |
至于最近一次时间间隔,我们可以通过所有数据中的最有一次交易减去每个人的最后一次交易时间得到,而每个人的最后一次交易时间,可以通过他的所有交易时间的最大值获取:
1 | rfm['order_dt'] = (data['order_dt'].max() - data.groupby('user_id')['order_dt'].max()) / np.timedelta64(1, 'D') |
rmf 数据为:
1 | order_product order_amount order_dt |
将列索引规范为 RFM:
1 | rfm.columns = ['F', 'M', 'R'] |
规范的 RFM 数据前五行为:
1 | F M R |
根据价值分层,可将用户分为如下几类:
- 重要价值客户
- 重要保持客户
- 重要挽留客户
- 重要发展客户
- 一般价值客户
- 一般保持客户
- 一般挽留客户
- 一般发展客户
使用已有的分层模型即可通过 rfm_func 算法函数计算出客户价值:
1 | # rfm分层算法 |
只需要将我们 rfm 数据的每一层数据通过运算工具传递到 rmf 分层算法函数中,即可获得该层用户的价值,将价值整合到 rmf 数据中即可。在传递之前,还要给每一个数据减去该列的均值:
1 | rfm['label'] = rfm.apply(lambda x: x - x.mean(), axis=0).apply(rfm_func, axis=1) |
我们就得到了每个客户的价值:
1 | F M R label |
用户的生命周期
用户的生命周期就是将用户划分为活跃用户和其他用户。
统计每个用户在所有时间内的消费次数:
1 | data.pivot_table(index='user_id', values='order_dt', aggfunc='count').head() |
前五条数据为:
1 | order_dt |
统计每个用户每个月的消费次数:
1 | monthly_order = data.pivot_table(index='user_id', values='order_dt', aggfunc='count', columns='order_month', fill_value=0) |
得到的数据为:
1 | order_month 1997-01-01 00:00:00 1997-02-01 00:00:00 1997-03-01 00:00:00 1997-04-01 00:00:00 1997-05-01 00:00:00 1997-06-01 00:00:00 1997-07-01 00:00:00 1997-08-01 00:00:00 1997-09-01 00:00:00 1997-10-01 00:00:00 1997-11-01 00:00:00 1997-12-01 00:00:00 1998-01-01 00:00:00 1998-02-01 00:00:00 1998-03-01 00:00:00 1998-04-01 00:00:00 1998-05-01 00:00:00 1998-06-01 00:00:00 |
统计每个用户每个月是否消费,消费记录为 1 否则记录为 0。
知识点:DataFrame 的 apply 和 applymap 的区别
- applymap:返回 df
- 将函数做用于 DataFrame 中的所有元素(elements)
- apply:返回 Series
- apply() 将一个函数作用于 DataFrame 中的每个行或者列
1 | purchase_status = monthly_order.applymap(lambda x: int(bool(x))) |
用户当月是否消费的数据为:
1 | order_month 1997-01-01 00:00:00 1997-02-01 00:00:00 1997-03-01 00:00:00 1997-04-01 00:00:00 1997-05-01 00:00:00 1997-06-01 00:00:00 1997-07-01 00:00:00 1997-08-01 00:00:00 1997-09-01 00:00:00 1997-10-01 00:00:00 1997-11-01 00:00:00 1997-12-01 00:00:00 1998-01-01 00:00:00 1998-02-01 00:00:00 1998-03-01 00:00:00 1998-04-01 00:00:00 1998-05-01 00:00:00 1998-06-01 00:00:00 |
将用户按照每一个月份分成:
- unreg:观望用户(前两月没买,第三个月才第一次买,则用户前两个月为观望用户)
- unactive:首月购买后,后序月份没有购买则在没有购买的月份中该用户的为非活跃用户
- new:当前月就进行首次购买的用户在当前月为新用户
- active:连续月份购买的用户在这些月中为活跃用户
- return:购买之后间隔 n 月再次购买的第一个月份为该月份的回头客
我们可以使用用户的活跃度算法来计算该月份的用户状态:
1 | # 固定算法 |
将 purchase_status
中的原始数据 0 和 1 修改为 new,unactive……,返回新的 df 叫做 new_purchase_status
:
1 | new_purchase_status = purchase_status.apply(active_status, axis=1) |
我们就得到了用户的活跃状态数据:
1 | order_month 1997-01-01 00:00:00 1997-02-01 00:00:00 1997-03-01 00:00:00 1997-04-01 00:00:00 1997-05-01 00:00:00 1997-06-01 00:00:00 1997-07-01 00:00:00 1997-08-01 00:00:00 1997-09-01 00:00:00 1997-10-01 00:00:00 1997-11-01 00:00:00 1997-12-01 00:00:00 1998-01-01 00:00:00 1998-02-01 00:00:00 1998-03-01 00:00:00 1998-04-01 00:00:00 1998-05-01 00:00:00 1998-06-01 00:00:00 |
每月【不同活跃】用户的计数,转置进行最终结果的查看:
1 | new_purchase_status.apply(lambda x: x.value_counts(), axis=0).fillna(0).T |
最终的每月用户活跃计数:
1 | active new return unactive unreg |