基于提供的数据,我们可以从以下几个方面进行详细分析:
数据清洗与预处理:
计算相关指标:
可视化分析:
统计检验与建模:
import pandas as pd
import matplotlib.pyplot as plt
# 假设数据已读取到DataFrame df中
df = pd.read_csv('livestream_data.csv')
# 计算短视频引流占比
df['视频引流占比'] = df['视频引流人数'] / df['总引流人次']
# 直接比较引流占比与销售额的相关性
plt.scatter(df['视频引流占比'], df['销售额'])
plt.title("视频引流占比 vs 销售额")
plt.xlabel("视频引流占比")
plt.ylabel("销售额")
plt.show()
# 计算TOP3直播间总人数占比
top3 = df.nlargest(3, '总引流人次')
total_top3_people = top3['总引流人次'].sum()
total_people = df['总引流人次'].sum()
top3_ratio = total_top3_people / total_people * 100
print(f"TOP3直播间占比:{top3_ratio:.2f}%")
# 可视化不同类目的引流情况
category_sales = df.groupby('类目').agg({'视频引流人数': 'mean', '销售额': 'mean'}).reset_index()
plt.figure(figsize=(10, 6))
bar_width = 0.4
index = category_sales.index
plt.bar(index - bar_width/2, category_sales['视频引流人数'], width=bar_width, label='引流人数')
plt.bar(index + bar_width/2, category_sales['销售额'], width=bar_width, label='销售额')
plt.title("不同类目的引流与销售")
plt.xlabel('类目')
plt.ylabel('平均值')
plt.xticks(index, category_sales['类目'])
plt.legend()
plt.show()
# 可视化粉丝规模与引流效率的关系
df['粉丝规模区间'] = pd.cut(df['粉丝数'], bins=[0, 100000, 500000, float('inf')])
fan_scale_grouped = df.groupby('粉丝规模区间').agg({'视频引流占比': 'mean'}).reset_index()
plt.bar(fan_scale_grouped['粉丝规模区间'].astype(str), fan_scale_grouped['视频引流占比'])
plt.title("粉丝规模与引流效率关系")
plt.xlabel('粉丝规模区间')
plt.ylabel('平均引流占比')
plt.show()
以上分析数据来源:互联岛