初步描述性统计——基于价格与销量初步分析淘宝牛仔裤市场,掌握直方图、KDE线、Q-Q图、皮尔森系数、贡献度
[💻交互式文档](https://www.dianshangji.cn/notebook/user5344/shuyouqi/taobaosearch/%E5%88%9D%E6%AD%A5%E6%8F%8F%E8%BF%B0%E6%80%A7%E7%BB%9F%E8%AE%A1_%E4%BB%B7%E6%A0%BC%E5%8C%BA%E9%97%B4_%E9%94%80%E9%87%8F%E5%88%86%E5%B8%83) [:speech balloon:向助教提问](https://my.juguandian.com/chatapp.html#business_businessanalytics)
## 研究背景与目标
本报告通过对淘宝平台上“牛仔裤”类商品的价格和销量数据进行深入分析,采用了直方图、Q-Q图、皮尔森相关系数等数据分析技术,旨在帮助电商从业者和创业者更好地理解市场动态,并优化产品定价、销售策略和市场推广策略。我们通过电商记插件采集了4800条商品数据,涵盖了商品的价格、月销量等多个重要字段。本报告将详细介绍数据的清洗、处理及分析过程,并通过统计分析方法揭示市场趋势。
这个交互式文档中包含四个步骤,用户可依次点击四个单元格左侧的“运行”按钮,获得分析结果(在单元格之后)和相应的图表(在整个文档末尾)。



为了使数据分析更加便捷,本文还介绍了如何借助交互式文档和AI助手进行分析,即使用户不熟悉编程技术,也可以在单元格中生成代码。用户只需要将自己的数据分析需求输入到AI助手中,AI助手即可生成直方图、Q-Q图、皮尔森相关系数等分析所需的代码,并帮助用户完成可视化和分析过程。


## 1\. 数据采集
数据通过电商记插件从淘宝平台采集,搜索关键词为“牛仔裤”,包括两种排序方式:
- **综合排序**:考虑商品的销量、评价、价格等因素。
- **销量排序**:按商品的月销量进行排序。
每条数据包括商品ID、标题、价格、月销量等多个字段。
## 2\. 数据清洗与预处理
在分析之前,数据清洗是确保数据质量和准确性的关键步骤。我们进行了以下简化的处理:
- **去除重复项**:确保每个商品ID在数据中唯一,删除重复记录。
- **处理缺失值**:对于价格和销量字段的缺失值,使用均值填补。
- **标准化字段格式**:将“月销量”中的非数值字符(如“万+”)转换为实际的销量数字。
## 3\. 数据分析与可视化
### 3\.1 价格分布:直方图
为了了解牛仔裤的市场定位,我们绘制了价格的直方图。直方图是一种用于展示数据分布的图形,能够帮助我们识别数据的集中趋势和分布形态。
**概念解析:**
- **直方图**:通过将数据分成多个区间(箱子)来显示数据的分布情况。每个箱子的高度表示该区间内数据的频次。通过观察直方图,我们可以了解数据的整体分布情况,如是否偏向某个区间。
- **核密度估计(KDE)**:是直方图的平滑曲线,帮助我们更直观地看出数据的分布趋势。
**代码与分析:**
在交互式文档中,用户只需输入需求,例如:“我想分析价格的分布情况并生成直方图”,AI助手会自动为用户生成代码,如下所示:
```
# 绘制价格分布图
plt.figure(figsize=(10, 6))
sns.histplot(df['价格'], kde=True, bins=30, color='blue')
plt.title('商品价格分布图')
plt.xlabel('价格')
plt.ylabel('频次')
plt.show()
```
通过直方图,我们发现大部分牛仔裤的价格集中在100元到300元之间,符合大多数消费者的购买能力。价格分布呈正态分布,少数高价商品的数量相对较少。
.png")
**AI助手**
在交互式文档中,AI助手可以帮助非技术用户轻松进行数据分析。用户只需输入自己的分析需求,点击“**生成**”按钮,AI助手会自动生成相应的代码,提供直方图、Q-Q图、皮尔森相关系数等可视化和统计分析的实现。
用户点击“**更新**”按钮,将生成的代码更新到文档的单元格中。

只要运行这个单元格,无需编程经验,用户即可获得深入的市场洞察和数据支持,帮助优化决策。

### 3\.2 月销量分布:Q-Q图
为了分析月销量数据的分布,我们使用了Q-Q图(Quantile-Quantile Plot)。Q-Q图可以帮助我们检查一个数据集是否符合某种理论分布(如正态分布)。
**概念解析:**
- **Q-Q图**:通过将数据的分位数与标准分布的分位数进行比较,如果数据的分布与正态分布相符,Q-Q图上的点将沿对角线排列。
- **正态分布**:是一种对称的钟形分布,许多自然现象和社会现象呈现这种分布。
**代码与分析:**
在交互式文档中,用户可以输入:“我希望分析销量的分布并生成Q-Q图”,AI助手会生成如下代码:
```
import scipy.stats as stats
# 绘制Q-Q图
plt.figure(figsize=(8, 8))
stats.probplot(df['月销量'], dist="norm", plot=plt)
plt.title('牛仔裤月销量的Q-Q图')
plt.show()
```
.png")
根据绘制出的Q-Q图(Quantile-Quantile Plot),我们可以进行如下解读:
### Q-Q图解读:
1. **X轴(Theoretical Quantiles)**:理论分位数,这是标准正态分布的分位数(即正态分布的预期分位点)。Q-Q图的X轴表示从标准正态分布中提取的理论数据点。
2. **Y轴(Ordered Values)**:实际数据的分位数,表示你提供的牛仔裤销量数据的实际分位点。这些点是从实际的销量数据中排序后得到的。
3. **图形特征**:
- **左下方的密集点**:这些点沿着对角线(理论分位数)分布,说明销量数据的低值区域与标准正态分布的低端比较接近。
- **右上方的离群点**:有大量的销量数据点远离对角线,尤其是在图形的右上方。很多点明显偏离了对角线,形成了一个曲线的趋势。这个趋势表明,牛仔裤的销量数据可能并不符合正态分布,尤其是在高销量(右侧)部分。
4. **结论**:
- 从图中可以看出,销量数据并不完全符合正态分布,特别是数据的尾部(销量较高的部分)。数据在低销量部分可能与正态分布较为接近,但随着销量的增加,数据出现了较大的偏差。
- 在实际数据中,通常这种现象表明“少数高销量的产品”对整体销量的贡献巨大,类似长尾分布。大多数牛仔裤的销量较低,但少数产品的销量非常高,这种“少数占大多数”的分布特征显然是显著的。
### Q-Q图的意义:
- Q-Q图本质上是通过将数据的分位数与标准正态分布的分位数进行比较,来检查数据是否符合特定的分布。
- 如果点大致沿对角线分布,说明数据可能符合该分布(如正态分布)。
- 如果点偏离对角线,说明数据与该分布的偏差较大。在你的图中,偏离对角线的情况较明显,特别是在右侧高销量的部分。
### 结论:
- 牛仔裤销量的数据呈现出**重尾**或**长尾分布**的趋势(少数高销量产品贡献了大部分销量)。这表明产品的销量分布并不均匀,大多数产品的销量相对较低,少数热门产品的销量非常高。
相对应的销量分布直方图如下所示。
.png")
### 3\.3 价格与销量的关系:皮尔森相关系数
为了探究价格与销量之间的关系,我们计算了**皮尔森相关系数**,这是一种衡量两个变量之间线性相关程度的统计量。
**概念解析:**
- **皮尔森相关系数**:其值范围在-1到1之间,表示两个变量之间的线性相关性:
- **1** 表示完全正相关:一个变量增加时,另一个变量也按比例增加。
- **-1** 表示完全负相关:一个变量增加时,另一个变量按比例减少。
- **0** 表示没有线性关系:两个变量之间没有可预测的关系。
**代码与分析:**
在交互式文档中,用户可以输入:“我想了解价格与销量之间的关系”,AI助手会自动生成代码来计算皮尔森相关系数:
```
# 计算皮尔森相关系数
correlation = np.corrcoef(df['价格'], df['月销量'])[0, 1]
print(f"价格与月销量的皮尔森相关系数: {correlation:.2f}")
```
计算结果显示,价格与销量的皮尔森相关系数为\*\*-0.05\*\*,说明两者之间不存在一定的正相关关系。这意味着牛仔裤的价格对销量没有大的影响。

### 3\.4 高销量产品的贡献
最后,我们分析了销量前10%的高销量产品,并计算它们对总销量的贡献度。结果表明,高销量产品贡献了约50%的总销量,这表明少数畅销商品对整个市场的销售影响巨大。
**代码与分析:**
用户只需要输入需求:“我希望了解高销量产品的贡献”,AI助手会生成以下代码:
```
# 找到销量前10%的产品并计算其贡献
high_sales_threshold = df['月销量'].quantile(0.9)
high_sales = df['月销量'][df['月销量'] >= high_sales_threshold]
high_sales_contribution = high_sales.sum() / df['月销量'].sum()
print(f"销量前10%的产品贡献了 {high_sales_contribution * 100:.2f}% 的总销量")
```
## 
## 4\. 结果与策略建议
### 4\.1 市场概况
- **价格分布**:大部分牛仔裤的价格集中在100元到300元之间,属于中低价位商品。
- **销量分布**:销量呈正态分布,少数高销量商品占据大部分市场份额。
- **价格与销量的关系**:价格与销量之间不存在一定的正相关关系,不是决定性因素。
### 4\.2 策略建议
- **优化高销量商品的曝光**:鉴于少数高销量商品贡献了大部分销售,电商应集中资源提升这些产品的曝光度。
- **中低价策略**:大多数消费者倾向于购买100元到300元价格区间的牛仔裤,因此,电商可以重点推广这一价位段的商品。
- **价格优化**:虽然价格与销量没有一定的正相关关系,但应谨慎调整价格,避免影响销量。
## 5\. 总结
本报告通过对淘宝牛仔裤市场数据的分析,揭示了该市场的主要特点,尤其是在价格、销量分布和价格与销量之间的关系方面。通过使用直方图、Q-Q图和皮尔森相关系数等统计分析方法,我们获得了对市场的深刻洞察,为电商从业者提供了优化市场策略的建议。
值得注意的是,本文介绍的交互式文档与AI助手功能使得即使是没有编程经验的用户,也能轻松完成数据分析任务。用户只需输入分析需求,AI助手便可自动生成所需的代码,帮助用户完成数据清洗、可视化及统计分析。
[💻交互式文档](https://www.dianshangji.cn/notebook/user5344/shuyouqi/taobaosearch/%E5%88%9D%E6%AD%A5%E6%8F%8F%E8%BF%B0%E6%80%A7%E7%BB%9F%E8%AE%A1_%E4%BB%B7%E6%A0%BC%E5%8C%BA%E9%97%B4_%E9%94%80%E9%87%8F%E5%88%86%E5%B8%83) [:speech balloon:向助教提问](https://my.juguandian.com/chatapp.html#business_businessanalytics)
**附件Excel文件**
[:file folder:附件Excel文件](https://www.dianshangji.cn/u/user5344/cfiles/browse/index?fid=3)包含“牛仔裤”关键词的综合、销量两表共9600条记录,可用作研究学习。