我们拿到一家公司的销售记录,共有1500条销售数据,现在我们对这张销售记录进行可视化分析吧,这是数据分析师的必经之路哦。
内容提要:
- 条形图:各公司交易额
- 多图:各公司交易额、订单数
- 饼图:各公司交易额占比TOP10总额
- 散点图:各公司订单数-交易额分布
- 直方图:单笔订单交易额分布情况
那么我们开始吧!
首先使用pd.read_excel读取数据,定义该数据表名为df,数据结构如下,这组数据记录了某公司2014年的交易情况:
通过df.info()查看各字段总数,可以看到共有1500条数据。
#查看数据时发现,购货量有负数,将这些记录筛选出来,根据实际情况决定是否归为异常数据 df[df.quantity<0] #由于不了解实际情况,目前暂时认为购货量负数为正常值(可从公司名name统计,看看是否是某几个公司出现的情况,是否是退货)
len(df.name.unique()) #与之交易的公司数量,20个
#将df按公司名name分组,对各组交易额ext price求和得到各公司总交易额,计数得到各公司总订单数 #为了不将name作为索引,使用reset_index重置索引 #使用sort_values()对指定列排序 top10=df.groupby('name')['ext price'].agg(['sum','count']).reset_index().sort_values(by='sum',ascending=False)[:10] top10.rename(columns={'name':'Company','sum':'Sales','count':'Purchases'},inplace=True) top10
得到如下数据表,下面我们将基于此表进行数据的可视化,展现交易额top10的公司情况。
查看top10公司交易额情况
#使用ggplot风格的作图: plt.style.use('ggplot') #barh绘制水平条形图;bar绘制垂直直方图 """注意,条形图条数np.arange(10),要与top10.Sales数据数量一致,否则会报错-形状不匹(shape mismatch)""" plt.barh(np.arange(10),top10.Sales,height=0.6) #添加标题 plt.title('Top 10 Sales Company') plt.xlabel('Total Revenue') plt.ylabel('Company') #修改纵坐标、横坐标刻度 plt.yticks(np.arange(10),top10.Company) plt.xticks([0,20000,40000,60000,80000,100000,120000,140000], ['$0k','$20k','$40k','$60k','$80k','$100k','$120k','$140k']) plt.show()
输出如下
浅析
将多个图展现在同一画布中,便于进一步分析,以下仅做示例。
plt.style.use('ggplot') #设置画布大小 fig=plt.figure(figsize=(10,10)) #加上图像大标题 fig.suptitle('Sales Analysis',fontsize=16,fontweight='bold') #fig.add_subplot(x,y,z),表示将画布分为x行,y列,当前图像放在从左到右、从上到下的第z个位置 #添加第一个子图 ax1=fig.add_subplot(2,2,1) plt.barh(np.arange(10),top10.Sales,height=0.5,tick_label=top10.Company) plt.title('Revenue') #加入平均销售额线 plt.axvline()表示添加垂直线axis vertical line revenue_avg=top10.Sales.mean() plt.axvline(x=revenue_avg,color='b',linestyle='--',linewidth=3) #添加第二个子图 ax2=fig.add_subplot(222) plt.barh(np.arange(10),top10.Purchases,height=0.5) plt.title('Purchases') #设置不显示y轴刻度 plt.yticks(visible=False) #加入平均订单数线 Purchases_avg=top10.Purchases.mean() plt.axvline(x=Purchases_avg,color='b',linestyle='--',linewidth=3)
输出如下
top10公司销售额占比
#plt.pie()绘制饼图 labels代表每个扇区的标签, colors=['b','g'],设置扇区颜色 startangle代表起始位置角度 explode=(0.1,0,0,0,0,0,0,0,0,0)代表将第一个扇区拉出来0.1,作为突出显示 autopct='%1.1f%%',代表给出每个扇区的占比 ,精确到小数点后1位 plt.pie(top10.Sales,labels=top10.Company, colors=['r','y','b','g','c','r','y','b','g','c'], startangle=90, explode=(0.1,0,0,0,0,0,0,0,0,0), autopct='%1.1f%%') plt.axis('equal')
输出如下
top10公司中,各公司销售额与订单数的关系,展示各公司交易习惯-偏好大订单还是小额订单。
plt.style.use('ggplot') #scatter绘制散点图,s设置点大小 plt.scatter(x=top10.Purchases,y=top10.Sales,s=100) plt.show()
输出如下
对于原始数据df中,每笔订单的交易额(ext price),统计单笔订单交易额分布情况。
#hist绘制直方图,bins设置区间个数 plt.hist(df['ext price'],bins=20,rwidth=0.8)
输出如下
可以看到,单笔订单交易额在200~600美元的订单最多,可以从一方面反映客户的下单偏好-小额订单。
当然,更有价值的分析应该下沉到各公司的单笔订单金额去分析,这里暂不做展开。
以上可视化主要利用matplotlib,主要涉及到条形图barh bar,直方图hist,饼图pie,散点图scatter,多图fig.add_subplot。
作图代码千千万,要收集整理,用以致学。
希望对你有帮助~