Python 数据分析(四):Pandas 进阶
发布日期:2021-06-30 11:42:30
浏览次数:3
分类:技术文章
本文共 3160 字,大约阅读时间需要 10 分钟。
目录
1. 概述
我们在上一篇文章中已经对 Pandas 作了一些基本介绍,本文我们进一步来学习 Pandas 的一些使用。
2. 缺失项
在现实中我们获取到的数据有时会存在缺失项问题,对于这样的数据,我们通常需要做一些基本处理,下面我们通过示例来看一下。
import numpy as npfrom pandas import Series, DataFrames = Series(['1', '2', np.nan, '3'])df = DataFrame([['1', '2'], ['3', np.nan], [np.nan, 4]])print(s)print(df)# 清除缺失项print(s.dropna())print(df.dropna())# 填充缺失项print(df.fillna('9'))print(df.fillna({ 0:'5', 1:'6'}))
3. 分组聚合
我们通过示例来了解一下分组、聚合操作。
from pandas import DataFramedf = DataFrame({ 'name':['张三', '李四', '王五', '赵六'], 'gender':['男', '女', '男', '女'], 'age':[22, 11, 22, 33]})# 根据 age 分组gp1 = df.groupby('age')# 根据 age、gender 分组gp2 = df.groupby(['age', 'gender'])# 根据 gender 进行分组,将 name 作为分组的键gp3 = df['gender'].groupby(df['name'])# 查看分组print(gp2.groups)# 分组数量print(gp2.count())# 选择分组print(gp2.get_group((22, '男')))print('---------')# 聚合gp4 = df.groupby(df['gender'])# 和print(gp4.sum())# 平均值print(gp4.mean())# 最大值print(gp4.max())# 最小值print(gp4.min())# 同时做多个聚合运算print(gp4.agg(['sum', 'mean']))
4. 数据合并
Pandas 具有高性能内存中连接操作,与 SQL 相似,它提供了 merge() 函数作为 DataFrame 对象之间连接操作的入口,我们通过示例来看一下。
from pandas import DataFrameimport pandas as pddf1 = DataFrame({ 'A':[2, 4, 5], 'B':[1, 2, 3], 'C':[2, 3, 6]})df2 = DataFrame({ 'D':[1, 3, 6], 'E':[2, 5, 7], 'F':[3, 6, 8]})df3 = DataFrame({ 'G':[2, 3, 6], 'H':[3, 5, 7], 'I':[4, 6, 8]})df4 = DataFrame({ 'G':[1, 3, 5], 'H':[4, 6, 8], 'I':[5, 7, 9]})# 左连接(以 d1 为基础)print(df1.join(df2, how='left'))# 右连接print(df1.join(df2, how='right'))# 外连接print(df1.join(df2, how='outer'))# 合并多个 DataFrameprint(df3.join([df1, df2]))# 指定列名进行合并print(pd.merge(df3, df4, on='G'))print(pd.merge(df3, df4, on=['G', 'H']))print(pd.merge(df3, df4, how='left'))print(pd.merge(df3, df4, how='right'))print(pd.merge(df3, df4, how='outer'))
5. 数据可视化
Pandas 的 Series 和 DataFrame 的绘图功能是包装了 matplotlib 库的 plot() 方法实现的,下面我们通过示例来看一下。
5.1 折线图
折线图代码实现如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.randn(10,2), columns=list('AB'))df.plot()plt.show()
看一下效果:
5.2 条形图
纵置条形图代码实现如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(5,3), columns=list('ABC'))df.plot.bar()plt.show()
看一下效果:
横置条形图代码实现如下所示:import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(5,3), columns=list('ABC'))df.plot.barh()plt.show()
看一下效果:
5.3 直方图
直方图代码实现如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame({ 'A':np.random.randn(800)+1, 'B':np.random.randn(800)}, columns=list('AB'))df.plot.hist(bins=10)plt.show()
看一下效果:
我们还可以将 A、B 分开显示,代码实现如下:import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame({ 'A':np.random.randn(800)+1, 'B':np.random.randn(800)}, columns=list('AB'))df.hist(bins=10)plt.show()
看一下效果:
5.4 散点图
散点图代码实现如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(20, 2), columns=list('AB'))df.plot.scatter(x='A', y='B')plt.show()
看一下效果:
5.5 饼图
饼图代码实现如下所示:
import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame([30, 20, 50], index=list('ABC'), columns=[''])df.plot.pie(subplots=True)plt.show()
看一下效果:
转载地址:https://ityard.blog.csdn.net/article/details/105010070 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
哈哈,博客排版真的漂亮呢~
[***.90.31.176]2024年04月26日 03时11分11秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
248.表的空间
2019-04-30
249.标的外键约束
2019-04-30
250.表结构(已用数据的最大长度)
2019-04-30
251.表结构差异
2019-04-30
252.表结构简
2019-04-30
253.表结构新
2019-04-30
254.查询存储过程的参数定义
2019-04-30
255.触发器中被更新了的列名
2019-04-30
256.创建表及描述信息
2019-04-30
257.存储过程找那个的varchar表里换成nvchar
2019-04-30
258.导出表结构为excel
2019-04-30
259.删除某字段的所有关系——存储过程
2019-04-30
260.删除数据库中的所有外键约束
2019-04-30
261.设置所有表的所有者
2019-04-30
262.生成XMl结构
2019-04-30
263.生成存储过程脚本
2019-04-30
264.生成记录插入SQL语句的触发器
2019-04-30
265.所有的数据库中的触发器及对应的表
2019-04-30
jquery easyui中文培训文档
2019-04-30
XML与Datatable互换的两个函数
2019-04-30