读芯术Pandas GUI:如何轻松获取Pandas数据帧?


全文共2071字 , 预计学习时长6分钟
读芯术Pandas GUI:如何轻松获取Pandas数据帧?
本文插图
Pandas库目前已经成为用Python进行探索性数据分析的绝佳伴侣 。 它功能丰富 , 灵活易用 , 成为了当今许多数据科学家的首选 。 Pandas库的社区也很完善 , 这让它能够一直积极发展和改进 。
提到Pandas , 就不得不提到这两种工具:
· 可以用简短的代码执行基本EDA的工具 。 这些库本质上是在hood中运行Pandas的功能 , 如SweetViz和Pandas profiling库 。
· 基于GUI的Pandas替代品 , 如Bamboolib 。
最近 , 笔者发现了另一个基于GUI的Pandas替代 , 叫做PandasGUI 。 它具有绘制数据帧以及重新构建数据帧的功能 , 用户也可以进行任意自定义操作 。 本文将介绍它的各种功能以及在数据中使用的方法 。
PandasGUI , 顾名思义 , 是一个用于分析Pandas数据帧的图形用户界面 。 该项目仍在积极开发中 , 可能会发生颠覆性的变化 。
可以通过以下几种方式安装PandasGUI:
# from PyPipip install pandasguior# from Githubpip install git+https://github.com/adamerose/pandasgui.git
接下来 , 笔者将通过一个示例来介绍PandasGUI库的各种功能 。 PandasGUI已经装配了一些示例数据集 , 我们使用的是库中已有的Titanic数据集 。
Titanic是机器学习中相当有名的“Hello World”数据集 , 其任务是创建一个模型 , 预测哪些乘客会在泰坦尼克号沉船事故中幸存 。
import pandas as pdfrom pandasgui import showfrom pandasgui.datasets import titanic gui = show(titanic)
可以通过以下方式导入数据集:
titanic = pd.read_csv('https://github.com/adamerose/datasets/blob/master/titanic.csv')gui = show(titanic)
运行上述命令后 , PandasGUI中将打开一个单独的窗口 , 并显示上载的数据帧:
读芯术Pandas GUI:如何轻松获取Pandas数据帧?
本文插图
PandasGUI中的Titanic数据帧 | 作者原创图
对DataFrames和Series进行查看与排序
可以查看导入的全部数据帧 , 然后按升序或降序对其进行快速排序 。 请注意 , PandasGUI也可以处理多类数据帧 。
读芯术Pandas GUI:如何轻松获取Pandas数据帧?
本文插图
对DataFrames和Series进行查看和排序 | 作者原创图
用查询表达式筛选数据帧
探索了数据集之后 , 就可以根据一些查询表达式筛选数据集 。 Pandas最初用Dataframe.query执行筛选操作 。 它用字符串形式的表达式来筛选数据 , 对原始数据帧进行更改 , 并返回筛选后的数据帧 。
就本数据集而言 , 假设想要筛选出以下乘客:
· 男性
· 属于Pclass 3
· 在沉船事故中幸存
读芯术Pandas GUI:如何轻松获取Pandas数据帧?
本文插图
筛选数据帧 | 作者原创图
数据编辑和复制粘贴
此工具的另一个强大功能是可以直接编辑任何条目 , 甚至可以将选中的数据复制粘贴到另一个类似excel或记事本的文档中 。
读芯术Pandas GUI:如何轻松获取Pandas数据帧?
本文插图
数据编辑和复制粘贴 | 作者原创图
统计摘要
PandasGUI还提供整个数据集的精简统计摘要 。
读芯术Pandas GUI:如何轻松获取Pandas数据帧?
本文插图
统计摘要 | 作者原创图
对话绘图
数据可视化是任何数据分析过程中必不可少的 , PandasGUI提供了几个选项来快速创建一些酷炫的交互式图表 , 例如: