简介与安装
简介
Pandas是Python中一个专门用来做数据分析的第三方库,擅长处理数值型数据和时间序列数据。Padans封装了许多有 用的功能,可以很方便的调用,足以轻松应对日常工作中的表格数据处理。相较于Excel,Pandas可以实现更加复杂的处理逻辑,以及提供更好的数据处理效率。
常用功能:
- 从xlsx、csv、sql等文件或工具中读取数据。
- 合并多个文件或电子表格中的数据,将数据拆分为独立文件。
- 数据清洗,如去重、处理缺失值、填充默认值、补全格式、处理异常值等。
- 为数据建立索引
- 支持大体量数据
- 按一定业务逻辑插入计算后的列、删除列
- 灵活方便的数据查询、筛选
- 分组聚合数据,可独立指定分组后的各字段计算方式
- 数据的转置,如行转列、列转行变更处理
- 对时序数据进行分组采样,如按季、按月、按工作小时,也可以自定义周期,如工作日
- 窗口计算,移动窗口统计、日期移动等
- 灵活的可视化图表输出,支持所有的统计图形
- 为数据表格增加展示样式,提高数据识别效率
安装
- 建议安装Anaconda或miniconda,官网下载安装即可,安装完成后,附带Pandas及其它数据分析工具。
- 也可以使用pip单独安装:
python -m pip install -U pandas
# 指定国内镜像源
python -m pip install -U pandas -i https://mirrors.aliyun.com/pypi/simple
# 如果没安装anaconda,建议再安装一个jupyter
python -m pip install jupyter -i https://mirrors.aliyun.com/pypi/simple