跳到主要内容

简介与安装

简介

Pandas是Python中一个专门用来做数据分析的第三方库,擅长处理数值型数据和时间序列数据。Padans封装了许多有用的功能,可以很方便的调用,足以轻松应对日常工作中的表格数据处理。相较于Excel,Pandas可以实现更加复杂的处理逻辑,以及提供更好的数据处理效率。

常用功能:

  • 从xlsx、csv、sql等文件或工具中读取数据。
  • 合并多个文件或电子表格中的数据,将数据拆分为独立文件。
  • 数据清洗,如去重、处理缺失值、填充默认值、补全格式、处理异常值等。
  • 为数据建立索引
  • 支持大体量数据
  • 按一定业务逻辑插入计算后的列、删除列
  • 灵活方便的数据查询、筛选
  • 分组聚合数据,可独立指定分组后的各字段计算方式
  • 数据的转置,如行转列、列转行变更处理
  • 对时序数据进行分组采样,如按季、按月、按工作小时,也可以自定义周期,如工作日
  • 窗口计算,移动窗口统计、日期移动等
  • 灵活的可视化图表输出,支持所有的统计图形
  • 为数据表格增加展示样式,提高数据识别效率

安装

  • 建议安装Anaconda或miniconda,官网下载安装即可,安装完成后,附带Pandas及其它数据分析工具。
  • 也可以使用pip单独安装:
python -m pip install -U pandas

# 指定国内镜像源
python -m pip install -U pandas -i https://mirrors.aliyun.com/pypi/simple

# 如果没安装anaconda,建议再安装一个jupyter
python -m pip install jupyter -i https://mirrors.aliyun.com/pypi/simple

补充

命令行启动jupyter notebook,启动时会加载当前目录

jupyter notebook

# 启动时指定ip和port
jupyter notebook --ServerApp.ip="0.0.0.0" --ServerApp.port=8888