Python 数据科学
搭建工作环境
Jupyter Notebook 使用指南
一个轻量级、适合数据分析的编辑器
数据处理
介绍 Python 数据处理工具。主要由 NumPy 、Pandas 、Matplotlib 以及它们的扩展组成。
NumPy 系列
01-整体介绍与创建数组
介绍 NumPy 的核心对象数组以及如何创建它
02-数组变形与组合
介绍高维数组变形与组合的各种方法
03-数组索引与切片
介绍高维数组提供的各种索引与切片的方法
04-通用函数与广播规则
通用函数与广播规则是 NumPy 数组运算的核心
05-数组统计与排序
介绍关于统计与排序相关的数组操作函数
06-高级数据类型
介绍 NumPy 中的高级结构化数组等剩余内容
Pandas 系列
1-基本数据类型
介绍 Pandas 的用途以及其中最常用的数据类型
3-深入认识索引
深入认识 Pandas 中的索引表示与层级索引
4-索引与缺失值
介绍索引对齐现象,以及 Pandas 中的缺失值及其处理方式
机器学习
线性回归
线性回归是统计学的基本内容,也是最容易理解的机器学习模型
逻辑回归
逻辑回归是处理简单分类问题的经典算法
朴素贝叶斯分类
朴素贝叶斯是一种基于概率统计的分类器
支持向量机
支持向量机是一种基于间隔的强大分类算法
决策树
决策树是一种简单但有效的分类算法
参数选择与模型验证
介绍常用的模型验证指标与数据选择方法
聚类算法
聚类可以主动将数据分类。KMeans 和 DBSCAN 是常见的聚类算法
系列包含的代码已作为 notebook 的形式发布到 Github 中。