-
本文是斯坦福大学CS229机器学习课程的基础材料,原始文件下载 原文作者:Arian Maleki , Tom Do 翻译:石振宇 审核和修改制作:黄海广 备注:请关注github的更新。 CS229 机器学习课程复习材料-概率论 [TOC] 概率论复习和参考 概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测度论。在这篇笔记中,我们提供了概率的一些基本处理方法,但是不会涉及到这些更复杂的细节。
- 概率的基本要素 为了定义集合上的概率,我们需要一些基本元素, 样本空间$\Omega $:随机实 …
阅读更多 -
本文是斯坦福大学CS 229机器学习课程的基础材料,原始文件下载 原文作者:Zico Kolter,修改:Chuong Do, Tengyu Ma 翻译:黄海广 备注:请关注github的更新,线性代数和概率论已经更新完毕。 CS229 机器学习课程复习材料-线性代数 [TOC] 线性代数复习和参考 1. 基础概念和符号 线性代数提供了一种紧凑地表示和操作线性方程组的方法。 例如,以下方程组: $$ 4x_1 − 5x_2 = −13 $$ $$ −2x_1 + 3x_2 = 9 $$ 这是两个方程和两个变量,正如你从高中代数中所知,你可以找到 $x_1$ 和 $x_2$ 的唯一解(除非方程以某种方式退化,例如,如果第二个方程只是 …
阅读更多 -
1import pandas as pd 1from sklearn.datasets import make_blobs #足球数据 1 # 数据量 列数 类别 标准差 随机种子 2X, y = make_blobs(n_samples=150, n_features=4, centers=3) 1data = pd.DataFrame(data=X) 2data[4] =y 1data 0 1 2 3 4 0 -8.317893 0.698439 -10.349959 4.291286 0 1 -5.663915 7.060548 0.330762 4.576624 1 2 -9.276754 1.625037 …
阅读更多 -
考试情况: 1.题目形式没有较大的变化,填空题目数量有增加。如果填空题较多一定注意考试时间。 2.论述题上,目前几次去考试。题目都是集中在聚类和集成算法上。 3.z-scale(特征缩放),scale。推荐使用这种方式进行解答from sklearn.preprocessing import scale 4.能够掌握具体的方法的使用再去考试。 5.多去看sklearn的文档 数据挖掘流程: 读取数据: 数据预处理:缺失值处理()、异常值处理、特征缩放()、特征离散化、特征编码()、特征选择()、特征降维(***)。 拆分数据: 建模:分类、聚类 模型评估: 分类模型评估(交叉验证)、聚类模型评估 模型优化 过采样、 …
阅读更多 -
1import pandas as pd 1from sklearn.datasets import make_blobs #足球数据 1 # 数据量 列数 类别 标准差 随机种子 2X, y = make_blobs(n_samples=150, n_features=4, centers=3) 1data = pd.DataFrame(data=X) 2data[4] =y 1data 0 1 2 3 4 0 -8.317893 0.698439 -10.349959 4.291286 0 1 -5.663915 7.060548 0.330762 4.576624 1 2 -9.276754 1.625037 …
阅读更多 -
1import pandas as pd 2import numpy as np 3import warnings 4warnings.filterwarnings('ignore') 1.读取除表头外的前五行\读取数据前五行 1df = pd.read_csv('./titanic_trains.csv',encoding='utf8') 2df.head(5) 3df.shape (891, 12) 2.缺失值处理(没有要求就遵循80%原则) 2.1.查看缺失值情况,输出缺失值比例、列名、缺失值数量 1for x in df.columns: 2 zb = df[x].isnull().sum()/df.shape[0]*100 …
阅读更多