机器学习

CS229 概率论

May 24, 2026 · 7 分钟阅读 · CS229 机器学习 ·

本文是斯坦福大学CS229机器学习课程的基础材料，原始文件下载原文作者：Arian Maleki ， Tom Do 翻译：石振宇审核和修改制作：黄海广备注：请关注github的更新。 CS229 机器学习课程复习材料-概率论 [TOC] 概率论复习和参考概率论是对不确定性的研究。通过这门课，我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂，并且涉及到“分析”的一个分支：测度论。在这篇笔记中，我们提供了概率的一些基本处理方法，但是不会涉及到这些更复杂的细节。

概率的基本要素为了定义集合上的概率，我们需要一些基本元素，样本空间$\Omega $：随机实 …

CS229 线性代数

May 24, 2026 · 17 分钟阅读 · CS229 机器学习 ·

分享到:

本文是斯坦福大学CS 229机器学习课程的基础材料，原始文件下载原文作者：Zico Kolter，修改：Chuong Do， Tengyu Ma 翻译：黄海广备注：请关注github的更新，线性代数和概率论已经更新完毕。 CS229 机器学习课程复习材料-线性代数 [TOC] 线性代数复习和参考 1. 基础概念和符号线性代数提供了一种紧凑地表示和操作线性方程组的方法。例如，以下方程组： $$ 4x_1 − 5x_2 = −13 $$ $$ −2x_1 + 3x_2 = 9 $$ 这是两个方程和两个变量，正如你从高中代数中所知，你可以找到 $x_1$ 和 $x_2$ 的唯一解（除非方程以某种方式退化，例如，如果第二个方程只是 …

聚类算法分析

Apr 14, 2026 · 2 分钟阅读 · 聚类机器学习算法 ·

分享到:

1import pandas as pd 1from sklearn.datasets import make_blobs #足球数据 1 # 数据量列数类别标准差随机种子 2X, y = make_blobs(n_samples=150, n_features=4, centers=3) 1data = pd.DataFrame(data=X) 2data[4] =y 1data 0 1 2 3 4 0 -8.317893 0.698439 -10.349959 4.291286 0 1 -5.663915 7.060548 0.330762 4.576624 1 2 -9.276754 1.625037 …

数据挖掘通讲

Apr 14, 2026 · 3 分钟阅读 · 数据挖掘机器学习算法 ·

分享到:

考试情况： 1.题目形式没有较大的变化，填空题目数量有增加。如果填空题较多一定注意考试时间。 2.论述题上，目前几次去考试。题目都是集中在聚类和集成算法上。 3.z-scale(特征缩放),scale。推荐使用这种方式进行解答from sklearn.preprocessing import scale 4.能够掌握具体的方法的使用再去考试。 5.多去看sklearn的文档数据挖掘流程：读取数据：数据预处理：缺失值处理()、异常值处理、特征缩放()、特征离散化、特征编码()、特征选择()、特征降维(***)。拆分数据：建模：分类、聚类模型评估：分类模型评估(交叉验证)、聚类模型评估模型优化过采样、 …

聚类算法分析

Apr 11, 2026 · 2 分钟阅读 · 聚类机器学习算法 ·

分享到:

1import pandas as pd 1from sklearn.datasets import make_blobs #足球数据 1 # 数据量列数类别标准差随机种子 2X, y = make_blobs(n_samples=150, n_features=4, centers=3) 1data = pd.DataFrame(data=X) 2data[4] =y 1data 0 1 2 3 4 0 -8.317893 0.698439 -10.349959 4.291286 0 1 -5.663915 7.060548 0.330762 4.576624 1 2 -9.276754 1.625037 …

数据挖掘通讲

Apr 11, 2026 · 3 分钟阅读 · 数据挖掘机器学习算法 ·

分享到:

1import pandas as pd 2import numpy as np 3import warnings 4warnings.filterwarnings('ignore') 1.读取除表头外的前五行\读取数据前五行 1df = pd.read_csv('./titanic_trains.csv',encoding='utf8') 2df.head(5) 3df.shape (891, 12) 2.缺失值处理(没有要求就遵循80%原则) 2.1.查看缺失值情况，输出缺失值比例、列名、缺失值数量 1for x in df.columns: 2 zb = df[x].isnull().sum()/df.shape[0]*100 …