-
1import pandas as pd 1from sklearn.datasets import make_blobs #足球数据 1 # 数据量 列数 类别 标准差 随机种子 2X, y = make_blobs(n_samples=150, n_features=4, centers=3) 1data = pd.DataFrame(data=X) 2data[4] =y 1data 0 1 2 3 4 0 -8.317893 0.698439 -10.349959 4.291286 0 1 -5.663915 7.060548 0.330762 4.576624 1 2 -9.276754 1.625037 …
阅读更多 -
考试情况: 1.题目形式没有较大的变化,填空题目数量有增加。如果填空题较多一定注意考试时间。 2.论述题上,目前几次去考试。题目都是集中在聚类和集成算法上。 3.z-scale(特征缩放),scale。推荐使用这种方式进行解答from sklearn.preprocessing import scale 4.能够掌握具体的方法的使用再去考试。 5.多去看sklearn的文档 数据挖掘流程: 读取数据: 数据预处理:缺失值处理()、异常值处理、特征缩放()、特征离散化、特征编码()、特征选择()、特征降维(***)。 拆分数据: 建模:分类、聚类 模型评估: 分类模型评估(交叉验证)、聚类模型评估 模型优化 过采样、 …
阅读更多 -
考试情况: 1.题目形式没有较大的变化,填空题目数量有增加。如果填空题较多一定注意考试时间。 2.论述题上,目前几次去考试。题目都是集中在聚类和集成算法上。 3.z-scale(特征缩放),scale。推荐使用这种方式进行解答from sklearn.preprocessing import scale 4.能够掌握具体的方法的使用再去考试。 5.多去看sklearn的文档 数据挖掘流程: 读取数据: 数据预处理:缺失值处理()、异常值处理、特征缩放()、特征离散化、特征编码()、特征选择()、特征降维(***)。 拆分数据: 分类:数据拆分 聚类:不拆分数据 建模:分类、聚类 模型评估: 分类模型评估(交叉验证)、聚类模型评估 模 …
阅读更多 -
考试情况: 1.大多时候以填空题的形式出现,但是也出现过要自己完整编写的情况。 2.读取数据、特征缩放、建模(kmeans、birch、SpectralClustering)、建模时会使用枚举法调参,建模时同时会进行模型评估(轮廓系数、兰德系数)、绘 图(折线图、3D散点图) 3.正式建模之前一定确保数据没有缺失值、并且数据没有object类型 1注意点: 2 1.birch、SpectralClustering这两个算法非常耗资源可能考试环境中的资源不足,运行时会内存溢出,找监考老师。和她说不运行只截图是否可以。 1.读取数据 1import pandas as pd 2import numpy as np 1df = …
阅读更多 -
1import pandas as pd 1from sklearn.datasets import make_blobs #足球数据 1 # 数据量 列数 类别 标准差 随机种子 2X, y = make_blobs(n_samples=150, n_features=4, centers=3) 1data = pd.DataFrame(data=X) 2data[4] =y 1data 0 1 2 3 4 0 -8.317893 0.698439 -10.349959 4.291286 0 1 -5.663915 7.060548 0.330762 4.576624 1 2 -9.276754 1.625037 …
阅读更多 -
1import pandas as pd 2import numpy as np 3import warnings 4warnings.filterwarnings('ignore') 1.读取除表头外的前五行\读取数据前五行 1df = pd.read_csv('./titanic_trains.csv',encoding='utf8') 2df.head(5) 3df.shape (891, 12) 2.缺失值处理(没有要求就遵循80%原则) 2.1.查看缺失值情况,输出缺失值比例、列名、缺失值数量 1for x in df.columns: 2 zb = df[x].isnull().sum()/df.shape[0]*100 …
阅读更多 -
1import pandas as pd 2import numpy as np 3import warnings 4warnings.filterwarnings('ignore') 1.读取除表头外的前五行\读取数据前五行 1df = pd.read_csv('./titanic_trains.csv',encoding='utf8') 2df.head(5) 3df.shape (891, 12) 2.缺失值处理(没有要求就遵循80%原则) 2.1.查看缺失值情况,输出缺失值比例、列名、缺失值数量 1for x in df.columns: 2 zb = df[x].isnull().sum()/df.shape[0]*100 …
阅读更多 -
1注意点: 2 1.birch、SpectralClustering这两个算法非常耗资源可能考试环境中的资源不足,运行时会内存溢出,找监考老师。和她说不运行只截图是否可以。 1.读取数据 1import pandas as pd 2import numpy as np 1df = pd.read_csv('./data.csv',encoding='gbk') 2df.head() 客户编号 套餐品牌 信用等级 是否使用4GUSIM卡 是否4G资费 网龄 当月ARPU 当月MOU 当月DOU 视频流量 \ 0 10942 2 5 0 1 204 2201.08 2611 54557 22 1 13382 2 5 0 0 201 …
阅读更多