数据挖掘

CNN应用于手写数字识别

Apr 14, 2026 · 2 分钟阅读 · CNN 深度学习手写数字识别计算机视觉 ·

1import numpy as np 2from keras.datasets import mnist 3from keras.utils import np_utils 4from keras.models import Sequential 5from keras.layers import Dense,Dropout,Convolution2D,MaxPooling2D,Flatten 6from keras.optimizers import Adam Using TensorFlow backend. 1# 载入数据 2(x_train,y_train),(x_test,y_test) = …

共享单车项目分析

Apr 14, 2026 · 10 分钟阅读 · 共享单车数据分析 pandas 可视化 ·

分享到:

共享单车项目分析作者：马建龙目录提出问题理解数据采集数据导入数据查看数据集信息数据清洗数据预处理数据分析数据可视化方案实施报告撰写 1、提出问题根据kaggle项目：共享单车的数据进行描述性统计分析，查看不同因素对共享单车使用数量的影响。 2、理解数据 2.1 采集数据从kaggle网站下载，https://www.kaggle.com/c/bike-sharing-demand 2.1 导入数据 1import numpy as np 2import pandas as pd 3import datetime 1%matplotlib inline …

股票数据分析

Apr 14, 2026 · 3 分钟阅读 · 股票数据分析 pandas 可视化 ·

分享到:

1import pandas as pd 2import matplotlib.pyplot as plt 1gupiao={'谷歌':'GOOG','亚马逊':'AMZN','Facebook':'FB', 2 '苹果':'AAPL','阿里巴巴':'BABA','腾讯':'0700.hk'} 1from pandas_datareader import data 阿里巴巴 1start_date = '2017-01-01' 2end_date = '2018-01-01' 3ali=data.get_data_yahoo(gupiao["阿里巴巴"],start_date,end_date) 1ali.head() High …

聚类算法分析

Apr 14, 2026 · 2 分钟阅读 · 聚类机器学习算法 ·

分享到:

1import pandas as pd 1from sklearn.datasets import make_blobs #足球数据 1 # 数据量列数类别标准差随机种子 2X, y = make_blobs(n_samples=150, n_features=4, centers=3) 1data = pd.DataFrame(data=X) 2data[4] =y 1data 0 1 2 3 4 0 -8.317893 0.698439 -10.349959 4.291286 0 1 -5.663915 7.060548 0.330762 4.576624 1 2 -9.276754 1.625037 …

矩阵特征向量与奇异值分解

Apr 14, 2026 · 2 分钟阅读 · 矩阵特征向量奇异值分解线性代数 ·

分享到:

特征向量-直方图 1from scipy.linalg import eig # 矩阵分解 2import numpy as np # 生成矩阵 3import matplotlib.pyplot as plt # 绘图 1A = [[1, 2],#生成一个2*2的矩阵 2 [2, 1]] 3A [[1, 2], [2, 1]] 1 2# 特征分解 3evals, evecs = eig(A) #求A的特征值（evals）和特征向量(evecs) [[ 0.70710678 -0.70710678] [ 0.70710678 0.70710678]] 1evecs = evecs[:, 0], evecs[:, 1] …

数据挖掘通讲

Apr 14, 2026 · 3 分钟阅读 · 数据挖掘机器学习算法 ·

分享到:

考试情况： 1.题目形式没有较大的变化，填空题目数量有增加。如果填空题较多一定注意考试时间。 2.论述题上，目前几次去考试。题目都是集中在聚类和集成算法上。 3.z-scale(特征缩放),scale。推荐使用这种方式进行解答from sklearn.preprocessing import scale 4.能够掌握具体的方法的使用再去考试。 5.多去看sklearn的文档数据挖掘流程：读取数据：数据预处理：缺失值处理()、异常值处理、特征缩放()、特征离散化、特征编码()、特征选择()、特征降维(***)。拆分数据：建模：分类、聚类模型评估：分类模型评估(交叉验证)、聚类模型评估模型优化过采样、 …

数据挖掘通讲：分类算法

Apr 14, 2026 · 9 分钟阅读 · 分类数据挖掘算法 ·

分享到:

考试情况： 1.题目形式没有较大的变化，填空题目数量有增加。如果填空题较多一定注意考试时间。 2.论述题上，目前几次去考试。题目都是集中在聚类和集成算法上。 3.z-scale(特征缩放),scale。推荐使用这种方式进行解答from sklearn.preprocessing import scale 4.能够掌握具体的方法的使用再去考试。 5.多去看sklearn的文档数据挖掘流程：读取数据：数据预处理：缺失值处理()、异常值处理、特征缩放()、特征离散化、特征编码()、特征选择()、特征降维(***)。拆分数据：分类：数据拆分聚类：不拆分数据建模：分类、聚类模型评估：分类模型评估(交叉验证)、聚类模型评估模 …

数据挖掘通讲：聚类算法

Apr 14, 2026 · 4 分钟阅读 · 聚类数据挖掘算法 ·

分享到:

考试情况： 1.大多时候以填空题的形式出现，但是也出现过要自己完整编写的情况。 2.读取数据、特征缩放、建模(kmeans、birch、SpectralClustering)、建模时会使用枚举法调参，建模时同时会进行模型评估(轮廓系数、兰德系数)、绘图(折线图、3D散点图) 3.正式建模之前一定确保数据没有缺失值、并且数据没有object类型 1注意点： 2 1.birch、SpectralClustering这两个算法非常耗资源可能考试环境中的资源不足，运行时会内存溢出，找监考老师。和她说不运行只截图是否可以。 1.读取数据 1import pandas as pd 2import numpy as np 1df = …

阿里巴巴股票分析

Apr 14, 2026 · 3 分钟阅读 · 股票阿里巴巴数据分析 pandas 可视化 ·

分享到:

大纲阿里巴巴 1import pandas as pd 2import matplotlib.pyplot as plt 1gupiao={'谷歌':'GOOG','亚马逊':'AMZN','Facebook':'FB', 2 '苹果':'AAPL','阿里巴巴':'BABA','腾讯':'0700.hk'} 1from pandas_datareader import data 1start_date = '2017-01-01' 2end_date = '2018-01-01' 3ali=data.get_data_yahoo(gupiao["阿里巴巴"],start_date,end_date) 1ali.head() …

CNN应用于手写数字识别

Apr 11, 2026 · 2 分钟阅读 · CNN 深度学习手写数字识别计算机视觉 ·

分享到:

1import numpy as np 2from keras.datasets import mnist 3from keras.utils import np_utils 4from keras.models import Sequential 5from keras.layers import Dense,Dropout,Convolution2D,MaxPooling2D,Flatten 6from keras.optimizers import Adam Using TensorFlow backend. 1# 载入数据 2(x_train,y_train),(x_test,y_test) = …