对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。
在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。
加载数据(Data Loading)
我们假设输入时一个特征矩阵或者csv文件。
首先,数据应该被载入内存中。
scikit-learn的实现使用了NumPy中的arrays,所以,我们要使用NumPy来载入csv文件。
以下是从UCI机器学习数据仓库中下载的数据。
1 import numpy as np
2 import urllib
3 # url with dataset
4 url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
5 # download the file
6 raw_data = urllib.urlopen(url)
7 # load the CSV file as a numpy matrix
8 dataset = np.loadtxt(raw_data, delimiter=",")
9 # separate the data from the target attributes
10 X = dataset[:,0:7]
11 y = dataset[:,8]
我们要使用该数据集作为例子,将特征矩阵作为X,目标变量作为y。
注意事项:
(1)可以用浏览器打开那个url,把数据文件保存在本地,然后直接用 np.loadtxt('data.txt', delemiter=",") 就可以加载数据了;
(2)X = dataset[:, 0:7]的意思是:把dataset中的所有行,所有0-7列的数据都保存在X中;
数据归一化(Data Normalization)
大多数机器学习算法中的梯度方法对于数据的缩放和尺度都是很敏感的,在开始跑算法之前,我们应该进行归一化或者标准化的过程,这使得特征数据缩放到0-1范围中。scikit-learn提供了归一化的方法,具体解释参考http://scikit-learn.org/stable/modules/preprocessing.html:
1 from sklearn import preprocessing
2 #scale the data attributes
3 scaled_X = preprocessing.scale(X)
4
5 # normalize the data attributes
6 normalized_X = preprocessing.normalize(X)
7
8 # standardize the data attributes
9 standardized_X = preprocessing.scale(X)
特征选择(Feature Selection)
在解决一个实际问题的过程中,选择合适的特征或者构建特征的能力特别重要。这成为特征选择或者特征工程。
特征选择时一个很需要创造力的过程,更多的依赖于直觉和专业知识,并且有很多现成的算法来进行特征的选择。
下面的树算法(Tree algorithms)计算特征的信息量:
代码:
1 from sklearn import metrics
2 from sklearn.ensemble import ExtraTreesClassifier
3 model = ExtraTreesClassifier()
4 model.fit(X, y)
5 # display the relative importance of each attribute
6 print(model.feature_importances_)
输出每个特征的重要程度:
[ 0.13784722 0.15383598 0.25451389 0.17476852 0.02847222 0.12314815 0.12741402]
算法的使用
scikit-learn实现了机器学习的大部分基础算法,让我们快速了解一下。
逻辑回归(官方文档)
大多数问题都可以归结为二元分类问题。这个算法的优点是可以给出数据所在类别的概率。
1 from sklearn import metrics
2 from sklearn.linear_model import LogisticRegression
3 model = LogisticRegression()
4 model.fit(X, y)
5 print('MODEL')
6 print(model)
7 # make predictions
8 expected = y
9 predicted = model.predict(X)
10 # summarize the fit of the model
11 print('RESULT')
12 print(metrics.classification_report(expected, predicted))
13 print('CONFUSION MATRIX')
14 print(metrics.confusion_matrix(expected, predicted))
结果:
1 MODEL
2 LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
3 intercept_scaling=1, max_iter=100, multi_class='ovr',
4 penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
5 verbose=0)
6 RESULT
7 precision recall f1-score support
8
9 0.0 1.00 1.00 1.00 4
10 1.0 1.00 1.00 1.00 6
11
12 avg / total 1.00 1.00 1.00 10
13
14 CONFUSION MATRIX
15 [[4 0]
16 [0 6]]