机器学习入门研究（十一）-随机森林分析泰坦尼克生存的情况

发布日期：2021-05-10 17:16:34 浏览次数：24 分类：技术文章

本文共 4283 字，大约阅读时间需要 14 分钟。

在知道决策树缺点在于容易出现多度拟合，在解决这个问题的时候有一种方案就是随机森林。

随机森林

是一个集成学习方法。

集成学习方法

集成学习方法就是建立几个模型组合来解决单一预测问题。

工作原理：生成多个分类器/模型，各自独立的学习和作出预测。这些预测最后组合成组合预测，因此优于任何一个单分类的作出的预测。

随机森林

是一个包含多个决策树的分类器，并且输出的类别是由个别树输出的类别的众数而定（少数服从多数）。

例如训练了5棵树，有4棵树得出分类为True，有1棵树得出的分类为False，则该最后的分类就是True。

原理

为了生成不同的树，需要随机从训练集和特征中抽取。假设有N个样本，每个样本有M个特征，其中随机森林的两个随机指的是：

训练集随机

从N个样本集中随机抽取一个样本放到新的训练集合中，然后在放回到原训练集中，然后在从原样本集在抽取在抽取一个样本放到新的训练集中，直至循环抽取放回N次；

采用的是bootstrap抽样；

有可能会出现重复样本；

特征随机

随机选取m个特征来建立决策树，m<<M；

可以起到降维效果，由于特征维数比较少，可以提高计算速度。

为什么采用bootstrap抽样

（1）随机抽取

如果不随机抽取，那么每次得到的训练集都一样，那么最终训练出的树分类结果也一致。

（2）有放回的抽样

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，训练出来的每棵树出来都是有很大的差异的；而随机森林取决于多棵树的投票结果。

sklearn的API

sklearn.ensemble.RandomForestClassifier( n_estimators='warn',                 criterion="gini",                 max_depth=None,                 min_samples_split=2,                 min_samples_leaf=1,                 min_weight_fraction_leaf=0.,                 max_features="auto",                 max_leaf_nodes=None,                 min_impurity_decrease=0.,                 min_impurity_split=None,                 bootstrap=True,                 oob_score=False,                 n_jobs=None,                 random_state=None,                 verbose=0,                 warm_start=False,                 class_weight=None)

其中参数如下：

参数	含义
n_estimators	默认为10.森林中的树木的数量
criterion	决策树对应的criterion，默认为gini，也可以为entropy，可参见
max_depth	决策树对应的max_depth，树的最大深度，可参见
min_samples_split	决策树对应的min_samples_split，可参见
min_samples_leaf	决策树对应的min_samples_leaf，可参见
min_weight_fraction_leaf	决策树对应的min_weight_fraction_leaf，可参见
max_features	决策树的最大特征数量默认为None，样本数<50的时候，使用该值 auto：其值就是sqrt(特征值) sqrt：其值就是sqrt(特征值) log2：其值就是log2(特征值) None：其值就是最大特征值数
max_leaf_nodes	决策树对应的max_leaf_nodes，可参见
min_impurity_decrease	决策树对应的min_impurity_decrease，可参见
min_impurity_split	决策树对应的min_impurity_split，可参见
bootstrap	构建树的时候是否使用随机放回抽样。默认为True
oob_score	是否使用袋外样本来估计泛化精度。
n_jobs	并行运行的工作（作业）数量。如果值为-1，那么工作数量被设置为核的数量。
random_state	随机种子
verbose	控制决策树建立过程的冗余度。
warm_start	当被设置为True时，重新使用之前呼叫的解决方案，用来给全体拟合和添加更多的估计器，反之，仅仅只是为了拟合一个全新的森林
class_weight	决策树对应的class_weight，可参见

其中n_estimators、max_depth、min_samples_leaf、min_samples_spli为超参数，可以用之前提到的网格搜索进行获取到最佳参数。

实例分析

用随机森林来分析之前的的问题。直接看下代码，并且使用网格搜索和交叉验证来得到n_estimators、max_depth的最佳参数

def random_forest():    # （1）获取数据    titanic = pd.read_csv("tree_titanic.txt")    # "row.names","pclass","survived","name","age","embarked","home.dest","room","ticket","boat","sex"    print(titanic.head())    # （2）数据处理 - 需要进行挑选特征值和目标值    x = titanic[["pclass", "age", "sex"]]    y = titanic["survived"]    print("特征：\n", x.head())    # （2）数据处理 - 因为年龄数据有缺失，则需要进行填充：采用年龄的平均值进行补充    x["age"].fillna(x["age"].mean(), inplace=True)    # （2）数据处理 - 转换成字典，然后进行特征工程的字典抽取    x = x.to_dict(orient="records")    print("转换成字典之后的特征：\n", x)    # （3）划分训练集、测试集    x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)    # （4）特征工程-进行字典特征抽取    transfer = DictVectorizer()    x_train = transfer.fit_transform(x_train)    x_test = transfer.transform(x_test)    print("特征工程之后的训练集的特征：\n", x_train)    print("特征：\n", transfer.get_feature_names())    # （5）训练模型    classifier = RandomForestClassifier()    #网格搜索    param = {"max_depth": range(2, 50, 2),"n_estimators": [120, 200, 300, 500, 800, 1200]}    classifier = GridSearchCV(classifier, param_grid=param, cv=6)    classifier.fit(x_train, y_train)    y_predict = classifier.predict(x_test)    print("测试结果为：\n", y_predict == y_test)    print("最好预估器为：\n", classifier.best_estimator_)    # （6）模型评估    score = classifier.score(x_test, y_test)    print("准确度为： ", score)    return None

从代码中我看可以看到在训练模型的过程中增加了网格搜索来得到n_estimators、max_depth的最佳参数，采用相同的数据集我们看下运行结果如下：

最好预估器为： RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',                       max_depth=5, max_features='auto', max_leaf_nodes=None,                       min_impurity_decrease=0.0, min_impurity_split=None,                       min_samples_leaf=1, min_samples_split=2,                       min_weight_fraction_leaf=0.0, n_estimators=500,                       n_jobs=None, oob_score=False, random_state=None,                       verbose=0, warm_start=False)准确度为：  0.7872340425531915

相比较前面的决策树，准确度有所提高。

总结

优点

（1）极好的准确率

（2）能够有效的运行在数据集上，特别是具有高维特征的输入样本，不需要降维

（3）能够评估各个特征在分类问题上的重要性

继续努力，感觉越来越入门了，但是分类应该是最简单的，要继续加油！

转载地址：https://blog.csdn.net/nihaomabmt/article/details/103389783 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：机器学习入门研究（十二）-线性回归

下一篇：机器学习入门研究（十）-决策树分析泰坦尼克生存的情况

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

随机森林

集成学习方法

随机森林

原理

sklearn的API

实例分析

总结

发表评论

最新留言

关于作者

推荐文章