- Python机器学习算法与实战
- 孙玉林 余本国
- 1514字
- 2025-02-18 02:36:36
前言
人工智能的浪潮正在席卷全球,机器学习是人工智能领域最能体现智能的一个分支。随着计算机性能的提升,机器学习在各个领域中大放光彩。尤其是自从2016年AlphaGo战胜人类围棋顶尖高手后,机器学习、深度学习“一夜爆红”,遍布互联网的各个角落,成为民众茶余饭后讨论最多的话题。不过很多人可能苦于不知如何下手,又或者考虑到算法中的数学知识,从而产生了放弃学习的念头。因此本书剔除了枯燥乏味的数学原理及其推导过程,用浅显易懂的代码去实现这些经典和主流的算法,并在实际的场景中对算法进行应用。
Python语言是全球最热的编程语言,其最大的优点就是自由、开源。随着Python的不断发展,其已经在机器学习和深度学习领域受到了众多学者和企业的关注。本书在简要介绍机器学习理论知识的同时,重点研究如何使用Python语言来建模分析实际场景中的数据,增强读者的动手能力,促进读者对理论知识的深刻理解。
本书共分为12章,前4章介绍了Python的使用与基于Python机器学习的预备知识,后8章则分模块介绍了统计分析、机器学习与深度学习的主流算法和经典应用。本书尽可能做到内容全面、循序渐进,案例经典实用,而且代码通过Jupyter Notebook来完成,清晰易懂,方便操作,即使没有Python基础知识的读者也能看懂本书的内容。
通过阅读第1章~第4章,你将会学到如下内容。
第1章:Python机器学习入门。先介绍机器学习相关知识,然后介绍如何安装Anaconda用于Python程序的运行,接着介绍Python相关的基础知识,快速入门Python编程,最后介绍NumPy、pandas与Matplotlib等第三方Python库的使用。
第2章:数据探索与可视化。将介绍如何使用Python对数据集的缺失值、异常值等进行预处理,以及如何使用丰富的可视化图像,展示数据之间的潜在关系,增强对数据的全面认识。
第3章:特征工程。利用Python结合实际数据集,介绍如何对数据进行特征变换、特征构建、特征选择、特征提取与降维,以及对类别不平衡数据进行数据平衡的方法。
第4章:模型选择和评估。该章主要介绍如何更好地训练数据,防止模型过拟合,以及针对不同类型的机器学习任务,如何评价模型的性能。
通过阅读第5章~第12章,你将会学到如下内容。
第5章:假设检验和回归分析。该章主要介绍统计分析的相关内容,如t检验、方差分析、多元回归分析、Ridge回归分析、LASSO回归分析以及Logistic回归分析等内容。
第6章:时间序列分析。该章将会介绍如何对时间序列这一类特殊的数据进行建模和预测,结合实际数据集,对比不同类型的预测算法的预测效果。
第7章:聚类算法与异常值检测。该章主要介绍机器学习中的数据聚类和异常值检测两种无监督学习任务内容。其中聚类算法将介绍K-均值聚类、K-中值聚类、层次聚类、密度聚类等经典的聚类算法;异常值检测算法将介绍LOF、COF、SOD等经典的无监督检测算法。
第8章:决策树和集成学习。该章主要介绍几种基于树的机器学习算法,如决策树、随机森林、AdaBoost、梯度提升树等模型在数据分类与回归中的应用。
第9章:贝叶斯算法和K-近邻算法。该章将介绍如何利用贝叶斯模型进行文本分类及如何构建贝叶斯网络,同时还会介绍K-近邻算法在数据分类和回归上的应用。
第10章:支持向量机和人工神经网络。该章主要介绍支持向量机与全连接神经网络在数据分类和回归上的应用。
第11章:关联规则与文本挖掘。该章主要结合具体的数据集,介绍如何利用Python进行关联规则分析及对文本数据的分析与挖掘。
第12章:深度学习入门。该章主要依托PyTorch深度学习框架,介绍相关的深度学习入门知识,如通过卷积神经网络进行图像分类、通过循环神经网络进行文本分类及通过自编码网络进行图像重建等实战案例。
本书在编写时尽可能地使用了目前最新的Python库,但是随着计算机技术的迅速发展,以及作者水平有限,编写时间仓促,书中难免存在疏漏,敬请读者不吝赐教,也欢迎加入QQ群一起交流,QQ群号:25844276。
余本国
2021年6月