机器学习最终进行预测出来的结果其实都是通过相关的算法计算出来的结果!所以说在机器学习中算法是核心,数据是计算的基础。
目前我们是在初学阶段,不会涉及复杂模型的算法设计,我们只需要:
- 学会分析问题,使用机器学习相关算法完成对应的需求
- 掌握算法的基本思想,学会对不同问题选择对应的算法去解决
- 学会利用框架和库解决问题
机器学习中的数据类型
机器学习中的数据类型分为:
- 离散型数据:
- 由记录不同类别个体的数目所得到的数据,又称为计数数据。所以这些数据全部都是整数,而且不能在细分,也不能进一步提高它们的精确度。比如,特定范围的汽车数量计数为多少就是多少,不可细分,不可提高计数的精确度。
- 示例:特定范围内的汽车数量、人口数量、班级数。
- 连续型数据:
- 变量可以在某一范围内取得的任意一数,即变量的取值是连续的。比如长度,时间,质量等数据。这些数据通常为非整数,含小数的数据。
- 示例:票房数、长度、重量。
- 注意:离散型是区间不可分的,而连续型是区间可分的。
数据类型的不同应用
图像识别,让机器区分图像中的到底是猫还是狗。
文章分类,让机器对不同文章进行分类。
票房预测,让机器预测下个月的票房。
结论:图像识别和文章分类对应的数据可以使用离散型数据(0:体育,1:金融)表示,而电影票房预测的值可能是 12.3 w,33.3 w 等连续性数据。
机器学习算法分类
分类和回归问题
- 分类算法基于的是
目标数据
为离散型
数据 - 回归算法基于的是
目标数据
为连续型
数据 - 结论:在社会中产生的数据必然是离散型或者是连续型的数据,那么企业针对数据所产生的需求也无非是分类问题或者回归问题。
分类问题应用(根据特性将数据“分门别类”):
- 在银行业务中,构建一个客户分类模型。按照客户风险大小进行分类;
- 在图像处理中,分类可以用来检测图像中是否有人脸出现,区分动物类别等;
- 在手写识别中,分类可以用于识别手写的文字;
- 文本分类,可以将新闻报道、网页、电子邮件、学术论文分类;
- ……
回归问题的应用
- 房价预测。根据某地历史房价数据,进行预测;
- 金融信息,每日股票价格,金融量化;
- ……
机器学习开发流程
- 数据采集
- 公司内部产生的数据
- 和其他公司合作获取的数据
- 购买的数据
- 分析数据所对应要解决需求或者问题是什么?根据目标数据推断问题属于回归还是分类!
- 数据的基本处理
- 数据清洗
- 合并
- 级联等
- 特征工程:对特征进行处理
- 特征抽取
- 特征预处理
- 降维等
- 选择合适的模型,然后对其进行训练
- 模型的评估
- 上线使用