Windows 中,有一种软件的安装方式被称为“绿色软件”。也就是将安装好的文件直接拷贝到另一台电脑中运行,而无需额外的安装操作。类似地,CentOS 也可以通过这种方式安装软件。将软件在同样的系统中编译安装好,然后我们直接用编译好的安装包即可使用,而不需要繁复的安装操作。Java JDK 就可以这样安装。
逻辑斯蒂回归
我们知道回归模型是用来处理和预测连续型标签的算法。然而逻辑回归,是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法。
多项式回归和过拟合与欠拟合的处理
直接使用线性回归,拟合出来的函数图像为一条直线。但有些时候,真实数据并不是线性相关的,这时,我们就可以使用多项式回归的方式,来获得一条更合适的你和曲线。其原理是,函数可以通过泰勒展开转换成多项式的形式。
机器学习基础
机器学习最终进行预测出来的结果其实都是通过相关的算法计算出来的结果!所以说在机器学习中算法是核心,数据是计算的基础。
sklearn 的数据集
机器学习就是从数据中自动分析获得规律,并利用规律对未知数据进行预测。换句话说,我们的模型一定是要经过样本数据对其进行训练,才可以对未知数据进行预测的。
K-近邻算法和交叉验证
简单地说,K-近邻算法(k-Nearest Neighbor,KNN)采用测量不同特征值之间的距离方法进行分类。k 值的选取不同将会影响到我们对测试数据类别的划分,所以不能随意选取。
朴素贝叶斯算法
在许多分类算法应用中,特征和标签之间的关系并非是决定性的。算法得出的结论,永远不是100%确定的,更多的是判断出了一种“样本的标签更可能是某类的可能性”,而非一种“确定”。我们通过模型算法的某些规定,来强行让算法为我们返回一个固定的分类结果。但许多时候,我们也希望能够理解算法判断出结果的可能性概率。无论如何,我们都希望使用真正的概率来衡量可能性,因此就有了真正的概率算法:朴素贝叶斯。
线性回归和回归算法的评价指标
线性回归问题的目标值是连续性的值,而分类问题的目标值是离散型的值。线性回归的作用是找出特征和目标之间存在的某种趋势。在二维平面中,该种趋势可以用一条线段来表示。
机器学习概述
机器学习(machine learning,ML)是实现人工智能(artificial intelligence,AI)的一种技术手段。机器学习要更加具体一点。机器学习的官方概念解释是:机器学习就是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。
特征工程
样本数据中的特征有可能会存在缺失值,重复值,异常值等等,于是我们就需要对特征中的相关的噪点数据进行处理。处理数据的目的就是为了营造出一个更纯净的样本集,让模型基于这组数据可以有更好的预测能力。