0%

机器学习概述

图灵测试

艾伦 · 图灵,人工智能之父。其最大的成就就是图灵测试。一个人和一个机器跟你去聊天,你不知道对方是人还是机器,如果经过聊天后,你分辨不出谁是人谁是机器则说明这个机器通过了图灵测试。

机器学习概念

首先要区分机器学习和人工智能。机器学习(machine learning,ML)是实现人工智能(artificial intelligence,AI)的一种技术手段。机器学习要更加具体一点。

机器学习的官方概念解释是:机器学习就是从 数据 中自动分析获得 规律(模型),并利用规律对未知数据进行 预测

从这个官方的概念中,我们注意这么几个关键词语:

  • 模型:

    • 特殊的对象。特殊之处在于该对象内部已经集成或者封装好了一种形式的还没有求出解的方程(算法)。
  • 模型的作用:

    • 通过算法模型对象可以实现预测、分类的功能。
      • 预测:可以基于模型对未知事物进行预测。预测温度,票房,股票走势
      • 分类:可以将一个未知归类的事物归属到一个已知的分类中。
  • 样本数据:

    • 比如我们有下面这样一个楼房售价的数据:

      1
      2
      3
      4
      楼层 面积 采光率 售价
      3 100 55% 120w
      6 120 88% 200w
      ……
    • 组成部分:

      • 特征数据:样本数据中的自变量
        • 楼层,面积,采光率
      • 目标(标签)数据:样本数据中的因变量
        • 售价
    • 样本数据和模型对象之间的关联:

      • 基于样本数据去求解模型对象中那个方程。
    • 模型的训练:将样本数据带入到模型对象中,让模型对象中那个还没有求出解的方程进行求解操作。

      • 一旦模型训练好了之后,则表示该模型对象中的方程有解了。那么这个方程的解就是模型实现分类或者预测的结果。
      • 模型实现的分类或者预测的结果实际上是通过方程或者算法计算出来的。求出来的解就是模型实现分类或者预测的结果。
    • 样本数据的作用

      • 将样本数据去训练模型(算法模型对象)
  • 模型的分类:

    • 有监督学习分类:
      • 如果模型对象在训练时使用的样本数据必须包含特征数据和目标数据的模型,就被归属到有监督学习分类中。
      • 线性回归,KNN。逻辑回归……
    • 无监督学习分类:
      • 使用的样本数据只需要包含特征数据即可,有无目标数据都行。
      • K-means 模型

样本数据(数据集)的载体

通常情况下数据都不会存储在数据库中,而是存储在文件中(比如 csv 文件)

数据库存储数据存在的问题:

  • 性能瓶颈:数据量级大的数据很难存储和进行高效的读写
  • 数据存储格式不符合机器学习要求的数据格式

样本数据的获取途径

  • kaggle:一个数据竞赛平台,同时也提供大量的样本数据
  • UCI 数据集:是一个常用的机器学习标准测试数据集,是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库
  • sklearn:基于 Python 语言的机器学习工具

机器学习的应用

  • 解放生产力:比如智能客服(不知疲倦 24 小时工作,还不用支付其工资)可以代替人工客服。
  • 解决专业问题:比如医疗方面的 ET 医疗,可以辅助医生进行相关症状的判断。数据显示,人类医生的平均准确率为 60%-70%,而当下算法的准确率已经达到 85%。
  • 提供社会便利:杭州的城市大脑,无人超市等等。

机器学习的价值体现

机器学习的价值体现在各个方面:医疗、航空、教育、物流、电商……

让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率。

例子:汽车销售在对新车进行推广的时候,一般都是将宣传手册投放给了所有的客户,从中进行目标客户的定位。但是如果使用机器学习对客户进行指定分类,然后将手册可以根据分类投放到不同类别的客户中,则这样就大大增加了商业机会。