人工智能与机器学习常用术语及含义

算法术语

其实在 人工智能与机器学习与深度学习常用算法 这一部分内容中我们已经介绍了相关的理论和算法的术语。

首先我们要明白机器学习的基本的原理,就是把现实世界当中要研究的对象通过抽象其特征值将其数字化,然后让计算机通过这些已有的数据学习“经验”(学习算法模型参数),从而有了判断的能力,这时如果有了新的输入,计算机就能够根据这些经验来做出判断。

机器学习中常用两种算法模型:回归和分类。

1. 回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:

  • 加利福尼亚州一栋房产的价值是多少?
  • 用户点击此广告的概率是多少?

2. 分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:

  • 某个指定电子邮件是垃圾邮件还是非垃圾邮件?
  • 这是一张狗、猫还是仓鼠图片?

 

基础术语

为了方便理解,我们还是举例子来说明。

案例1: 西瓜分类

比如我们有四个西瓜,前三个是甜的,第四个不知道甜不甜。

西瓜就是我们的样本(sample)数据。其中三个甜西瓜是有标签样本(labeled sample)。 剩下一个不知道甜不甜的西瓜是无标签样本

我们使用有标签样本来训练模型。首先我们需要构建数据模型,需要对西瓜进行特征提取,我们挑选西瓜的属性 比如色泽表示为x1、根蒂表示为x2、敲声表示为x3,作为我们选取西瓜样本的特征。

那么西瓜这个样本经过特征抽取就可以表示成:

\(\{x_1, x_2, … x_N\}\)

我们称为特征列,也叫特征向量。特征提取的过程也叫做特征工程 (feature engineering)。

这三个西瓜的标签样本的数据组合在一起就构成了我们的数据集(dataset)。

我们在特征抽取的时候需要将特征按照一定的标准映射成一个数值,这是一个抽象提取数据指标的过程,很显然对于西瓜的三个特征都是离散的数据。我们根据西瓜的这些特征,预测西瓜是否成熟,预测的结果也是离散的数据,适合用分类模型来解决。如果我们预测西瓜的成熟度,比如0.9、0.7这样,预测的结果就是连续的值,适合用回归模型来解决。

案例2:温度与知了叫声关系

夏天天气越热,知了叫声越大。我们可以统计下夏天温度和每分钟知了叫声的数据如下:

我们可以看到随着温度增加知了叫声越密集,我们可以用一个直线来近似表达他们之间的关系。根据我们学过的数学知识,可以用一个线性方程来表示:

\(y = mx + b\)

其中:

  • y 指的是温度(以摄氏度表示),即我们试图预测的值。
  • m 指的是直线的斜率
  • x 指的是每分钟的鸣叫声次数,即输入特征的值。
  • b 指的是 y 轴截距

我们在机器学习中通常用另外一种方式来表示:

\(y’ = b + w_1x_1\)

如果\(x_0=1\),那么还可以表示成:

\(y’ = w_0x_0 + w_1x_1\)

其中:

  • y′ 指的是预测标签(理想输出值)。
  • b 指的是偏差(y 轴截距)。而在一些机器学习文档中,它称为 w0。
  • w1 指的是特征 x1 的权重。权重与上文中用 m 表示的“斜率”的概念相同。
  • x1 指的是特征(已知输入项)。

要根据新的每分钟的鸣叫声值 x1 推断(预测)温度 y′,只需将 x1 值代入此模型即可。

上面是一个特性的线性回归。如果我们有更多的特征,可以推广到多个特征的情形:

\(y’ = b + w_1x_1 + w_2x_2 + w_3x_3\)

向量

先看下面这个图,A(x,y) 表示一个坐标点A,B同样表示一个坐标点,从A指向B就表示一个向量,也叫做矢量。

矢量,因此具有以下两个特征:

  • 方向
  • 大小,又叫做矢量的模

从A点移动到B点,只需要用A的矢量加上AB的矢量就可以,这是矢量的合成法则。

凸形

关于凸形,是个简单的概念,就是想下面这两个凸型,就是图形上任意两个点的连线都在图形内部,这个图形就是凸形。或者说凸形凸形的每个边的延长线所在直线,使得图形完全在直线的一边,这样的图形也是凸形。

知识共享署名4.0国际许可协议,转载请保留出处; 部分内容来自网络,若有侵权请联系我:前端学堂 » 人工智能与机器学习常用术语及含义

赞 (1) 打赏

评论 0

如果对您有帮助,别忘了打赏一下宝宝哦!

支付宝扫一扫打赏

微信扫一扫打赏