机器学习算法总览
机器学习
- 监督学习(Supervised Learning): 在有标号的数据上训练模型,模型的任务是预测标号。最近备受关注的一类算法: 自监督学习(Self-Supervised Learning),其数据的标号来自于数据本身。
- 半监督学习(Semi-Supervised Learning): 有一些已经标注好的数据,还有大量没有标注的数据。这里有两个任务,一个任务和监督学习一样去预测标号,但是尽量使用没有标注好的数据,另一个任务是预测没有标号的数据的标号。自训练就是不断地用已经有标号的数据训练一个模型,然后让模型去预测没有标号的数据,保留预测得到的比较置信的数据标号。
- 无监督学习(Unsupervised Learning): 所有的数据没有标号,模型的任务也不是预测一个标号,其中包括聚类算法(根据数据的相似性将数据聚成不同的类),density estimation(将数据分布估计出来,代表模型有GAN生成对抗模型)。
- 强化学习(Reinforcement Learning): 智能体不断地和环境进行交互,通过环境给予的信息和状态来采取动作,目的是最大化获得的奖励,更像人类的学习方法。
监督学习
组成部分: 模型、损失函数、优化目标、更新参数。
监督学习大致分为以下四类:
- 决策树: 使用树来做决策。
- 线性模型: 决策是输入的线性组合。
- 核方法: 用一个核函数来衡量两个样本的特征之间的相似度,使用不同的核函数使得数据的相似度不一样,达到非线性的效果。
- 神经网络: 使用神经网络学习特征表示。
机器学习算法总览
https://cosmoliu2002.github.io/posts/ml-overview/