1.2.3 非监督式机器学习

分类属于监督式机器学习,它事先训练一个模型,然后通过模型来达到预测的目的。它带有监督的过程,需要数据标签来辅助训练。聚类则属于非监督式机器学习,它通过一些相似性计算方法来反复进行相似计算。如图1-6所示,一副扑克牌如果以花色作为相似性计算的特征,那么就可以利用聚类方法把扑克牌分成4类。聚类不需要标注训练集,只需要根据数据的特征相似性就可以把数据分成不同的类别。

图1-6 对扑克牌进行聚类