特征空间/距离分布/正负样本
特征空间(Feature Space)
特征空间是指用于描述数据的属性(特征)集合构成的空间。在机器学习模型中,每个数据点(如一张图片、一段文本等)都可以通过一组特征来表示,这些特征定义了数据在特征空间中的位置。例如,如果我们用图片的颜色直方图作为特征,那么每张图片就可以在这个由颜色直方图维度构成的特征空间中找到一个对应的点。
距离分布(Distance Distribution)
距离分布是指数据点在特征空间中彼此之间距离的分布情况。在很多机器学习算法中,如k-最近邻(k-NN)和聚类算法,距离(如欧几里得距离或余弦相似度)用于衡量数据点之间的相似性或差异性。距离分布可以帮助我们理解数据的结构,比如哪些数据点彼此接近(相似),哪些则相距较远(不相似)。
正样本和负样本(Positive and Negative Samples)
在监督学习特别是二分类问题中,正样本和负样本分别指与目标类别匹配和不匹配的数据点。例如,在一个邮件分类任务中,目标是区分垃圾邮件和非垃圾邮件,那么垃圾邮件可以被视为正样本,而非垃圾邮件则被视为负样本。模型的目标通常是尽可能准确地区分这两类样本。正样本和负样本的概念对于评估模型性能(如计算精确率、召回率)非常重要。