机器学习主观题 - 云水禅心居

1.深度学习与传统机器学习之间的区别

深度学习与传统机器学习之间的主要区别体现在以下几个方面：
1. 模型复杂度：传统机器学习算法通常采用传统的统计学习方法，不涉及多层次的神经网络。而深度学习算法往往需要很多层次的神经元进行训练，模型复杂度更高。这种多层次的神经网络结构使得深度学习能够从原始数据中逐层抽象特征，实现更高级别的特征提取和表示。
2. 训练时间和计算资源：传统机器学习的算法一般训练速度较快，而深度学习需要非常大的数据集和较长的训练周期，并需要大量的计算资源进行训练。这是因为深度学习模型需要处理大量参数，通过多次迭代来优化模型性能。
3. 应用场景：虽然机器学习可以应用于各个领域中，包括语音识别、图像标注、生物信息学等，但深度学习在计算机视觉、自然语言处理、语音识别等领域中表现出了更好的效果。这得益于深度学习对复杂数据的处理能力，能够自动提取特征并进行高层次的抽象表示。

2.深度卷积神经网络模型构建分为几个阶段，各阶段所涉及的技术及其目的是什么

深度卷积神经网络（DCNN）模型的构建主要可以分为以下几个阶段，每个阶段都涉及特定的技术和目的：
1. 数据准备阶段：
技术：数据收集、数据清洗、数据增强、数据归一化或标准化等。
目的：确保输入到模型中的数据具有代表性、多样性，并减少噪声和冗余信息。数据增强有助于提升模型的泛化能力，而归一化或标准化则有助于模型更快地收敛。
2. 模型设计阶段：
技术：选择适当的网络结构（如VGG、ResNet、MobileNet等），确定网络深度、宽度、卷积核大小、激活函数类型、优化算法等。
目的：设计出一个既能准确捕捉数据特征，又能满足特定性能要求（如计算效率、存储空间等）的模型。
3. 模型训练阶段：
技术：前向传播、反向传播、梯度下降（或其变种如Adam、RMSprop等）、批量处理、学习率调整、正则化（如L1、L2正则化或Dropout等）。
目的：通过优化算法调整模型参数，以最小化损失函数，使得模型在训练数据上的性能达到最优。
4. 模型评估阶段：
技术：使用验证集或测试集评估模型的性能，常见的评估指标包括准确率、召回率、F1分数、混淆矩阵等。
目的：了解模型在未见过的数据上的表现，确保模型不仅在训练数据上表现良好，还能泛化到新的数据上。

3.人工智能、机器学习、深度学习三者之间的关系

人工智能是一个广泛的概念，旨在研发能够模拟、延伸和扩展人的智能的理论、方法、技术及应用系统。这是一个多元化的学科领域，包含众多分支和方法，没有严格的限定，因此常被看作是一个“大杂烩”式的学科。
机器学习是人工智能的一个子集，特别是监督学习，具有更加明确的指代。机器学习是关于计算机基于数据构建概率统计模型，并运用模型对数据进行预测与分析的一门学科。它的目标是让计算机通过数据学习，提高系统的性能。
深度学习则是机器学习的一个热门分支，尤其是基于多层的非线性神经网络的机器学习方法。深度学习直接从原始数据学习，自动抽取特征并逐层抽象，以实现回归、分类或排序等目的。

4.线性回归与逻辑回归之间的区别

1. 定义与性质：线性回归是一种利用回归方程（函数）对自变量（特征值）和因变量（目标值）之间关系进行建模的分析方式。它主要用于预测和解释变量之间的关系，并找出最佳拟合数据的线性模型。而逻辑回归则是一种二分类算法，通过判断数据属于某一类的概率值大小来决定该数据判为哪一类。逻辑回归特别适用于解决二分类问题，虽然也可通过转化来处理多分类问题，但其核心仍是处理二元关系。
2. 目标变量与模型输出：线性回归的目标变量是连续的，可以是任何实数，因此模型输出也是连续的数值。而逻辑回归的目标变量是离散的，通常用于表示二元分类的结果（如0和1），因此模型输出是一个概率值，通常介于0和1之间，代表样本属于某个类别的可能性。
3. 处理非线性关系的能力：线性回归主要处理的是自变量和因变量之间的线性关系。虽然可以通过引入多项式项等方式来处理一定程度的非线性关系，但其核心仍然是线性模型。而逻辑回归则可以通过引入核函数等方式来处理非线性关系，使其在处理复杂数据时具有更强的灵活性。

5．KNN与K-Means算法之间的区别

原理：
KNN：KNN是一个有监督学习的分类算法。其工作原理是，存在一个样本数据集合，即训练样本集，每个数据都存在标签。当输入一个新的没有标签的数据时，KNN算法会提取训练样本集中与该新数据最相似的K个样本的标签，并基于这K个标签来预测新数据的类别（多数投票原则）。
K-Means：K-Means是一个无监督学习的聚类算法。它的工作原理是将数据集划分为K个簇，使得每个数据点都属于最近的簇，并且每个簇的中心是所有属于该簇的数据点的平均值。这是一个迭代优化的过程，通过不断更新簇的中心点来达到收敛。
应用场景与目标：
KNN：主要用于分类问题，通过已知类别的训练样本来预测新数据的类别。它适用于样本量足够大的情况，并且在这种情况下通常具有较高的准确度。
K-Means：主要用于聚类问题，即在没有先验知识的情况下，将数据集划分为K个不同的簇或组。每个簇内部的数据点相似度较高，而不同簇之间的数据点相似度较低。
K的含义：
在KNN中，K表示距离新数据点最近的邻居的数量，这些邻居的类别用于预测新数据的类别。
在K-Means中，K表示最终要形成的簇的数量。
优缺点：
KNN：优点包括理论成熟、简单易懂、适用于大样本量的情况。缺点可能包括计算量大（特别是当数据集很大时）、对K值的选择敏感以及可能不适用于高维数据。
K-Means：优点包括易于实现、计算效率高、适用于大规模数据集。缺点可能包括对初始簇中心的选择敏感（可能导致不同的聚类结果）、不适合处理非凸形状的簇或大小差异很大的簇。