大数据

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的 5V 特点（IBM 提出）：

Volume（大量）
Velocity（高速）
Variety（多样）
Value（低价值密度）
Veracity（真实性）

训练集（Training Set）

训练集是用于训练机器学习模型的数据集。模型从训练集中学习，找到数据的模式和规律，从而能够进行预测或分类。
训练集中的每个样本通常包含输入数据和对应的标签（监督学习中），通过优化损失函数来调整模型参数，使模型能够最好地拟合训练集。

验证集（Validation Set）

验证集是用于调整模型超参数和避免过拟合的数据集。在训练过程中，验证集不参与模型参数的训练，而是用于评估模型在未见过的数据上的表现，以判断模型的泛化能力。
通过验证集，可以调整模型的超参数（如学习率、网络结构等），并选择最佳的模型版本。

测试集（Test Set）

测试集是用于评估模型最终性能的数据集。它通常在训练和验证过程结束后使用，用来衡量模型在真正的未知数据上的表现。
测试集上的结果通常代表模型在实际应用中的预测能力或分类效果。

数据集划分

数据划分的方法并没有明确的规定，不过可以参考 3 个原则：

对于小规模样本集（几万量级），常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。
对于大规模样本集（百万级以上），只要验证集和测试集的数量足够即可，例如有 100w 条数据，那么留 1w 验证集，1w 测试集即可。 1000w 的数据，同样留 1w 验证集和 1w 测试集。
超参数越少，或者超参数很容易调整，那么可以减少验证集的比例，更多的分配给训练集。