大数据
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的 5V 特点(IBM 提出):
- Volume(大量)
- Velocity(高速)
- Variety(多样)
- Value(低价值密度)
- Veracity(真实性)
训练集(Training Set)
- 训练集是用于训练机器学习模型的数据集。模型从训练集中学习,找到数据的模式和规律,从而能够进行预测或分类。
- 训练集中的每个样本通常包含输入数据和对应的标签(监督学习中),通过优化损失函数来调整模型参数,使模型能够最好地拟合训练集。
验证集(Validation Set)
- 验证集是用于调整模型超参数和避免过拟合的数据集。在训练过程中,验证集不参与模型参数的训练,而是用于评估模型在未见过的数据上的表现,以判断模型的泛化能力。
- 通过验证集,可以调整模型的超参数(如学习率、网络结构等),并选择最佳的模型版本。
测试集(Test Set)
- 测试集是用于评估模型最终性能的数据集。它通常在训练和验证过程结束后使用,用来衡量模型在真正的未知数据上的表现。
- 测试集上的结果通常代表模型在实际应用中的预测能力或分类效果。
数据集划分
数据划分的方法并没有明确的规定,不过可以参考 3 个原则:
对于小规模样本集(几万量级),常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。
对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。 1000w 的数据,同样留 1w 验证集和 1w 测试集。
超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。