Skip to content

大数据

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的 5V 特点(IBM 提出):

  • Volume(大量)
  • Velocity(高速)
  • Variety(多样)
  • Value(低价值密度)
  • Veracity(真实性)

训练集(Training Set)

  • 训练集是用于训练机器学习模型的数据集。模型从训练集中学习,找到数据的模式和规律,从而能够进行预测或分类。
  • 训练集中的每个样本通常包含输入数据和对应的标签(监督学习中),通过优化损失函数来调整模型参数,使模型能够最好地拟合训练集。

验证集(Validation Set)

  • 验证集是用于调整模型超参数和避免过拟合的数据集。在训练过程中,验证集不参与模型参数的训练,而是用于评估模型在未见过的数据上的表现,以判断模型的泛化能力。
  • 通过验证集,可以调整模型的超参数(如学习率、网络结构等),并选择最佳的模型版本。

测试集(Test Set)

  • 测试集是用于评估模型最终性能的数据集。它通常在训练和验证过程结束后使用,用来衡量模型在真正的未知数据上的表现。
  • 测试集上的结果通常代表模型在实际应用中的预测能力或分类效果。

数据集划分

数据划分的方法并没有明确的规定,不过可以参考 3 个原则:

  • 对于小规模样本集(几万量级),常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。

  • 对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。 1000w 的数据,同样留 1w 验证集和 1w 测试集。

  • 超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。

君子慎独