合成数据 | fufu酱のNoteBook

type

status

slug

summary

合成数据相关思考

GAN生成对抗神经网络

该架构训练两个神经网络相互竞争，从而从给定的训练数据集生成更真实的新数据。例如，您可以从现有图像数据库生成新图像，也可以从歌曲数据库生成原创音乐。GAN 之所以被称为对抗网络，是因为该架构训练两个不同的网络并使其相互对抗。一个网络通过获取输入数据样本并尽可能对其进行修改来生成新数据。另一个网络尝试预测生成的数据输出是否属于原始数据集。换句话说，预测网络决定生成的数据是假的还是真的。系统会生成更新、改进版本的假数据值，直到预测网络不再能够区分假数据值和原始数据值。

在机器学习（ML）中，数据增强通过使用现有数据创建数据集的已修改副本来人为地增加训练集规模。

可以使用生成模型进行数据增强，以创建具有现实世界数据所有属性的合成数据。例如，机器学习可以生成欺诈性交易数据，然后使用这些数据训练另一个欺诈检测机器学习系统。这些数据可以教导系统准确区分可疑交易和真实交易。

生成对抗式网络如何运行的

生成对抗网络系统包括两个深度神经网络 — 生成者网络和辨别者网络。这两个网络在对抗性游戏中训练模型，其中一个网络尝试生成新数据，另一个网络尝试预测输出是虚假数据还是真实数据。

从技术上讲，GAN 的工作原理如下。复杂的数学方程式构成整个计算过程的基础，以下是其简单的概述：

生成者神经网络分析训练集并识别数据属性

辨别者神经网络分析初始训练数据并独立区分属性

生成者通过向某些属性添加噪点（或随机变化）来修改某些数据属性

生成者将修改后的数据传递给辨别者

辨别者计算生成的输出属于原始数据集的概率

辨别者为生成者提供了一些指导，以减少下一个周期中的噪点向量随机化

生成者尝试最大限度地提高辨别者出错的可能性，而辨别者会尝试最大限度地降低出错的可能性。在训练迭代中，生成者和辨别者会不断演变并相互对抗，直到它们达到平衡状态。在平衡状态下，辨别者无法再识别合成数据。至此，培训过程结束。

深度卷积 GAN（DCGAN）认识到卷积神经网络（CNN）在图像处理中的强大功能，因此将 CNN 架构集成到 GAN 中。

在 DCGAN 中，生成者使用转置卷积来扩展数据分布，而辨别者使用卷积层对数据进行分类。DCGAN 还引入架构指南，以提高训练的稳定性。

变分自动编码器（VAE）是基于原始数据的表示生成新数据的算法。无监督算法学习原始数据的分布，然后使用编码器-解码器架构通过双重变换生成新数据。编码器将输入数据压缩成低维表示形式，解码器根据这种潜在表示形式重建新数据。该模型使用概率计算来实现顺畅的数据重建。

生成表格数据

TabNet

应用合成数据生成（SDG）方法来处理类别不平衡可以有助于提高机器学习（ML）分类器的性能

ADASYN自适应合成采样方法