1. 什么是合成数据?
计算机认为制造数据,而不是从实际情况中测量、收集数据时,被称为合成数据。但是合成数据也是来源自实际情况中的测量、收集数据。数据是匿名的,并给予用户指定的参数创建,以便尽可能接近来自真实场景的数据的属性。创造和成数据的一种方法是使用现实世界中的数据,生成一个可以从真实数据中学习的模型,也可以创建一个近似于真实数据属性的数据集。
衡量合成数据的标准就是合成数据与实际数据之间的差距尽可能缩小。
2.合成数据的优点
大多数情况下,创建合成数据比手机真实世界的数据更高效、更经济。可以根据需求、规范创建,而不是在实际数据发生时等待收集数据。合成数据还可以补充现实世界中的数据,这样即使在真实数据集中没有好的示例,也可以对每个可以想象的变量进行测试,这使组织能够贾诩系统性能测试和新系统的培训。
3. 合成数据的缺点
创建高质量的合成数据具有挑战性,尤其在系统复杂的情况下,重要的是创建合成数据声场模型是优秀的,否则它生成的数据将受到影响。如果合成数据与实际数据集几乎不相同,那么它会影响基于数据进行决策的质量。即使合成数据确实很好,但仍是真实数据集特定属性的副本。模型寻找要复制的趋势,因此可能会忽略一些随机行为。
4. 合成数据是“适用于特定情况的任何生产数据,不能通过直接测量获得”。
5. 合成数据是提高深度学习系统训练和准确性的工具。
6.完全合成:此数据不包含任何原始数据。这意味着几乎不可能重新识别任何单个单元,并且所有变量仍然完全可用。
7.部分合成:只有敏感数据才会被合成数据替换。这需要严重依赖插补模型。这导致模型依赖性低,但确实意味着由于数据集内保留的真实值,某些可能是公开的。
8.构建合成数据两个一般策略:
从分布中绘制数字:此方法通过观察实际统计分布和再现伪数据来工作。这还包括创建生成模型。
基于代理的模型L此方法中实现合成数据,需要创建一个模型来解释观察的行为,然后使用相同的模型重现随机数据。他强调了解真个系统中代理之间交互的影响。
原文地址:https://www.cnblogs.com/noah0532/p/11494981.html