数据产品验证
数据验证的方法论
任何模型都会存在一定程度的误差,通常,误差在5%以内被认为是可接受的误差,而数据验证工作,就是确保数据误差在5%以内。大地量子进行数据验证主要有以下三类方法:
多源数据验证
世界探索者
模型验证
多源数据验证
大地量子会通过使用新闻数据、公开统计数据或用户提供的数据等外源参考数据来对数据产品精确性进行初步验证。用于数据验证的数据源,以下是几个例子
- 「中国地质环境公报」
- 「USDA Cropland Data Layer」
- 「USGS National Hydrography Dataset」
- 「World Bank DataBank」
大地量子日常使用数百类来源各异、风格迥异的数据源,不再一一列出。
除公开数据集外,大地量子还大量使用用户提供的实地验证数据进行验证,如带有GPS信息的作物灾损数据、水质参数实测数据等类型各异的数据。
世界探索者
大地量子的世界探索计划是长期进行的、常态化实地数据采集工作的计划。大地量子的世界探索者使用无人机、带方向定位的手机等器件,长期进行世界探索和实地数据标注工作。
文章 | URL |
---|---|
这里有一份工作邀请你去探索世界,上车吗? | https://blog.terraqt.com/zhe-li-you-yi-fen-gong-zuo-yao-qing-ni-qu-tan-suo-shi-jie-shang-che-ma/ |
11天,19市,9385km,大地量子世界探索者启程! | https://blog.terraqt.com/11tian-19shi-9385km-da-di-liang-zi-shi-jie-tan-suo-zhe-qi-cheng/ |
Vlog |这次来点不一样的,“世界探索者”工作内容大起底 | https://blog.terraqt.com/vlog-zhe-ci-lai-dian-bu-yi-yang-de-shi-jie-tan-suo-zhe-gong-zuo-nei-rong-da-qi-di/ |
内蒙高原游牧民族,热爱越野和探险,99年的他为何选择成为大地量子“世界探索者”? | https://blog.terraqt.com/nei-meng-gao-yuan-you-mu-min-zu-re-ai-yue-ye-he-tan-xian-99nian-de-ta-wei-he-xuan-ze-cheng-wei-da-di-liang-zi-shi-jie-tan-suo-zhe-2/ |
世界探索计划每个月需要采集大量的数据,这些数据通常需要被进一步的处理为真实的样本数据 (Ground Truth),用于模型训练与数据验证工作。Ground Truth是任何模型的数据根基与数据基础设施。
大地量子为管理真实样本数据研发了「沙漠量子」的内部用实地数据管理系统,用于高效的实地数据采集与标注,世界探索计划为大地量子每个月新增数万条地表真实样本数据,这些数据都经过精心的审核与系统的管理。
模型验证
大地量子的深度学习模型都具有标准的训练集和测试集,通常的分类产品的训练时Overall Accuracy范围在0.9-0.99的区间
大地量子结合多类公开的数据集,制作了自有的数据集Icemachine,用于数据验证工作。
除了严格的测试集外,利用TerraQuanta Data Standard与大量的过往产品数据,能够进一步进行模型验证,例如:
- 玉米是一种农田,玉米地上不会出现森林,如果出现森林,则应被识别为森林
- 洪水会覆盖农田,当覆盖农田的时候,是一种洪水事件,而非正常的水体
大地量子通过多种方式,在进行模型训练、数据生产时,花大量时间进行数据验证工作,尽力确保数据的准确性,尽管如此,受限于目前技术的局限性,就像天气预报一样,一定程度内的误差是在所难免的。
大地量子交付组在开展数据验证的核查工作