论文标题
RDF中XSD二进制浮点数据类型的问题
The Problem with XSD Binary Floating Point Datatypes in RDF
论文作者
论文摘要
XSD二进制浮点数据类型定期用于RDF中的精确数字值。但是,将这些数据类型用于知识表示可以系统地损害数据质量,并且与XSD小数数据类型相比,增加了产生错误结果的数据处理的可能性。我们认为为什么在大多数情况下,XSD小数数据类型更适合表示RDF中的数字值。对数据类型的实际用法的调查在2020年12月的Web数据共享数据集的相关子集上,其中包含来自真实Web数据的19453060341文字,证实了所述问题的实际相关性:29%-68%的二元浮点值的实际相关性是由于数据型而导致的。
The XSD binary floating point datatypes are regularly used for precise numeric values in RDF. However, the use of these datatypes for knowledge representation can systematically impair the quality of data and, compared to the XSD decimal datatype, increases the probability of data processing producing false results. We argue why in most cases the XSD decimal datatype is better suited to represent numeric values in RDF. A survey of the actual usage of datatypes on the relevant subset of the December 2020 Web Data Commons dataset, containing 19453060341 literals from real web data, substantiates the practical relevancy of the described problem: 29 %-68 % of binary floating point values are distorted due to the datatype.