我为我的数据挖掘项目使用HIGGS数据集。在解析Python中的数据时,我收到以下错误:Python无效浮点数()
ValueError: invalid literal for float(): -8.854051232337951660e-
对于许多相同类型的值,我得到此错误。我正在使用Apache Spark作为分布式环境。
这是我在数据集中的一行。
1.000000000000000000e+00,8.004817962646484375e-01,-3.643184900283813477e-01,-4.785313606262207031e-01,2.399173498153686523e+00,**-8.854051232337951660e-01**,1.204909682273864746e+00,-8.518521487712860107e-02,1.364478588104248047e+00,0.000000000000000000e+00,4.605550169944763184e-01,1.564514338970184326e-01,1.068501710891723633e+00,0.000000000000000000e+00,1.793796300888061523e+00,1.236290574073791504e+00,5.773849487304687500e-01,2.548224449157714844e+00,1.083405137062072754e+00,1.178002059459686279e-01,-1.116195082664489746e+00,0.000000000000000000e+00,8.484367132186889648e-01,1.113812208175659180e+00,9.878969192504882812e-01,5.820630192756652832e-01,4.325648546218872070e-01,1.004681587219238281e+00,8.44922e-01
我已经检查过,没有数据差异。
有人可以帮我解决这个错误信息吗?
事实上,无论它出现在哪里,我都只会在这个特定值上出错。 – Shinchan
然后你的解析器有一个一致的问题(很好!重现性使得调试更加容易)。该文字是完全有效的(后面的数字),手动插入python并检查自己。该数字被裁剪,这是一个解析问题,不是铸造问题 –
也感谢您(1)发布堆栈跟踪,然后(2)发布您的数据。使问题更容易回答 –