2017-06-18 30 views
0

我正在使用一个Yelp数据集,它是一个熊猫数据框。每行都包含有关业务的信息,而每一列都是指消费者评级,类别,属性等特定信息。我特别感兴趣的是从数据框的属性列中提取信息。每行中的属性字段包含多个元素并且长度不同。我附上了一张图片来说明这一点。 Image of attributes column从python dataframe列检索字符串的一部分

我想从属性单元格中提取此信息:'RestaurantsPriceRange2:1'。请注意'RestaurantsPriceRange2'的值在每行中也有所不同,可能是1,2,3或4.我尝试将每一行收集到一个列表中,但列表的长度因行而异。

有人可以建议如何从属性列中选择我想要的信息吗?

回答

0

它看起来像属性也用逗号分隔。您可以用大括号中的逗号分隔每个属性(有关可用作分隔符的RegEx,请参阅How to split by commas that are not within parentheses?,并用大括号替换括号),然后读取属性并将它们转换为数据框的一部分。通过这种方式,您可以直接访问Restaurant Price Range

相关问题