我不是标准化的名单最频繁的词,例如:获取列表
'one Bull', 'A Horse', 'Horse', 'Dog', 'Black dog', 'Brown dog', 'Bird', 'I'm a horse', 'I'm not a dog'
我想要得到的是最常见的值的列表,这将是很容易使用SQL如果数据清白的,但具有不归一化数据,我不知道我怎么能得到类似的名单如下:
'Dog' - 4
'Horse' - 3
'A' - 3
...
我已经看到了Python有一个计数器模块可帮助,但它会将一个字符串计为一个"One bull"
,而不是混合字"One", "Bull".
以前可能会拆分字符串吗?
修改初始列表使用''split''如'x = [y.split()for y in list]',然后将其平坦化,然后“count”。 –