0
我有一个类似于下面所示的数据集,在真实的情况下,行数会在10000到1000000之间。 会有更多的列,但是核心问题围绕这两个字段旋转。基于Python的多标签分类
已知的标记
我知道类别-'Apple”, '蓝莓', '橙', '生菜'
数据集
DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit'
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a muffin',
'Tastes yummy','Like it with
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my
basket','Like it in a muffin','I like it it with salami','Comes from
Mexico']})
问题:
我有使用groupby创建一个或多个指标
当类别colum n具有未知单元格值我需要从“详细信息”中读取文本并预测类别的最适合标签。 例如
- 沙拉 - >莴苣,水果(行#5) - >橙水果(行#8) - >蓝莓 叶(行#9) - > '生菜' 应当理解,一些行可以 不分类。
帮助需要:
我在数据科学的算法是一个新手,找一些指导,以确定解决问题的正确模式。
你能分享相关的代码以获得有用的答案吗? –