我有一个类似于下面所示的数据集，在真实的情况下，行数会在10000到1000000之间。会有更多的列，但是核心问题围绕这两个字段旋转。基于Python的多标签分类

已知的标记

我知道类别-'Apple”， '蓝莓'， '橙'， '生菜'

数据集

DataFrame 
({'ROWID':1,2,3,4,5,6,7,8,9,10], 
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'], 
'Details':['Eat one a day ,doctors keep away','Like it in a muffin', 
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing on lettuce','Nothing in my 
basket','Like it in a muffin','I like it it with salami','Comes from 
Mexico']})

问题：

我有使用groupby创建一个或多个指标

当类别colum n具有未知单元格值我需要从“详细信息”中读取文本并预测类别的最适合标签。例如

沙拉 - >莴苣，水果（行＃5） - >橙水果（行＃8） - >蓝莓叶（行＃9） - > '生菜' 应当理解，一些行可以不分类。

帮助需要：

我在数据科学的算法是一个新手，找一些指导，以确定解决问题的正确模式。

来源

2017-09-08 Reshmi Nandy

对“详细信息”列使用朴素贝叶斯，然后在“类别”列上执行简单过滤并删除具有已知类别值的行。

来源

2017-09-09 07:37:25 Shibaji

你能分享相关的代码以获得有用的答案吗？ –

基于Python的多标签分类

已知的标记

数据集

问题：

帮助需要：

回答

相关问题