2013-08-24 26 views
2

我有几百条推文供我使用,我正在寻找将每个推特用户分类为男性和女性,方法是获取他们的真实姓名并查看他们的至少2条推文。我已经编制了从他们的个人资料中获取每个人的真实姓名,并且我现在正在考虑对他们的推文文本进行分类,以尝试对用户是M还是F做出更强烈的肯定。我在网上查找和搜索了文本的示例分类,但我不太确定从哪里开始。我还发现一些非常有用的数据在这个链接Twitter Text With Gender Download. 任何关于如何分类男性或女性撰写鸣叫文本的建议将非常感激!我有点撞到一堵砖墙。分类推特文字性别

回答

5

我没有任何其他的文字数据集是由男性或女性写的,以帮助训练分类器。

这是你的障碍。要么你需要使用这样的数据集进行监督式学习,例如使用感知器学习者;或者您需要执行无监督学习,例如k-均值聚类,并尝试查找可以(有点任意地)声明为男性或女性信号的群集。在无人看管的方法中区分性别在实践中几乎是不可能的,至少在没有其他一些现有的信息,先验或功能地图的基础上可以建立。

+0

机会,k-均值或任何其他聚类会破坏性别接近0,这不是一个好建议。这只会发现**任何**的数据分离,说话者的性别是非常微妙的事情,这必须经过精心培训/设计,聚类**不会**工作。 – lejlot

+0

@lejlot同意,考虑到数据的性质可能是一个很长的时间。 – DuckMaestro

+0

好吧,我很高兴地发现了一些可能对我有用的文件。我编辑了我原来的帖子,将其包含在上面。它有条件和用户ID与估计男性或女性。 – Tastybrownies

6

你需要一个训练集,这是一个明显的陈述。没有其他办法。正如您在前一个问题Using Naive Bayes Classification to Identity a Twitter User's Gender中已经指出的那样,您可以手工创建它们,也可以在半监督时尚中使用外部规则(如真实姓名)创建训练集。

最简单的方法是使用现有的鸣叫数据接受培训,性别标签的分类,我建议: http://clic.cimec.unitn.it/amac/twitter_ngram/

其他资源: 博客性别:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar

+0

非常感谢您为我找到这个数据集!我衷心感谢。我一定会看看这个。 – Tastybrownies

2

你可以看看我的Python性别检测项目https://github.com/muatik/genderizer

它试图检测作者的性别,查看他们的姓名和/或示例文本(例如tweets)。

+0

很酷的概念,但经过测试,名称很好,但只使用文本看起来相当不准确。'我是两个孩子的母亲'给'无'; ''我是三个孩子的母亲'给'男'; ''我是五个孩子的母亲'给'女'; '我喜欢在商场购物'给'无',甚至'我是女医生'给'男'。 – KubiK888

+0

是的,我没有声称它的准确性达到了理想的水平,主要是因为它需要用英文文本https://github.com/muatik/genderizer/issues/1进行培训。 – Muatik

+0

听起来不错,你能简单地告诉我如何用你的软件包对现有的微博数据集进行培训吗? – KubiK888