我有几百条推文供我使用,我正在寻找将每个推特用户分类为男性和女性,方法是获取他们的真实姓名并查看他们的至少2条推文。我已经编制了从他们的个人资料中获取每个人的真实姓名,并且我现在正在考虑对他们的推文文本进行分类,以尝试对用户是M还是F做出更强烈的肯定。我在网上查找和搜索了文本的示例分类,但我不太确定从哪里开始。我还发现一些非常有用的数据在这个链接Twitter Text With Gender Download. 任何关于如何分类男性或女性撰写鸣叫文本的建议将非常感激!我有点撞到一堵砖墙。分类推特文字性别
分类推特文字性别
回答
我没有任何其他的文字数据集是由男性或女性写的,以帮助训练分类器。
这是你的障碍。要么你需要使用这样的数据集进行监督式学习,例如使用感知器学习者;或者您需要执行无监督学习,例如k-均值聚类,并尝试查找可以(有点任意地)声明为男性或女性信号的群集。在无人看管的方法中区分性别在实践中几乎是不可能的,至少在没有其他一些现有的信息,先验或功能地图的基础上可以建立。
你需要一个训练集,这是一个明显的陈述。没有其他办法。正如您在前一个问题Using Naive Bayes Classification to Identity a Twitter User's Gender中已经指出的那样,您可以手工创建它们,也可以在半监督时尚中使用外部规则(如真实姓名)创建训练集。
最简单的方法是使用现有的鸣叫数据接受培训,性别标签的分类,我建议: http://clic.cimec.unitn.it/amac/twitter_ngram/
其他资源: 博客性别:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar
非常感谢您为我找到这个数据集!我衷心感谢。我一定会看看这个。 – Tastybrownies
您可能还需要采取看看这个REST API基于第一个名字,它返回性别:http://www.thomas-bayer.com/restnames/
你可以看看我的Python性别检测项目https://github.com/muatik/genderizer
它试图检测作者的性别,查看他们的姓名和/或示例文本(例如tweets)。
genderComputer是@Bogdan Vasilescu试图从他们的名字(主要是名字)和位置(国家)推断出一个人的性别的Python脚本。该工具将来自different countries的信息与关于小数字的信息,来自gender.c
,an open source C program for name-based gender inference的数据相结合。
- 1. 失败推特性分支
- 2. 推文分类
- 3. 将推特信息分类为正面和负面推文
- 4. 推特按钮,分享推文
- 5. 多类别文档分类
- 6. 将推文分类为
- 7. WEKA分类类别的可能性
- 8. Mahout推荐类别
- 9. Python,OpenCV:使用ORB特征和KNN对性别进行分类
- 10. Git推特别提交
- 11. 预分类训练的推特评论分类
- 12. Magento每个类别的特定属性
- 13. 分类文本根据相似性不同类别
- 14. RavenDB分面搜索:如何构建类别特定属性的特效
- 15. 词性分析(POS)标签文本分类的特征选择
- 16. 字典分类与特里
- 17. 特定类别
- 18. 推特新推文功能?
- 19. 转推特定推文
- 20. Python脚本,推特推特转发特定推文
- 21. 特别多字符串分割C#
- 22. 在文本文件中分别计算不同类别的文字
- 23. 按性别分类的Android资源
- 24. 博客作者的性别分类
- 25. magento属性,类别和分层导航
- 26. 推断类型的别名
- 27. 验证特定类别的ActiveRecord字段
- 28. 将文本分类为多个类别
- 29. 将文本分类为类别
- 30. 特别分割Java
机会,k-均值或任何其他聚类会破坏性别接近0,这不是一个好建议。这只会发现**任何**的数据分离,说话者的性别是非常微妙的事情,这必须经过精心培训/设计,聚类**不会**工作。 – lejlot
@lejlot同意,考虑到数据的性质可能是一个很长的时间。 – DuckMaestro
好吧,我很高兴地发现了一些可能对我有用的文件。我编辑了我原来的帖子,将其包含在上面。它有条件和用户ID与估计男性或女性。 – Tastybrownies