我不太确定如何说出这一点,如果格式不正确,我很抱歉,但我正试图获得一个基础来解决这个问题。个人项目的最佳数据分析技巧/模型
我试图建立一个预测算法的一组“髋关节手术的患者”,看起来像的数据:
Readmission Time | Symptom Code | Symptom Note | Related
6 | 2334 | swelling in hip | Yes
12 | 1324 | anxiety | Maybe
8 | 2334 | swelling in hip | Yes
30 | 1111 | Headaches | No
3 | 7934 | easily bruising | Yes
对于背景下,医生可以识别一个给定的“症状代码”是否是与X天前发生的“髋关节置换手术”有关。我的数据集中有大约200个符合此格式的条目,我的目标是能够匹配给定集合中的结果,并根据以下内容预测“相关”列中的新结果(具有关于预测结果的确定性统计信息)新的投入。例如,给定:
Input: 20 | 2334 | swelling in hip
Output: Yes (90% confidence)
我很新的数据分析和机器学习,所以我真的只是想获得某种东西的指针来查找或从哪里得到我的研究开始。我想有一个最佳的功能/模型可以处理这个最好的问题,但正如我所说我对这个主题非常陌生,所以我不知道从哪里开始。由于我有一个相对较小的数据集,我正在寻找一种技术,如果可能的话,这种技术不容易超过训练。
我真的很感谢任何帮助和指导从何入手。
哇,非常感谢!这很棒。我无法找到资源,所以我非常感谢。我会看看所有这些,并希望得到一个地方。我可以获得更多数据,但只能分阶段进行。我会有一位顾问会通过我的结果说这个结果是对/错的,然后我将这些信息提供给我的模型,然后重新启动一组新的150-200个条目。 – user2109258