data-processing

    1热度

    1回答

    我正在运行logistic回归,并且在使用Patsy的API准备数据时遇到问题,因为它比一个小样本大。 直接在数据框使用dmatrices功能,我离开了这个突然的错误(请注意,我打滑了一个EC2的RAM 300GB遇到这对我的笔记本电脑后,并得到了相同的错误): Traceback (most recent call last): File "My_File.py", line 22, in <

    0热度

    1回答

    当应用R在SPSS Modeler中转换Field操作节点时,系统会自动将以下代码添加到我自己的顶部脚本与[R接口附加: while(ibmspsscfdata.HasMoreData()){ modelerDataModel <- ibmspsscfdatamodel.GetDataModel() modelerData <- ibmspsscfdata.GetData(ro

    0热度

    2回答

    假设您有一个带有少量后端php的html表单。该表格只有一个领域,它返回1或0。比如...... 而且PHP脚本提供有关用户的操作系统的信息一起记录这个在MySQL数据库中。 因此,您可能会发现许多Windows8用户喜欢华夫饼,但没有太多Linux Mint用户。 “哦... 87%的Windows 8用户说是...这是我猜的。” 但是开发人员事先确实知道类别(即本例中的OS类型)并非。因此,实

    1热度

    3回答

    请帮助,我有一个数据集,其中包含一列文字,其中包含用户提及和他们的推文。我想提取EXCEL中推文中提到的所有用户。换句话说,我想要完成这项任务:如果行的单元格值包含文本以@开始并以空格结束,则将该字符串值放入另一列中,对于列中的每一行,每个单元格可能包含更多而不是一个字符串的发生(在推文中提到的用户不止一个)。问题是EXCEL公式可能与编码无关吗?如果是的话,你能否指导我使用哪个公式?如果不是,你

    0热度

    2回答

    所以基本上我处理的培训和测试数据集(一堆阵列)不等长这样的: a: {true, [1,3, 4, 5, 5, 8 ,10 ,10]} b: {true, [1,3, 25, 18 ,1 ,10]} c: {false, [1, 8 ,10]} d: {false, [1,3 ,10 ,10]} 我是新来的机器学习方面,我在如何使这些未stucked -EQUal长度的输入数组相等长度,

    8热度

    3回答

    我有大量(〜1000)来自我正在尝试处理的数据记录器的文件。 如果我想使用 plot(timevalues,datavalues) 我希望能够查看所有这些线路在同一时间以同样的方式绘制从这些日志文件,我可以做一个单一的一个趋势以及示波器如何具有“持续”模式。 我也许可以凑齐的东西,使用直方图,但我希望有预先存在的或更优雅的解决这个问题。

    0热度

    1回答

    Spark,apache flink等数据处理引擎如何将结构化,半结构化和非结构化数据集成在一起并影响计算?

    0热度

    3回答

    所以我希望这个问题已经得不到解答,但我似乎无法弄清楚正确的搜索术语。 首先一些背景: 我有表格式的文本数据文件,可以很容易地爬到10 GB的GB。处理它们的计算机已经从长时间的数据收集(高达30-50MB/s)中大量加载,因为它正在进行设备处理和控制。因此,磁盘空间和访问非常重要。由于空间限制,我们还没有从旋转磁盘转移到SSD。 但是,我们正在寻找一些不需要每个数据点的刚刚收集的数据。我们希望能够

    2热度

    1回答

    我需要使用node.js分发数据处理策略。如果使用工作池并将这些工作人员中的任务组隔离是最好的方法,或者使用基于管道/节点的系统(如http://strawjs.com/),我试图计算出 是最好的方法。 我已经有以下几种(单个作业)的步骤: 提取含GIS形状文件 将文件转换为GeoJSON的使用ogr2​​ogr 进行非标准化的数据一个zip文件以GeoJSON文件 将数据转换到我在MongoDB

    0热度

    1回答

    我需要编写一个API来访问从Web服务器以HTML文档形式提供的数据。我需要我的用户能够对数据执行查询。 说在一个网站上有一个页面列出项目及其所有者。然后,为每个所有者提供有关其声誉的信息的所有者的另一组简档页面。我可能需要回答的一个示例查询是“给我ID和2013年提交的所有项目的所有者,其所有者的声誉至少为10”。 给出一个查询来回答,我需要能够屏幕只刮我需要回答手头查询的网站部分。理想情况下,