bigdata

    1热度

    1回答

    我们正在使用sqoop将数据从Oracle数据库提取到HDFS。人们用来定期更新和添加新的行到SQL表中。我知道sqoop递增进口--append和--last modified选项。 我的问题是我们是否可以在同一个import语句中使用这两个选项? 例如, sqoop --incremental import --lastmodified --append --check-column 'las

    -4热度

    1回答

    我需要阅读大约数百万xml(大约几gbs )并通过http以低延迟时间通过rest GET调用流式传输它们。用java和/或开源工具来实现这个选项有什么选择。 谢谢

    1热度

    1回答

    我是Apache Spark新手,我希望能够读取XML文件并计算每个标题的字数。 XML文件是这样的: <title>first title</title> <words>there are seven words in this example</words> <title>second title</title> <words>there are more words here, ten

    0热度

    1回答

    我正在设计一个以读取的平面文件开始的数据管道。文件中的每一行都是单个记录。 加载之后,每个记录都将被解析,转换和丰富。这发生与其他记录无关。 作为最后一步,我想基于几个记录的字段的模糊匹配来重复记录记录。要做到这一点,我想获得2记录的所有组合。 当前我使用sql表作为缓冲区。我的表中包含的所有记录,我加入了表本身,on即键不同的条件,并在名称模糊匹配与sounds like: CREATE TAB

    -1热度

    2回答

    我首先想对我试图解决的问题进行一点概述。我的服务经常从Instagram,Twitter等不同来源获取帖子,我想将帖子存储在S3上的一个大型JSON文件中。文件名将如下所示:{slideshowId}_feed.json 我的网站将以幻灯片形式显示帖子,幻灯片将每分钟轮询一次S3文件以获取最新数据。它甚至可能轮询另一个文件,例如{slideshowId}_meta.json,它具有时间戳,从大文件

    3热度

    1回答

    我们目前正在研究使用多个列族对我们的bigtable查询性能的影响。我们发现将列拆分成多个列族不会提高性能。有没有人有过类似的经历? 关于我们的基准设置的更多细节。此时,我们生产表中的每行包含大约5列,每列包含0.1到1 KB的数据。所有列都存储在一个列族中。在执行行键范围过滤器(平均返回340行)并应用列正则表达式过滤器(每行只返回1列)时,查询平均需要23,3ms。我们创建了一些测试表,我们将

    -1热度

    1回答

    我们使用PHP 7,并在只有128 MB RAM的Web服务器上运行MySQL数据库。 我们在处理大量数据集时遇到了问题。 简单描述:我们有40,000个产品,我们希望收集这些产品的数据以找出是否需要更新。从另一个具有10百万个数据集的表中收集特定数据的查询需要1.2秒,因为我们有一些SUM函数。我们需要为每个产品单独进行查询,因为与SUM相关的时间范围有所不同。由于大量的查询,应该遍历所有产品的

    1热度

    1回答

    我有一个要求,我需要设置hadoop来保存文件,而不仅仅是文本文件,它可以是图像视频pdf。并且会有一个Web应用程序,用户可以根据需要添加文件和访问文件。 它可以实现吗? Web应用程序也需要由我来开发。谢谢。

    0热度

    2回答

    我想要分析ML的目的,我在csv中有大量值大约50GB的数据。然而,要适应Python,这是一个很大的方法。我最好希望使用mySQL,因为查询更容易。任何人都可以提供一些技巧供我研究。这一点可以从任何东西: 如何将其存储在首位,我知道我可能无法一次全部加载它,我会做反复?如果是的话,我可以为此考虑些什么?另外我听说过索引,这是否真的会加快对如此庞大数据集的查询? 是否有更好的技术来处理这些数据,并

    1热度

    1回答

    我想插入约19000数据到MySQL数据库和PHP,但随着负载页面或cron作业只增加了大约2000年,我怎么可以将所有数据 foreach($inventories as $item){ $this->model->AddInventory($item); }