neon

0热度

1回答

我添加了命令行设置“-mfpu = neon”，以便我可以使用NEON指令。但是，这会导致一个奇怪的编译错误： 1>C:\Misc\nacl_sdk\vs_addin\examples\video_app\hello_world_gles\src\YUVBlock16x8.cpp(158,1): internal compiler error : in set_minipool_offset,

0热度

1回答

如何将uint8_t * src载入uint16x8_t

如何载入uint8_t * src到uint16x8_t？例如，我们只能做到以下几点： uint8_t *src; ---> uint8x8_t mysrc = vld1_u8(src); 看来我不能vreinterpret使用_ *（）或（uint16x8_t）MYSRC改造MYSRC到uint16x8_t？这样对吗？

0热度

2回答

关于vsubq_u16（uint16x8_t，uint16x8_t）

关于 vsubq_u16(uint16x8_t a, uint16x8_t b) 返回值也uint16x8_t。那么如果a小于b，我们将得到非常大的uint16x8_t而不是负值，这不是我所需要的。如果我有这样的要求， uint16_t c = fabs(uint16_t a - uint16_t b); 我怎样才能转化为NEON内在？谢谢。

0热度

1回答

Android的libjpeg-turbo：如何组织运行时选择NEON/non-NEON代码？

我为Android使用libjpeg-turbo端口。这不是从基JPEG-涡轮很大不同以源代码术语：http://git.linaro.org/gitweb?p=people/tomgall/libjpeg-turbo/libjpeg-turbo.git;a=shortlog;h=refs/heads/android 有由2个CPU特性依赖文件的模块（静态库）：jsimd_arm_neon.S和j

5热度

2回答

如何在iOS中使用ARM内部函数？

我需要非常快地在iPad上的数百万32位整数上计算MSB（最高有效位）。我有我自己的（丑陋）实现MSB写在简单的C，这是缓慢的。 ARM处理器有CLZ（计数前导零）硬件命令，这对此可能非常有用。根据ARM reference有一个内在的C函数__CLZ。我如何将ARM内部函数的支持添加到我的Xcode项目中？ P.S.我设法从NEON中找到了访问硬件CLZ的方式（通过包含arm_neon.h），但

0热度

2回答

优化RGBA-> RGB arm64组件

我写了这个非常天真的NEON实现从RGBA转换为RGB。它有效，但我想知道是否还有其他事情可以做，以进一步提高表现。我试着玩预取大小和展开循环多一点，但性能没有太大变化。顺便说一下，在维度预取方面有没有什么经验法则？我在网上找不到任何有用的东西。此外，在“ARMv8指令集概述”中，我看到还有一个用于存储的预取，这有什么用处？目前，我正在1.7ms左右转换iPhone5s上的1280x720图像

0热度

1回答

交叉编译FFTW：协处理器偏移超出范围

我想跨compil FFTW 3.3.3与霓虹灯支持的Cortex-A15 ARM处理器，但我得到这个错误： /tmp/ccsNpqyK.s：汇编消息： /tmp/ccsNpqyK.s:1035：错误：协处理器的偏移超出范围这是我的配置：的./configure - prefix =/usr/fftw_3_float_neon_ARNDALE --with-slow-timer --host

2热度

1回答

asm（arm64）中未知的寄存器名称“q0”

我正在尝试为新的arm64 arch编译我的lib。我有一堆NEON组件，并且对于他们所有人我收到一个错误 asm中未知的寄存器名称“q0”。即使我写水木清华这样简单： asm ( "" : : : "q0", "q1", "q2", "q3" ); 我想arm64支持NEON。我错过了什么吗？

1热度

1回答

iOS - C/C++ - 加速积分图像计算

我有一种计算计算机视觉应用中常用的积分图像（description here）的方法。 float *Integral(unsigned char *grayscaleSource, int height, int width, int widthStep) { // convert the image to single channel 32f unsigned char

5热度

2回答

iPhone上最快的逆平方根

我正在研究一个iPhone应用程序，它涉及每秒完成数千次的某些物理计算。我正在优化代码以提高帧率。我正在寻找的改进之一是反平方根。现在，我正在使用Quake 3 fast inverse square root方法。然而，在做了一些研究之后，我听说there is a faster way by using the NEON指令集。我不熟悉内联汇编，也不知道如何使用NEON。我试图实现math-n