neon

    1热度

    2回答

    我试图调整(减少)灰度8位图像的因子36 = 6x6。我想使用ARM NEON指令。我的代码如下所示: //I deinterlace 3 8-pixel on the first line (named line0) and //I add them. So I have resized horizontally by a factor 3 //Line 0 vld3.u8 {d0, d1

    2热度

    1回答

    ARM内在函数包括提取不同大小标量的函数。功能被最完全地记录在ARM® C Language Extensions: ET vgetQ_lane_ST(T vec, const int lane); 获取从输入向量指定车道的值。有12个内在函数。 和: T vget_high_ST(T2 a); T vget_low_ST(T2 a); 得到一个128位向量的高或低,一半。内部函数有24

    0热度

    1回答

    下面的代码只是试图将数据从'in *'数组复制到'out *'数组,但在第一个vst1.32指令中出现段错误,但是为什么? int* in0 = new int[4]{ 0x0, 0x1, 0x2, 0x3 }; int* in1 = new int[4]{ 0x4, 0x5, 0x6, 0x7 }; int* in2 = new int[4]{ 0x8, 0x9, 0xA, 0xB };

    0热度

    1回答

    我试图让我的旧代码运行得更快,因为我发现RPi 2处理器支持NEON指令。所以我写了这样的代码: __asm__ __volatile__( "vld1.8 {%%d2, %%d3}, [%1];" "vld1.8 {%%d4, %%d5}, [%2];" "vaba.u8 %%q0, %%q1, %%q2;" "vst1.64 %%d0, [%0];"

    1热度

    1回答

    我一直在研究这个问题一段时间了,我希望有人能指出我的错误。我想我无法再通过树木看到森林了。 我有一个用于测试的LeMaker HiKey开发板。它AArch64,所以其具有NEON和其他CPU的功能,如AES,SHA和CRC32: $ cat /proc/cpuinfo Processor : AArch64 Processor rev 3 (aarch64) ... Features :

    0热度

    1回答

    我试图在我的Xcode项目中运行NEON代码以用于学校目的。 我正在使用Xcode 7,LLVM 7.0并使用设备来执行程序。 我在代码的项目中有一个.s文件。如果我只运行ARM代码它完美的作品,但是当我加入一个单一的代码行NEON(就像在代码段)我得到以下信息: AssemblyTest.s:22:5: error: unrecognized instruction mnemonic

    0热度

    1回答

    我有一些使用NEON内在函数的C++代码。从我读过的内容来看,你所需要做的就是将arm_neon.h包含到你的项目中。然后我读到这个arm_neon.h头文件实际上并不是自动提供给你的,你必须从网上获取它。于是我找到并添加这个版本我的项目: http://clang.llvm.org/doxygen/arm__neon_8h-source.html 在我的项目的prefix.pch我说: #imp

    3热度

    1回答

    我想获得我的硬件的加密性能测试,同时这样做我使用openssl速度测试命令。 第一测试I执行是不启用硬件加速: $ openssl speed -evp aes-128-cbc -engine cryptodev Doing aes-128-cbc for 3s on 16 size blocks: 4437806 aes-128-cbc's in 3.00s Doing aes-128-cb

    1热度

    1回答

    在霓虹灯内部函数中,有四个内在函数(vld1 vld2 vld3 vld4)执行单向去交错。但是如何实现8路解交织? 例如,数据是: uint8_t src[64] = {0,1,2,3,4,5,6,7,```63}; 将数据装载到氖寄存器,并且执行8路解交织后,希望src_reg1和src_reg2的值可以是这样的: uint8x8x4_t src_reg1; uint8x8x4_t sr

    0热度

    1回答

    霓虹灯intinsics离开寄存器编译器的配置,所以我们并不需要关心它。但是我想在多核知道处理器(我的处理器是zynq,有两个arm-cortex-A9内核,两个氖单元),编译器是否知道如何有效地使用所有霓虹灯单元?或者我需要做什么来确保编译器可以使用所有霓虹灯单元? 我认为在多核处理器中,如果我们可以使用所有霓虹灯单位,我们可能会得到更好的性能gain.Dose人有一个想法?谢谢!