Android neon加速优化
发布日期:2021-05-09 09:32:36 浏览次数:20 分类:博客文章

本文共 2455 字,大约阅读时间需要 8 分钟。

neon是一种SIMD(单指令多数据)指令集,其效率相当于汇编,用于arm cpu平台的优化,在音视频、图形图像处理领域性能提升较大。arm架构的CPU从armv7a开始已经支持neon(可选项),从而实现并行计算功能。

本文记录一下在android上使用neon加速的方法。

首先不用多说先创建支持native C++的android工程

然后在gradle中添加对neon的支持:

externalNativeBuild {         cmake {             cppFlags "-std=c++14"             arguments "-DANDROID_ARM_NEON=TRUE"         }     }

还要在cmake中添加对neon的支持 "-mfpu=neon"

最后在cpp中 #include<arm_neon.h>

这样,项目就可以支持neon加速了。

为了比较性能,现在用neon和纯C方法比较一下将彩色图片转成灰度的时间

//纯C函数void method_argb2gray_c(AndroidBitmapInfo info, void *pixels) {    // rgb转灰度值公式    // Gray = (R*38 + G*75 + B*15) >> 7    cv::TickMeter tm1;    tm1.start();    uint32_t *pixel = NULL;    int a = 0, r = 0, g = 0, b = 0;    int rows=info.height;    int cols=info.width;    for (int y = 0; y < rows; ++y) {        for (int x = 0; x < cols; ++x) {            pixel = (uint32_t *) pixels + info.width * y + x;            a = (*pixel & 0xFF000000) >> 24;            r = (*pixel & 0x00FF0000) >> 16;            g = (*pixel & 0x0000FF00) >> 8;            b = (*pixel & 0x000000FF) >> 0;            int gray = (r * 38 + g * 75 + b * 15) >> 7;            *pixel = ((a << 24) | (gray << 16) | (gray << 8) | gray);        }    }    tm1.stop();    LOGI("method_argb2gray_c      time: %lf", tm1.getTimeMilli());}
//neon函数void method_argb2gray_neon(AndroidBitmapInfo info, void *pixels) {    // Gray = (R*38 + G*75 + B*15) >> 7    TickMeter tm3;    tm3.start();    unsigned short *dst = (unsigned short *) pixels;    unsigned char *src = (unsigned char *) pixels;    uint8x8_t r = vdup_n_u8(38);    uint8x8_t g = vdup_n_u8(75);    uint8x8_t b = vdup_n_u8(15);    uint16x8_t alp = vdupq_n_u16(255 << 8);    uint16x8_t temp;    uint8x8_t gray;    uint8x8x4_t argb;    uint16x8_t hight;    uint16x8_t low;    uint16x8x2_t res;    int i, size = info.height * info.width / 8;    for (i = 0; i < size; ++i) {        //获取r、g、b值,计算灰度值        argb = vld4_u8(src);        temp = vmull_u8(argb.val[1], r);        temp = vmlal_u8(temp, argb.val[2], g);        temp = vmlal_u8(temp, argb.val[3], b);        gray = vshrn_n_u16 (temp, 7);        src += 8 * 4;        //赋值4通道argb        hight = vorrq_u16(alp, vmovl_u8(gray));        low = vorrq_u16(vshlq_n_u16(vmovl_u8(gray), 8), vmovl_u8(gray));        res = vzipq_u16(low, hight);        vst1q_u16(dst, res.val[0]);        dst += 8;        vst1q_u16(dst, res.val[1]);        dst += 8;    }    tm3.stop();    LOGI("method_argb2gray_neon   time: %lf", tm3.getTimeMilli());}

实测速度比较如下

上一篇:需求从哪里来?
下一篇:js数组常用循环

发表评论

最新留言

做的很好,不错不错
[***.243.131.199]2025年05月01日 14时12分01秒