
Android neon加速优化
发布日期:2021-05-09 09:32:36
浏览次数:20
分类:博客文章
本文共 2455 字,大约阅读时间需要 8 分钟。
neon是一种SIMD(单指令多数据)指令集,其效率相当于汇编,用于arm cpu平台的优化,在音视频、图形图像处理领域性能提升较大。arm架构的CPU从armv7a开始已经支持neon(可选项),从而实现并行计算功能。
本文记录一下在android上使用neon加速的方法。
首先不用多说先创建支持native C++的android工程
然后在gradle中添加对neon的支持:
externalNativeBuild { cmake { cppFlags "-std=c++14" arguments "-DANDROID_ARM_NEON=TRUE" } }
还要在cmake中添加对neon的支持 "-mfpu=neon"
最后在cpp中 #include<arm_neon.h>
这样,项目就可以支持neon加速了。
为了比较性能,现在用neon和纯C方法比较一下将彩色图片转成灰度的时间
//纯C函数void method_argb2gray_c(AndroidBitmapInfo info, void *pixels) { // rgb转灰度值公式 // Gray = (R*38 + G*75 + B*15) >> 7 cv::TickMeter tm1; tm1.start(); uint32_t *pixel = NULL; int a = 0, r = 0, g = 0, b = 0; int rows=info.height; int cols=info.width; for (int y = 0; y < rows; ++y) { for (int x = 0; x < cols; ++x) { pixel = (uint32_t *) pixels + info.width * y + x; a = (*pixel & 0xFF000000) >> 24; r = (*pixel & 0x00FF0000) >> 16; g = (*pixel & 0x0000FF00) >> 8; b = (*pixel & 0x000000FF) >> 0; int gray = (r * 38 + g * 75 + b * 15) >> 7; *pixel = ((a << 24) | (gray << 16) | (gray << 8) | gray); } } tm1.stop(); LOGI("method_argb2gray_c time: %lf", tm1.getTimeMilli());}
//neon函数void method_argb2gray_neon(AndroidBitmapInfo info, void *pixels) { // Gray = (R*38 + G*75 + B*15) >> 7 TickMeter tm3; tm3.start(); unsigned short *dst = (unsigned short *) pixels; unsigned char *src = (unsigned char *) pixels; uint8x8_t r = vdup_n_u8(38); uint8x8_t g = vdup_n_u8(75); uint8x8_t b = vdup_n_u8(15); uint16x8_t alp = vdupq_n_u16(255 << 8); uint16x8_t temp; uint8x8_t gray; uint8x8x4_t argb; uint16x8_t hight; uint16x8_t low; uint16x8x2_t res; int i, size = info.height * info.width / 8; for (i = 0; i < size; ++i) { //获取r、g、b值,计算灰度值 argb = vld4_u8(src); temp = vmull_u8(argb.val[1], r); temp = vmlal_u8(temp, argb.val[2], g); temp = vmlal_u8(temp, argb.val[3], b); gray = vshrn_n_u16 (temp, 7); src += 8 * 4; //赋值4通道argb hight = vorrq_u16(alp, vmovl_u8(gray)); low = vorrq_u16(vshlq_n_u16(vmovl_u8(gray), 8), vmovl_u8(gray)); res = vzipq_u16(low, hight); vst1q_u16(dst, res.val[0]); dst += 8; vst1q_u16(dst, res.val[1]); dst += 8; } tm3.stop(); LOGI("method_argb2gray_neon time: %lf", tm3.getTimeMilli());}
实测速度比较如下
发表评论
最新留言
做的很好,不错不错
[***.243.131.199]2025年05月01日 14时12分01秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
不编译只打包system或者vendor image命令
2019-03-09
【编程】C语言入门:1到 100 的所有整数中出现多少个数字9
2019-03-09
flink启动(二)
2019-03-09
pair的用法
2019-03-09
Flex 布局的自适应子项内容过长导致其被撑大问题
2019-03-09
PL/SQL 动态Sql拼接where条件
2019-03-09
Thymeleaf sec:authorize 标签不生效
2019-03-11
Flask--简介
2019-03-11
Frame--Api框架
2019-03-11
Boostrap技能点整理之【网格系统】
2019-03-11
javaWeb服务详解(含源代码,测试通过,注释) ——Emp的Dao层
2019-03-11
Git简单理解与使用
2019-03-11
echarts 基本图表开发小结
2019-03-11
adb通过USB或wifi连接手机
2019-03-11
JDK9-15新特性
2019-03-11
TreeSet、TreeMap
2019-03-11
JVM内存模型
2019-03-11
可变长度参数
2019-03-11
3、条件查询
2019-03-11