有人预言,RISC-V或将是继Intel和Arm之后的第三大主流处理器体系。欢迎访问全球首家只专注于RISC-V单片机行业应用的中文网站
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 sky 于 2020-9-16 10:15 编辑
可以转载,但不准删改内容!
RISC-V,我喜欢缩写成 riscv,能少按一次 shift 和减号,是一个基于精简指令集(RISC)原则的开源指令集架构(ISA)。作为完全开源的指令集,天生自带开源的光环基因,纵使当今 x86 ARM 几乎绝对市场垄断,依然生机勃勃,持续发展着
https://en.wikipedia.org/wiki/RISC-V
如果要问我,为什么要把 ncnn 移植到 riscv 上面跑?那就是开源文化基因的力量,英文单词 meme 的魔法
其实移植过程中还是踩了一些坑的,感谢中科院软件所智能软件研究中心的大佬热心解答我的提问
一,编译工具链,pk,仿真器
https://github.com/riscv/riscv-gnu-toolchain
其实第一次搭建环境,照着 README 的命令就足够了,首先是编译工具链,时间比较久,make 完会自动安装到 /opt/riscv,不需要 make install
- $ export PATH=/opt/riscv/bin:$PATH
- $ sudo apt-get install autoconf automake autotools-dev curl python3 libmpc-dev libmpfr-dev libgmp-dev gawk build-essential bison flex texinfo gperf libtool patchutils bc zlib1g-dev libexpat-dev
- $ git clone https://github.com/riscv/riscv-gnu-toolchain.git
- $ cd riscv-gnu-toolchain
- $ git submodule update --init
- $ ./configure --prefix=/opt/riscv
- $ make -j4
复制代码
https://github.com/riscv/riscv-pk
然后是 pk,proxy kernel
- $ git clone https://github.com/riscv/riscv-pk.git
- $ cd riscv-pk
- $ mkdir build && cd build
- $ ../configure --prefix=/opt/riscv --host=riscv64-unknown-elf
- $ make -j4
- $ make install
复制代码
https://github.com/riscv/riscv-isa-sim
最后是仿真器,又名 spike
- $ sudo apt-get install device-tree-compiler
- $ git clone https://github.com/riscv/riscv-isa-sim.git
- $ cd riscv-isa-sim
- $ mkdir build && cd build
- $ ../configure --prefix=/opt/riscv
- $ make -j4
- $ make install
复制代码
正常情况下不会出错,/opt/riscv 在 install 的时候需要 root 权限
搭建完成就来编译个 hello。先写个 hello.c,用 riscv gcc 编译为 riscv 二进制,然后用 spike 仿真器在 Linux x86 跑 riscv 程序,成功了
- #include <stdio.h>
- int main()
- {
- fprintf(stderr, "hello\n");
- return 0;
- }
复制代码- $ riscv64-unknown-elf-gcc hello.c -o hello
- $ spike /opt/riscv/riscv64-unknown-elf/bin/pk ./hello
- bbl loader
- hello
复制代码
移植 ncnn
第一件事,安排个 riscv64-unknown-elf.toolchain.cmake
https://github.com/Tencent/ncnn/blob/master/toolchains/riscv64-unknown-elf.toolchain.cmake
第二件事,编译起来,已经预料到没有 protobuf opencv,newlib 也没有 openmp,那么禁用掉
- $ cmake -DCMAKE_TOOLCHAIN_FILE=../riscv64-unknown-elf.toolchain.cmake -DNCNN_OPENMP=OFF -DNCNN_BUILD_TOOLS=OFF -DNCNN_BUILD_EXAMPLES=OFF ..
- $ make -j4
复制代码
- platform.h 里的 Mutex ConditionVariable Thread 依赖 pthread,newlib 是没有的,新加一个 NCNN_THREADS 开关,彻底屏蔽一切和线程相关的代码
- posix_memalign 和 sleep 属于 posix 函数,newlib 也是没有的,新加条件判断 defined(__unix__) || defined(__APPLE__) 绕过
就改了这两个地方,似乎并没有什么困难嘛...
- $ cmake -DCMAKE_TOOLCHAIN_FILE=../riscv64-unknown-elf.toolchain.cmake -DNCNN_THREADS=OFF -DNCNN_OPENMP=OFF -DNCNN_BUILD_TOOLS=OFF -DNCNN_BUILD_EXAMPLES=OFF ..
- $ make -j4
复制代码
编译通过了,但是跑 ctest 会因为 test_xxx 无法直接运行全部 Failed。riscv 的测试程序需要像 hello 一样,用 spike 仿真器跑,上网搜索一番找到这个方案,魔改一番,加上 spike 和 pk 参数
https://stackoverflow.com/questions/28812533/how-to-pass-command-line-arguments-in-ctest-at-runtime
- $ TESTS_EXECUTABLE_LOADER=spike TESTS_EXECUTABLE_LOADER_ARGUMENTS=/opt/riscv/riscv64-unknown-elf/bin/pk ctest
复制代码
单元测试通过了,感觉速度比 qemu 这类的快
开启 RISC-V V 扩展(SIMD)
前面编译的三大件,默认架构 rv64imafdc,也就是 rv64gc,也就是 k210 上面用的架构,是没有 SIMD 指令的。 ncnn 的优化代码中使用大量的 SIMD 指令实现 cpu 加速,打开 riscv SIMD 扩展指令相当必要。
riscv 的 V 扩展就是 riscv 的 SIMD 标准,目前最新版本是 0.9,下一个版本 1.0 很可能就是正式版。1.0 和 0.9 看起来是完全兼容的,没有重大改动,并且 riscv-gnu-toolchain git 只有 rvv-0.9 分支,spike 也声明支持 0.9 版本 V 扩展,那么就用 0.9
- $ cd riscv-gnu-toolchain
- # rvv-0.9.x = 5842fde8ee5bb3371643b60ed34906eff7a5fa31
- $ git checkout 5842fde8ee5bb3371643b60ed34906eff7a5fa31
- $ git submodule update --init
复制代码
- riscv-gnu-toolchain 和 riscv-pk 编译时 ./configure 添加 --with-arch=rv64gcv 参数启用 V 扩展
- riscv-isa-sim 编译时 ./configure 添加 --with-isa=rv64gcv 参数设置默认启用 V 扩展
编译 ncnn 链接时出错,报错 undefined reference to 'math_oflowf',经过寻找发现,这个math_oflowf 函数实现在 newlib 中,并且被 __OBSOLETE_MATH 条件屏蔽了,代码里用到 exp() 会报这个错。一行 sed 把这个条件删掉,重新编译一遍,通过
- # rvv-0.9.x fix undefined reference to '__math_oflowf'
- sed -i '/__OBSOLETE_MATH/d' riscv-newlib/newlib/libm/common/math_errf.c
复制代码
简单优化一个 riscv op
有了支持 V 扩展的 gcc 和 spike,当然要试试看效果,就简单优化个 riscv clip
SIMD 指令优化有三种方式,intrinsic/inline assembly/assembly,嫌弃 assembly 麻烦,ncnn 一直是用前两种实现方式。正常的话,clip这种形式简单不怎么耗寄存器的 op,适合用 intrinsic,简单方便效果好。可是找了一圈工具链文件夹没找到 intrinsic 头文件,原来 riscv-gnu-toolchain 并没有实现 V 扩展 intrinsic,我看 isrc-cas/rvv-llvm 正在开发相关的 intrinsic,不清楚是怎样的状态,暂时退而求其次 inline assembly 实现一下
https://github.com/isrc-cas/rvv-llvm
- asm volatile("vle8.v v0, (a1)");
复制代码
直接这么写一行 riscv v 指令,能通过编译,运行会报错 Illegal Instruction,我以为是工具链或 spike 编译的问题,倒腾了好久,幸亏大佬解答了一番
https://github.com/isrc-cas/plct-spike/issues/3
如果是 x86 sse/avx 或 arm neon 优化,循环通常会写成这个样子,一次取8个数或4个数,最后剩余的用一个 naive 循环处理
- int i = 0;
- #if __AVX___
- for (; i + 7 < N; i += 8)
- {
- }
- #endif // __AVX___
- #if __SSE___
- for (; i + 3 < N; i += 4)
- {
- }
- #endif // __SSE___
- for (; i < N; i++)
- {
- }
复制代码
https://github.com/riscv/riscv-v-spec/releases/tag/0.9
riscv v 是全新的变长 SIMD 设计,据说是沿袭 arm sve,最大能支持 8192bit。这样的好处就是代码可以只写一个循环,里面到底是展开8个数还是4个数,是自动的!再看看 riscv v 的其他指令,好些运算指令支持 mask 寄存器,这设计也是相当 modern 的,大概是从 avx512 学来的,可以用这个 mask 实现很多原先要多条指令才能实现的骚操作,真的很 flexible
这段代码里的 vsetvli 控制循环步进,t0 就是 cpu 告诉我他想一次性处理 fp32 的个数。remain 是我告诉 cpu 还有多少个数需要处理,你不准搞多了。m8 是我建议 cpu 一次性处理8个数,cpu 可以不听,返回4也是可以的
- asm volatile(
- "L0: \n"
- "vsetvli t0, %1, e32, m8 \n"// t0 = vsetvli(remain, 32bit x 8)
- "vle32.v v0, (%0) \n"// load ptr to v0
- "vfmax.vf v0, v0, %4 \n"
- "vfmin.vf v0, v0, %5 \n"
- "vse32.v v0, (%0) \n"// store v0 to ptr
- "slli t1, t0, 2 \n"
- "add %0, %0, t1 \n"// ptr += t0 * sizeof(float)
- "sub %1, %1, t0 \n"// remain -= t0
- "bnez %1, L0 \n"
- : "=r"(ptr), // %0
- "=r"(remain) // %1
- : "0"(ptr),
- "1"(remain),
- "f"(min), // %4
- "f"(max) // %5
- : "cc", "memory", "t0", "t1"
- );
复制代码
https://github.com/Tencent/ncnn/blob/master/src/layer/riscv/clip_riscv.cpp
也许 V 扩展太 flexible,标准也没有正式定稿,目前还没有看到完整实现 V 扩展的内核,这些优化代码只能在 spike/qemu 上面运行 期待将来有真实的硬件产品实现,latyas 说 k510 没有 V ... qwq
增加 RISC-V 32位 编译
去年参加 riscv 的开源活动,NXP 送了我一块 vega-lite 开发板,CPU 是 rv32imc,NXP 真是太棒了 QvQ
趁热打铁,也编译一套 riscv 32位 ncnn,方法和前面 V 扩展基本一致,区别就是 rv64gcv 换成 rv32imc。rv32imc 缺少 A 扩展,ncnn 代码里用到 __atomic_fetch_add 导致链接报错,添加一份无 atomic 实现就行
最后,整理出 rv64gv rv64gcv rv32imc 三种架构,放到 github action ci,自动编译测试。rv32imc 缺少 F 扩展,没有浮点计算能力,跑起来慢得出乎想象,隔壁 rv64gc 几分钟跑完全部测试,这边 rv32imc 跑一个 test_convolution 就跑了一个多小时,算了,ci 有编译就行了,测试就放弃治疗了
|