皋陶 发表于 2021-3-6 00:46:11

Zifencei扩展

本帖最后由 皋陶 于 2021-3-6 00:45 编辑

fence 指令对外部可见的访存请求,如设备 I / O 访问,内存访问等进行串行化。
外部可见是指对处理器的其他核心、线程,外部设备或协处理器可见。
fence.i 指令同步指令和数据流。
在执行 fence.i 指令之前,对于同一个硬件线程(hart), RISC-V 不保证用存储指令写到指令存储区的数据可以被取指指令取到。
      Zifencei扩展目前仅包括FENCE.I指令。该指令提供了同一个hart中写指令内存空间和读指令内存空间之间的显式同步, 就是说读取的指令的总是最新写入的指令。该指令目前是确保指令内存存储和读取都对hart可见的唯一标准机制。
      fence.i指令可以有各种实现方法,一种简单的实现就是在执行fence.i指令的时候,冲刷(flush)指令缓存(Icache, instruction cache)和指令管线(instruction pipeline)。冲刷icache和管线的作用是确保指令缓存中的内容和指令内存空间中的数据一致,以及所有写指令缓存的动作完成(icache通常是只读的,但自修改指令可能会需要写的动作)。这样确保后续的指令读取操作正确。

      更复杂的实现可能会在每个数据(指令)高速缓存未命中时窥探指令(数据)高速缓存,或者使用统一专用L2高速缓存,L2缓存是全局缓存,所有的riscv核都接在上面,当然riscv核本身有icache和dcache,也就是L1 cache, 如果L2 cache足够大,对指令数据并没有一致性问题。对L2的store指令,就去回看L1对应的cacheline是否有效,如果数据有效,就invalidate它。如果指令和数据高速缓存以这种方式保持一致,或者如果存储器系统仅由未缓存的RAM组成,那么只需要在FENCE.I处冲刷管线。
       FENCE.I指令以前是基本指令集RV32I/RV64I的一部分。现在把它移到扩展指令集Zifencei, 这样做主要有两个原因:
      首先,在某些系统上,实现FENCE.I代价将是昂贵的,RiscV基金会存储器模型工作组中正在讨论替代机制。特别是,对于具有不一致指令高速缓存和不一致数据高速缓存的设计,或者指令高速缓存不能监视(snoop)数据高速缓存一致性的时候,当遇到FENCE.I指令时,两个高速缓存必须完全冲刷管线。当在主存和riscv系统全局统一cache的上层(更接近core),有多级的icache和dcache时候,这个问题会更加严重。
       其次,该指令的功能不足以在类Unix操作系统环境中的用户级别使用。 FENCE.I仅同步本地hart,操作系统可以在FENCE.I之后将用户hart重新分配到不同的物理hart。这将要求操作系统执行额外的FENCE.I来进行每个上下文切换。出于这个原因,标准Linux ABI已经从用户级删除了FENCE.I,现在需要系统调用来维持指令一致性,这允许操作系统最小化在当前系统上执行FENCE.I的数量,对于将来改进的读取指令一致性机制,也可以保持向前兼容。一些新的取指令一致性机制仍在讨论中,将来会提供fence.i更多的版本。 比如在rs1中指定地址,仅fence指定的rs1地址的访问。
    fence.i 指令同步指令和数据流。在执行 fence.i 指令之前,对于同一个硬件线程(hart), RISC-V 不保证用存储指令写到内存指令区的数据可以被取指令取到。使用fence.i指令后,对同一hart,可以确保指令读取是最近写到内存指令区域的数据。
   但是,fence.i将不保证别的riscv hart的指令读取也能够满足读写一致性。如果要使写指令内存空间对所有的hart都满足一致性要求,需要执行fence指令。


fence.ifence.i    //Fence(Store, Fetch)
同步指令流(Fence Instruction Stream). I-type, RV32I and RV64I.
使对内存指令区域的读写,对后续取指令可见。

                
  immrs1func3rdopcode
nametype313029282726252423222120191817161514131211109876543210
fence.iI00000000000000000001000000001111
例子:0:    0ff0000f            fence    iorw,iorw
4:    0000100f            fence.i
fence.i指令用于同步指令和数据流。
如果程序中添加一个fence.i,则该指令能够保证fence.i之前所有指令的访存结果能被fence.i之后的所有指令访问到。
通常说来,处理器的微架构硬件实现时,一旦遇到一条fence.i指令,便会先等到之前的所有访存指令执行完,然后冲刷流水线,包括Icache,使其后的所有指令,能够重新取指,从而得到最新的值。
注意:fence.i只能保证同一个hart(硬件线程)执行的指令流和数据流顺序,不能保证多个hart之间的指令流和数据流访问。


页: [1]
查看完整版本: Zifencei扩展