编译器+AI
填坑–cmake底层基础 liuchongming1999/ImageNet-1K-training-and-validation: ImageNet(ILSVRC-2012) training scipt by timm library 1. 什么是TVM&LLVM TVM可以将高层次的(TensorFlow、PyTorch 等等模型)转换为高效的中间表示(IR),然后进...
填坑–cmake底层基础 liuchongming1999/ImageNet-1K-training-and-validation: ImageNet(ILSVRC-2012) training scipt by timm library 1. 什么是TVM&LLVM TVM可以将高层次的(TensorFlow、PyTorch 等等模型)转换为高效的中间表示(IR),然后进...
1. 香山工具记录 1.1 基础工具介绍 香山处理器Tutorial 香山开源处理器用户手册 香山处理器使用 DiffTest 协同仿真框架进行仿真验证:对于根据riscv手册的两种实现, 给定相同的正确程序, 它 们的状态变化应当一致,其中一种是我们的CPU,另一种模拟器就可以了 lightSSS,它可以在仿真进程出错时自动保存出错点附近的波形和debug信息 Nex...
点击查看详细内容 在三维的位置看矩阵乘法 {: width="400" height="auto" } ## 1. vortex笔记 ### 1.1. Wavefront Scheduler 1) a set of wavefront masks 2) a wavefront table t...
When developing the accelerator function for the Intel FPGA PAC N3000, select the `10AT115S1F45E1SG` device. On-Board Memory: Two 4 GB DDR4 memory banks, part number: MT40A512M16JY-083E:B , 1 GB ...
0.不断更新论文or新的研究 1)DualPipe & Cross-Node All-to-All Communication讲解了两个方向的前向和反向传播来重叠传播时间,代价是复制了一份网络参数(貌似有新的可以不用复制了)—- 基于 1F1B 的 MoE A2A 通信计算 Overlap 主要还是训练中的F和B的问题,不看,不碰训练~~~ 0.1 LLM推理加速 相...
使用RocketChip生成Verilog代码供外部工程使用
零散随笔 四种类型的请求 不同架构的编址不一样 Non-Posted的Request,是需要对方响应的,对方是通过返回一个Completion TLP来作为响应的。 Replay 有REPLAY_NUM、 REPLAY_TIMER 1.1 仲裁 端口仲裁:决定存进VC中来自不同端口message的顺序,端口仲裁之后进行VC仲裁,也就是输出端口读取VC的顺序 PCle...
0、电路上的问题 serdes 铜缆信道损耗大,功耗高,带宽利用率低 并行的phy功耗低,但频率有限 一、模拟器仿真软件调研 BookSim2 网络拓扑结构自由搭建;专注于交换机级别的网络层仿真(端到端的延迟、带宽、路由算法效率) 不包含AllReduce高层次的通信逻辑,算法需要你自己实现; SimAI SimAI 支持的主要运行模式:(1)SimAI-Analy...
小容量SRAM还是DFF? TSMC的28nm或40nm工艺,这个“临界点”通常是在1~2kbits左右。 零散知识点: get_selection:从GUI中点击某个位置可以查看对应位置cell的路径 net: net is a connection between cells/ports. cell:例化的第二个参数,也就是我们起的子模块名字,get_attribute...
硬件友好的高效softmax函数实现调研与分析 - 知乎 Flash Attention中softmax分块计算详解 - 知乎 How to write a fast Softmax kernel 补充一点GPU背景知识:一个warp有多个线程,如果这些线程访问的地址相互之间拼接起来是连续的,那么GPU可以将这些请求合并为一次访存操作 优化多线程访存,以及分块softmax的局部...