网站地图官方微信:
网站首页 包装印刷加工 包装成型机械 折射仪 语音室成套设备 眼镜盒 文件柜

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 为什么Mac连个正儿八经的CAD都装不了还敢打着生产力的旗号? |

    土木老哥:WIN是生产力 机械老哥:WIN是生产力 建筑老哥...

    查看详情>>
  • | 5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何? |

  • | 现在谷歌好像已经把外链的价值降到很低了,seo还有存在的价值吗? |

  • | 为什么 Windows 没有比较成熟的第三方桌面环境(explorer.exe)? |

  • | 大家在广州的一天是怎么样的呢? |

  • | 苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗? |

  • | Rust的工程配置为何用toml格式? |

  • | 现在个人博客不能备案了吗? |

  • | NextJS的全栈能力现在如何了? |

  • | 除了厚重,你拒绝折叠屏的理由还有哪些?什么样的折叠屏才能打动你? |

  • | 你捡过最大的漏是什么? |

  • 曾经,自己在出租屋里,突然听到外面一生闷响,到窗口看,地面一...

    2025-06-27
  • 25.35万元的价格其实并不便宜,YU7也没有当初SU7那样...

    2025-06-27
  • Redis这玩意不用多说,J***a后端打工人就没有没接触过...

    2025-06-27
  • 主要是只有nodejs能实现一份代码前后端共用,省了不少事。...

    2025-06-27

关注我们

添加微信好友,关注最新动态