网站地图官方微信:
网站首页 东胜乡 采桑镇 解放区 紫云镇 茨河镇 白柳镇

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 闲鱼上为什么会有人问都不问直接下单? |

    之前遇到一个东北的卖家,买的我爸爸编的竹篮子,运费都比竹篮子...

    查看详情>>
  • | 维护一个大型开源项目是怎样的体验? |

  • | 北京语言大学张爱玲教授被清华树木砸中逝世,清华回应系绿化养护人员违规作业所致,事故责任该如何划分? |

  • | 如何使Windows上安装的Macos虚拟机流畅运行? |

  • | 为什么运维都这么难招? |

  • | 如何使用hexo+github搭建华丽博客 ,类似***://codingxiaxw.cn/的博客? |

  • | 如何看待《捞女游戏》(已改名为《情感反诈模拟器》)定档 6 月 19 日? |

  • | 为什么负荷那么大的腰部力量训练的人不会受伤,长期无载荷久坐的人会出现腰肌劳损? |

  • | Gemini 2.5 Flash 和Pro稳定版上线,和之前版本相比,在性能和应用场景上有哪些提升? |

  • | 降维打击是什么? |

  • | rust 解决了什么问题? |

  • 工作层面上,全是我一个人干。 1,有几个项目是直接用 ru...

    2025-06-21
  • FF 标志由 “Faraday Future” 两个单词的首...

    2025-06-21
  • 正常,iOS7的时候也说丑,甚至比现在更甚。 但是...

    2025-06-21
  • 随便说点 手机码字 底层用的是 radix 这玩意相当于就是...

    2025-06-21

关注我们

添加微信好友,关注最新动态