网站地图官方微信:
网站首页 沙城镇 朴席镇 河市镇 吞盘乡 桑镇 阎家乡

当前位置: 首页 >

为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?

  • | 国产数据库有什么坑? |

    近日, Fauna DB在其***发布了一则公告, The ...

    查看详情>>
  • | 为什么MIPS架构的路由器CPU能实现比X86高很多的网络吞吐量? |

  • | 我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗? |

  • | 大家有什么烧钱的爱好吗? |

  • | 为什么越来越多的 SSD 不带片外缓存了? |

  • | 评价一下Proxmox VE与ESXi的优劣? |

  • | 镇江是一个什么样的城市? |

  • | 为什么台式 PC 还处在组装(DIY)阶段? |

  • | 如何评价***伊内斯·特洛奇亚的身材? |

  • | 为什么用 electron 开发的桌面应用那么多? |

  • | 程序员如何用好 Cursor 工具? |

  • 对这行文字并不感到大惊小怪,但这个问题的提法不免有引战之嫌。...

    2025-06-22
  • 和老公不戴套一年多,一开始小袜子小衣服都买了好几套,各种颜色...

    2025-06-22
  • 2024年5月,德国之声报导,从2016年至今的8年,瓜达尔...

    2025-06-22
  • 真不用听鱼圈那些知其然不知其所以然的大聪明告诉你过滤不够ba...

    2025-06-22

关注我们

添加微信好友,关注最新动态