网站地图官方微信:
网站首页 汤池镇 黎里镇 葛岭镇 于里镇 汇湾镇 柑子乡

当前位置: 首页 >

为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?

  • | 显示器选32还是27,2k还是4k? |

    依我之见,32英寸在大部分时候优于27英寸,除非桌子太小不适...

    查看详情>>
  • | 请问有没有什么工具能够生成局域网的网络拓扑结构图? |

  • | j***a 使用 pgsql 好用吗?和 mysql 区别大吗? |

  • | ***拍大尺度片子时摄影师不会看光吗? |

  • | 镶嵌在网页里的pdf文件,禁止复制,禁止下载,禁止打印。如何破之? |

  • | 为什么当今 Web 应用不都***用 WebSocket 形式进行数据交互? |

  • | 电视支持4K120hz,为什么连接电脑后4K下最高只能选择60hz? |

  • | 不限制语言,客户端GUI开发用什么好? |

  • | 为什么 Go 语言的 Error Handling 被某些人认为是一个败笔? |

  • | 有没有一款音乐播放器,能连接nas音乐,创建音乐库,自动匹配歌词封面等等?类似infuse的概念呢? |

  • | 为什么 CRT 画质这么好也被淘汰,液晶反而发展的很好? |

  • 看的你的作品第一眼,就知道你没系统的学过设计,或者设计基础很...

    2025-06-25
  • 前几天知识星球中有个提问,关于 RAGFlow 的聊天助手回...

    2025-06-25
  • goroutine 这个号称最适合开发网络应用的东西用在客户...

    2025-06-25
  • 移动设备这种东西,大家总是能少带一个就少带一个。 智能手机的...

    2025-06-25

关注我们

添加微信好友,关注最新动态