サクサク読めて、アプリ限定の機能も多数!
Layer NormalizationをDaynamic Tanhという変換で置き換えることで計算量が8%くらい削減できるという論文。8%は結構でかいな。
stealthinu のブックマーク 2025/03/16 19:04
このブックマークにはスターがありません。 最初のスターをつけてみよう!
arxiv.org2025/03/16
Normalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transformers without normalization can achieve the same or better ...
4 人がブックマーク・1 件のコメント
\ コメントが サクサク読める アプリです /
Layer NormalizationをDaynamic Tanhという変換で置き換えることで計算量が8%くらい削減できるという論文。8%は結構でかいな。
このブックマークにはスターがありません。
最初のスターをつけてみよう!
Transformers without Normalization
Normalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transformers without normalization can achieve the same or better ...
4 人がブックマーク・1 件のコメント
\ コメントが サクサク読める アプリです /