Layer NormalizationをDaynamic Tanhという変換で置き換えることで計算量が8%くらい削減できるという論文。8%は結構でかいな。

stealthinustealthinu のブックマーク 2025/03/16 19:04

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Transformers without Normalization

    Normalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transformers without normalization can achieve the same or better ...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう