Layer NormalizationをDaynamic Tanhという変換で置き換えることで計算量が8%くらい削減できるという論文。8%は結構でかいな。

stealthinu のブックマーク 2025/03/16 19:04

<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="/load/view.php?a=aHR0cHM6Ly9iLmhhdGVuYS5uZS5qcC9lbnRyeS80NzY3NjUyNjY3OTQzNTQxMjgxL2NvbW1lbnQvc3RlYWx0aGludQ" data-user-id="stealthinu" data-entry-url="https://b.hatena.ne.jp/entry/s/arxiv.org/abs/2503.10622" data-original-href="/load/view.php?a=aHR0cHM6Ly9hcnhpdi5vcmcvYWJzLzI1MDMuMTA2MjI" data-entry-favicon="https://cdn-ak2.favicon.st-hatena.com/64?url=https%3A%2F%2Farxiv.org%2Fabs%2F2503.10622" data-user-icon="/users/stealthinu/profile.png">Transformers without Normalization</a><ul class="comment-tag" style="list-style: none; margin: 0px;"><li style="float: left">[<a href="/load/view.php?a=aHR0cHM6Ly9iLmhhdGVuYS5uZS5qcC9xL2RlZXBsZWFybmluZw">deeplearning</a>]</li><li style="float: left">[<a href="/load/view.php?a=aHR0cHM6Ly9iLmhhdGVuYS5uZS5qcC9xL0xMTQ">LLM</a>]</li></ul><br><p style="clear: left">Layer NormalizationをDaynamic Tanhという変換で置き換えることで計算量が8%くらい削減できるという論文。8%は結構でかいな。</p><a class="datetime" href="/load/view.php?a=aHR0cHM6Ly9iLmhhdGVuYS5uZS5qcC9zdGVhbHRoaW51LzIwMjUwMzE2I2Jvb2ttYXJrLTQ3Njc2NTI2Njc5NDM1NDEyODE"><span class="datetime-body">2025/03/16 19:04</span></a></blockquote><script src="/load/view.php?a=aHR0cHM6Ly9iLnN0LWhhdGVuYS5jb20vanMvY29tbWVudC13aWRnZXQuanM" charset="utf-8" async></script>

このブックマークは合計

のスターを獲得しています！

このブックマークにはスターがありません。
最初のスターをつけてみよう！

Transformers without Normalization

arxiv.org2025/03/16

Normalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transf ormers without normalization can achieve the same or better ...

4 人がブックマーク・1 件のコメント

他のコメントを読む

＼コメントがサクサク読めるアプリです／

はてなブックマーク

Transformers without Normalization

はてなブックマーク

公式Twitter

はてなのサービス