stealthinuのブックマーク - はてなブックマーク

Transformers without Normalization

Normalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transf ormers without normalization can achieve the same or better performance using a remarkably simple technique. We introduce Dynamic Tanh (DyT), an element-wise operation $DyT($x$) = \tanh(\alpha $x$)$, as a drop-in replacement for normalization layers in Transf orme

stealthinu 2025/03/16

Layer NormalizationをDaynamic Tanhという変換で置き換えることで計算量が8%くらい削減できるという論文。8%は結構でかいな。

リンク

エンジニアに許された特別な時間の終わり

社内勉強会向け

stealthinu 2025/03/15

ブコメで未だに使えないとか結局ツールとかいう認識に星集めてるがGPT4でたときからこの2年での進化の加速度をみるべき。2年後も同じこと言えてるか考えてみればいい。

リンク

Home | Cartesia

The platform for real-time, multimodal intelligence. Generate seamless speech, power voice applications, and fine-tune your own voice models on the fastest real-time AI platform.

stealthinu 2025/03/14

ワンショット音声だけで声のコピーできるサービス。

リンク

【決定版】 Claude 3.7 Sonnetで作成した図解やプレゼンをPowerPointで編集可能にする方法（HTML対応）｜Mavericks, Inc

Claude 3.7 Sonnetのデザインセンスは極めて高く、イケてる図解やスライドをポン出しで生成することができます。以下のような投稿を見て感動し、Claudeに課金して、ワクワクしながら試してみた方も多いのではないでしょうか。 Claude 3.7 Sonnetの図解デザイン能力、あまりにもすごい。 ㅤ バズった「グラレコプロンプト」を参考に作成した、 ㅤ 幅広く使える有益デザインプロンプト10選をまとめました👇🧵 pic.twitter.com/al5n7Udf3c — すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai) March 9, 2025 しかし残念なことに、生成された図解の編集は困難を極めます。Claudeに指示を出すことである程度は修正できるものの、言うことを中々聞いてくれずトークン切れにあったり、時間がかかりすぎて時短になっていなかったり、自

stealthinu 2025/03/14

ちゃんと知見が書かれてるポストだったので参考になった。これを元にdifyでフロー組めば自動化できるのでは。てかそれをv0とかがやってるとも言えるな。

LLM

リンク

Basic Memory | AI Conversations That Build Knowledge

stealthinu 2025/03/13

LLMとの会話をMCPでローカルにMarkdown形式で「記憶」するMCPサーバ。MarkdownだからObsidianとかといっしょに使える。単にツールとしてよさそうだし、LLMに「外部記憶」を実装する手段としてもよさそう。

LLM
MCP

リンク

1億円を不正送金された山形鉄道への音声フィッシングについてまとめてみた - piyolog

2025年3月12日、山形銀行を装った自動音声によるフィッシング（ボイスフィッシング）により山形鉄道が約1億円の詐欺被害にあったと報じられました。同様のフィッシング手口により山形県内の企業を中心に複数の被害が出ているとも報じられています。ここでは関連する情報をまとめます。信号機更新費が不正送金被害にフィッシング詐欺の被害にあったのは山形県内のローカル線であるフラワー長井線を運営する第三セクターの山形鉄道。被害額は約1億円にのぼることが筆頭株主である山形県より3月12日に開かれた議会総務常任委員会において明らかにされた。*1同社は鉄道運行への影響はない、山形県警へ被害相談中と取材に答えている。*2 同社に対して山形銀行を装った自動音声の電話があり、応答すると同行ヘルプデスクを名乗る人物より山形鉄道の担当者のメールアドレスが聞き出され、その後そのアドレスに対して山形銀行の偽のサイトにつなが

stealthinu 2025/03/13

初手だけ機械にやらせて実際の処理は人間の詐欺師がやってるのね。オレオレ詐欺もここまで進化したか…　LLMの進化で今ならこれを自動でできるようになってしまってるから、大規模化可能なのだよなあ。

リンク

RVCより新技術「SBV2」応用のAIボイスチェンジャーアプリ「リアボVC 」💜使用の際は若干早口で活舌よく話してください(ゆかりねっとを高速化&改良した様な仕組みのため) - poipoipoi - BOOTH

【老若男女誰でも現実の20代女性に声変わりしてLINEやVRCで通話できるようになる無料AIボイチェンアプリです】使用の際はハッキリ活舌よく話してください(ゆかりねっとを高速化した仕組みに近いです) RTX2070以下の場合、steam VRの解像度を0.6くらいに下げ、アバターを表示する数を設定で減らしてください ◈ 商品説明 ◈　マイクに向かってハッキリ活舌よく話すと綺麗に音声認識されて、うまく女子に声変わりできやすいです(高速化したゆかりねっとの様な仕組みです)boothにログインするのが面倒で本体を直リンクから今すぐダウンロードしたい方へ↓ 改善版v34 https://huggingface.co/ki8dyh45/VC-app-style-bert-vits2-10models-Riabo/resolve/main/RiaboVC-v34.7z?download=true 7

stealthinu 2025/03/13

リアルタイム変換なのにStyle-Bert-VITS2使う意味ってそんなあるんだろうか。一回テキストまで落としてから合成してるってあるけどそれでリアルタイム性確保はむつかしそう。ParavoとかBeatriceとは別方向っぽいのかな。

リンク

エンジニアと営業仲悪い問題について｜みずくん

話題のこれ https://t.co/54ThhkwVZh 新卒以来多くの社会人人生をエンジニアと営業と間の潤滑油として過ごしてきた身として出た結論は「営業とエンジニアを直接やりとりさせてはいけない。間にはいる専門職を置くべき」一般的にはエンジニアも営業もどちらも悪意はなくて、主な問題は 1.… — みずくん (@mizkun) March 7, 2025 いままでもそこそこバズったことはありますが、こんなに引用RTがついたのははじめてです。みんな営業とエンジニアが仲悪い話大好きやんけ！と思ったので、潤滑油だけで生きてきた経験をお裾分けできればと思った次第です。ちなみに元記事はこちら。重要なので最初に断っておきますが、本 noteはこのはてブの内容について議論する内容では一切ないです。ここでのエンジニアのメッセージの良し悪しとか、営業の人の行動についてとか論じるは気はありません。この

stealthinu 2025/03/11

これはいい内容だった。こういうことできる人いると確かに仕事がスムーズになるね。

リンク

産総研：日本語音声基盤モデル「いざなみ」「くしなだ」を公開

発表・掲載日：2025/03/10 日本語音声基盤モデル「いざなみ」「くしなだ」を公開－少量の日本語音声データで高性能な音声AIを構築可能に－ポイント豊かな感情表現を含む6万時間の日本語音声データから2種類の日本語音声基盤モデルを構築モデルの改良が容易な「いざなみ」と感情認識や音声認識の能力がより高い「くしなだ」を一般公開少量データを活用した音声AIの構築・普及に貢献国立研究開発法人産業技術総合研究所（以下「産総研」という）人工知能研究センター深山覚研究チーム長、緒方淳客員研究員は、高性能な音声AI構築に利用可能な2種類の日本語音声基盤モデル「いざなみ」「くしなだ」を公開しました。音声基盤モデルとは、音声データを処理・解析するための汎用的なAIモデルで、音声認識や音声感情認識などに応用が進んでいます。音声基盤モデルの構築には、対象とする言語やそれが使われるシーンを想定

stealthinu 2025/03/10

大規模データセット使った感情認識エンジン。オープンで使えるらしい。

リンク

日本語LLMを使えるAPIサーバーをローカルで動かす - HAROLABO Tech Blog

猫も杓子もLLMの時代、一家に一台はLLMサーバーを持っておかないといけません。というわけで、LLMを使えるAPIサーバーを立ててみました。準備 APIの使い方ストリーミングで使う日本語LLMはELYZAさんのLlama-3-ELYZA-JPを利用しました。 note.com huggingface.co Hugging Faceに記載されている通りに実行すれば、LLMをローカルで動かすことができます。 LM Studioというツールがあり、そのツールを使うと、モデルのダウンロードから、チャット利用、APIサーバーの起動までできますので、簡単に動かすことができます。準備 LM Studioをインストールする。 https://lmstudio.ai/ 左メニューからDeveloperを選択し、APIサーバーモードにする。モデルをダウンロードする。上部のSelect a mod

stealthinu 2025/03/10

LM StudioでOpenAI API互換のAPIを動かすには左下のモードを「Developer」にするだけでいいみたい。設定とかで行うのかと思ってたわ。

リンク

PostgreSQL と PgAdmin4 を Docker Compose で立ち上げる

PostgreSQLをDockerで立ち上げた際に、psqlだけではなくPgAdminでも操作できるように、Docker ComposeでPgAdminも一緒に立ち上げます。 PgAdminは、Docker Imageとしても提供されているので、それを利用します。 Container Deployment — pgAdmin 4 8.5 documentation Docker Compose の設定 PostgreSQL、PgAdmin共に現時点(2024年4月)での最新を利用します。 docker-compose.yml は下記のようになりました。 version: '3.8' services: db: image: postgres:16 ports: - "5432:5432" restart: always environment: POSTGRES_USER: user PO

stealthinu 2025/03/07

pgadminのdocker。お手軽にdocker内のpostgresデータを確認するために。

リンク

32Bなのに「DeepSeek R1」フルモデルと同性能？　アリババがAIモデル「QwQ-32B」公開

Alibabaは公式Webサイトで、DeepSeek R1-6710やo1-miniなどとの性能比較表を公開。QwQ-32Bは、数学やコーディング、一般問題の解決能力で他社の主要AIモデルよりも同等かそれ以上の性能を発揮したとしている。今回のAIモデルの開発においてAlibabaは、強化学習（最適な結果を得るためにAIを訓練させる手法）のスケーリングに注目した。初めに数学とコーディングタスクに特化した強化学習を実施した後さらに、一般問題の解決能力を上げるべく、もう1つ強化学習のフェーズを追加した。これにより、数学とコーディング能力を大幅に下げることなく、一般問題の解決能力を上げることができたという。このことからAlibabaは「より強力な基礎モデルとスケーリングした計算リソースによる強化学習を組み合わせることで、汎用人工知能（AGI）の実現に近づけると確信している」と説明。今後は推論時

stealthinu 2025/03/07

これローカルでQ4の動かしてみて衝撃だった。ほんとに同性能くらいありそう。まさかGPT-4から2年でローカルでこの性能が出せる日が来るとは…　知能って思ってた以上にリソース少なくて良かったんだな…

リンク

Anthropic’s Recommendations to OSTP for the U.S. AI Action Plan

stealthinu 2025/03/07

AnthropicもAGIについての公式な見解出してきた。あと2年（2026末）との予想。他の人らの予想も合わせて、自分の予想よりも1年前倒しっぽい。

リンク

Beatrice VST の遅延を実測した話

こんにちは。GokRackこと極落にんじんです。某社で主にリアルタイムの音響信号処理の技術開発をやってます。先日、プライベートでAI声質変換 Beatrice v2 を使って十全に遊ぶために、VST版のBeatriceに話者モデルのマージ機能 (Voice Morphing Mode)を(勝手に)実装させて頂きました。この間、Beatrice の公式の作者(prj_beatrice)さんが処理遅延の話をしている記事を見かけました。私これでも一応リアルタイム音響信号処理で10年以上禄を食んできた身。こういう話を見ると実測でどうなっているのかを自分でも確認してみたくなります。というわけでこの記事は、手持ちの機材で Beatrice v2 VST版の遅延時間の測定をやってみたよ、そしたら(私の環境では)ほぼ公称値通りの0.05秒で動いていたよ、という話となります。遅延の測定対象につい

stealthinu 2025/03/07

Beatriceすごいな。ほんとに遅延が少ない。

リンク

DjangoのCeleryで非同期でタスクを実行して、モニタリングする環境をDockerで構築する

Pythonで非同期処理をやる場合はCeleryを使うのが定番です。今回はceleryを試しに動作させるための環境をdocker-composeを使って簡単に作る方法をご紹介し、Django上で動作するように環境構築します。以前、昔にnoteに書いた以下の記事の応用や焼き直しのような内容です。（随分昔に書いた懐かしい記事）基本的に使用するツール類今回は以下の4つを使用します。それぞれ別なコンテナで動作させるため、本番の運用などでは、別々なサーバーで動作させることを想定しています。 redis (キューを動作させるためのBroker) celery (Pythonのタスクキューサービス、別なプロセスで動作させる) django (PythonのWEBフレーワーク、ここからceleryに対しタスクを投げることになる） flower (celery内にあるタスクを監視するためのツール、

stealthinu 2025/03/07

Celeryで非同期タスクを動かすためのチュートリアル的なもの

リンク

Roo CodeとClineはどう違うのか

前提 Roo CodeがClineのフォークという程度には知られている。Roo Codeを好んで使っているユーザーがいるがどんな違いがあるのかというのが気になっていたので調べた。結論としては「Rooは個人が趣味で実験的な機能モリモリ入れた改造版で、Clineが事業としてやっていこうとしているオリジナルな製品」機能面は両方インストールしてもらえばすぐ分かるので背景的な情報とか内部設計とかをピックアップした。画面 Roo Code Cline ユーザー数：Cline>Roo Code これはマーケットプレイスとGitHub、Discordを見るとわかる。ざっくりと４：１開発者数：Cline>Roo Code Clineは会社化して採用してる GitHub上でいろんな人が活動してるエンタープライズでマネタイズするらしい MetaからClineに転職した人とかいる Rooはメインの二人

stealthinu 2025/03/06

Reclineはもうだめなのか…　とりあえず本家CLINEに移行するか。

リンク

色々なことをClineにやらせてみた - karaage. [からあげ]

AIエージェント最近、LLMエージェントのイベントにゲストで登壇しましたが、流行りのAIエージェントに私も注目しています。特に、最近よく使っているのがCline（Roo Code）というAIコーディングツールです。Clineの概要や、環境の構築方法・使い方に関しては以下記事にまとめました。 Clineは、もちろんコーディングに使っているのですが、ClineだとAIがVS Codeのターミナルを通じて、好きにコマンドを実行することができるので、実はコーディングだけじゃなくて、色々なことが出来て面白いです。この記事では、Clineでコーディング含めて色々やらせてみた内容を簡単に紹介します。コーディングタワーディフェンスゲームとか、一瞬で作ってデプロイしてくれます。あとは、最近音楽ソフトもつくってYouTube配信とかもしています。 karaage.hatenadiary.jp マリ

stealthinu 2025/03/06

『ChatGPT自体はそこまで大きく変わらず、ClineなどのAIコーディングツールが実現している』同意。LLM性能向上もあったがプロンプトやツールの呼び出し方の工夫も大きい。

リンク

AIコーディング時代の開発環境構築：VS Code × Cline（Roo Code）で爆速開発！

AIコーディング時代の到来 AIを使ったコーディングが話題になっていますね。私も個人のプロジェクトやデモで実験的に使っていますが、ちょっとしたアプリやツールなら、それこそ人間には不可能な速度で爆速で開発することができるようになり、その体験に驚き興奮しています。一方で「そんなに便利に思えない」とか「Cline(Roo Code)、Cursor、Windsurf、GitHub Copilot等たくさんAIによるコーディングサポートツールが出てきていて、どれを使えばよいのか分からない」という理由で、なかなか利用に踏み出せない人も多いのではないでしょうか？私が、ツールをいくつか試してみて感じたのは、それぞれのツールごとの使い勝手の違い、メリット・デメリットはありますが、開発の方向性としては共通していることです。それは、多くのツールがAIがCopilot（副操縦士）からPilot（操縦士）として振

stealthinu 2025/03/05

からあげ氏のCLINEのおすすめ使い方。色々と参考になる情報が多い。自分もテンプレート作っとくべき。

リンク

なぜ「」「」や（「」）で文字が重なってしまうのか。 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 本記事は、テキスト入力フォームで約物（日本語の文章における、カッコや点などの記号のこと）が重なってしまう現象について、その理由を記載しただけの記事です。解消することを目的としません。ただ、理由が分からないとモヤモヤしますよね。すこし前の私と同じようにモヤモヤしている人は、続きを読んでいただき、「だから重なっていたのかー！」とスッキリしていただければと思います。事象 - 文章の「美しさ」を損ねるまずは、事象について再現してみます。特に発生しやすいケースは以下の 3 つでしょうか： ①「」「」とカッコが続く場合 ②箇条書き（・）