「音声変換の学習に時間がかかり過ぎだ・・・」 「so-vits-svcよりも性能の音声変換技術を探している」 このような場合には、RVCがオススメです。 この記事では、RVCによる音声変換について解説しています。 本記事の内容 RVCとは?RVC WebUIのインストールRVC WebUIの利用方法 それでは、上記に沿って解説していきます。 RVCとは? RVCとは、Retrieval-based-Voice-Conversionの略称です。 現時点(2023年4月)では、このRVCが最新の音声合成技術と言えます。 つい最近まで、この分野ではso-vits-svcという技術が最新だったはずなんですけどね。 RVCは、so-vits-svcよりも性能が良い言われています。 RVCの性能については、次の音声で確認できます。 岸田首相の声を人気声優の声に変換しています。 なお、人気声優については
米Microsoftは、機械学習ライブラリ「PyTorch」を使った、初学者向けのディープラーニングの教材を公式Webサイトで無償公開している。対応言語は英語のみだが、4時間13分で機械学習モデルの構築方法や自然言語処理、音声認識の概要などを学べるという。教材の利用に、外部ファイルのインストールは不要。Webページのみで完結する。 PyTorchは、米Facebookが2016年に開発したPython向けのオープンソースの機械学習ライブラリ。Microsoftは、2020年にWindows版PyTorchのメンテナーに就任し、2021年5月には「PyTorch Enterprise」を発表。Microsoft Azure上でPyTorchを使う企業へのサポートサービスの提供を始めていた。 無償公開している教材もMicrosoftとPyTorchが提携して作成しており、今後も企業とユーザー、
今回の目的 前回は、青空文庫のWebサイトから梶井基次郎の小説データを取得して、そこから本文のデータを抽出する方法を見ました。今回は、自然言語処理で扱いやすいように分かち書きをするための準備をします。 ところで、自然言語処理とはもちろん私たちが日常的に使っている言葉(ここでは日本語としましょう)をコンピューターに処理させることです。その結果、コンピューターに入力された言葉からは、何らかの情報が取り出されます。何らかの情報とは例えば地名や製品名、ランチの注文かもしれませんし、ユーザーがしたい何かのアクションかもしれません。あるいは、入力された言葉が、全体として肯定的なものなのか、否定的なものなのかを判断するといったことも考えられます。 いずれにせよ、こうした処理を行うには、入力された言葉をさまざまな段階を踏んで解析する必要があるでしょう。 例えば、「くるまでまつ」という文について考えてみます
今回の目的 前回までは画像処理についていろいろと試してきました。今回からは数回に分けて、自然言語処理(Natural Language Processing)について学んでいく予定です。ここ数年、機械学習の世界においてはTransformerやGPT-x、BERTなどなど、さまざまな技術が生み出されて、自然言語処理の分野が活況を呈しています。その適用領域も翻訳、文章の要約、感情分析、チャットボットなどなど、幅広いものです。 そうした中で、取りあえず今回からは青空文庫から著作権の切れた作品を学習データとして、文章生成を行うことを目的として、自然言語処理にまつわるさまざまな要素を学んでいくつもりです。
0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、
AIが生成するリアルなのに実在しない人の顔画像がネットをにぎわす昨今、ディープラーニング(深層学習)で手書きの顔を現実的な画像にするアプリが脚光を浴びている。 このアプリは、フリーハンドでざっくり描いた似顔絵からおそろしくリアルな顔画像がリアルタイムで生成されるもので、完成度が低い絵からもイメージに近い顔が作れるという。 それって顔?ってレベルの線画でも、うまいこと特徴をおさえた顔になるからもうびっくり!絵心がない人にもやさしげな最新アプリの仕事っぷりがすごすぎた。 DeepFaceDrawing: Deep Generation of Face Images from Sketches 絵が苦手でもリアルな顔を作れるアプリDeepFaceDrawing こちらは香港城市大学と中国科学院の研究者が共同で開発したDeepFaceDrawingのデモ映像だ。彼らはディープラーニング(深層学習)
今回公開された学習コンテンツには、データサイエンティスト育成コースやG検定対策に役立つ模擬試験のほか、ディープラーニング入門講座、Python入門講座など「E資格」取得に受講が必要な、「JDLA認定プログラム」(高等教育機関や民間事業者が提供する教育プログラムで、JDLAが別途定める基準およびシラバスを満たすもの)の一部が含まれている。 対象者は、新型コロナウイルスの感染拡大により、不要の外出を控える社会人や学生。なお、学習コンテンツは以下の通り。 G検定模擬テストと公式例題解説(Study-AI株式会社) G検定対策講座(Study-AI株式会社) ビジネスへのAI活用を見据えたAIビジネスコースの一部(株式会社AVILEN) 実務レベルのデータサイエンティストを育成する開発コースの一部(株式会社AVILEN) 機械学習のためのPython入門講座(スキルアップAI株式会社) 現場で使え
These notebooks cover an introduction to deep learning, fastai, and PyTorch. fastai is a layered API for deep learning; for more information, see the fastai paper. Everything in this repo is copyright Jeremy Howard and Sylvain Gugger, 2020 onwards. A selection of chapters is available to read online here. The notebooks in this repo are used for a MOOC and form the basis of this book, which is curr
ディープラーニングで自撮り画像をアニメ画像に画風変換してみました。試した理由などは、以下ブログ記事参照下さい。この記事では、具体的な実現方法を解説していきます。 ディープラーニングでアニメドラえもんの「うそつきかがみ」を再現してみた 以下のGitHubのリポジトリにあるソフトと学習済みモデルを使うと、自撮り画像をアニメ画像に画風変換することができます。 taki0112/UGATIT 学習から推論までできる素晴らしいソフトなのですが、単純に画風変換やりたい場合、ちょっと使い方が煩雑だったり、動画に対応させたかったりしたので、以下の3点を自分用に改造しました。 セットアップを簡単にした 自動的に顔周辺の画像を抜き出し 動画に対応 改造したリポジトリは以下となります。 karaage0703/UGATIT 以下使い方を説明していきます。環境は、Mac/LinuxとJetson Nanoを想定し
高専生が「ものづくりの技術」と「ディープラーニング」を活用した作品によって生み出される「事業性」を競う「全国高等専門学校ディープラーニングコンテスト2019(以下 DCON2019)」が、グローバルサミット「AI/SUM(アイサム」内で開催された。 当日は全国の高専から選抜された8チームがピッチを行った。優勝したのは長岡工業高等専門学校 長岡高専プレラボチームだ。 バリュエーションは4億円、投資総額は4,000万円本戦に出場したチームは以下の通り。 ピッチでは、審査員となるベンチャーキャピタルが、ピッチ内容から投資を検討するか否かを◯か✕かで判断。イベント最後の表彰式で、仮想のバリュエーションと投資額が発表され、最も高い評価額が大きいチームが優勝となる。 最優秀賞を獲得した長岡高専プレラボチームの作品は、製造業などで使用されるアナログメータの値を、ラズペリーパイなどを活用したエッジデバイス
この記事は eeic (東京大学工学部電気電子・電子情報工学科)その2 Advent Calendar 2018 - Qiita の13日目の記事です。 1. なにをしたいの? 本記事は、小説を書くことができない人間がなんとかして自力(?)で小説を生み出すために試行錯誤した記録です。 リカレントニューラルネットワークの一種である多層LSTMを用いて、「小説家になろう」に投稿された小説の「言語モデル」を学習し、学習したモデルをもとに実際に小説を自動生成します。 「御託はいいから生成された文章を見せろ」という人はこの記事の10章に飛ぶか、https://ncode.syosetu.com/n7444fc/ を見てください。 2. 「小説家になろう」とは https://syosetu.com/ 誰でも無料で小説を投稿、閲覧することができるWEBサイトです。 独自の文化を形成しており、主に異世界
This document summarizes recent advances in single image super-resolution (SISR) using deep learning methods. It discusses early SISR networks like SRCNN, VDSR and ESPCN. SRResNet is presented as a baseline method, incorporating residual blocks and pixel shuffle upsampling. SRGAN and EDSR are also introduced, with EDSR achieving state-of-the-art PSNR results. The relationship between reconstructio
「いつか勉強しよう」と人工知能/機械学習/ディープラーニング(Deep Learning)といったトピックの記事の見つけてはアーカイブしてきたものの、結局2015年は何一つやらずに終わってしまったので、とにかく一歩でも足を踏み出すべく、本質的な理解等はさておき、とにかく試してみるということをやってみました。 試したのは、TensorFlow、Chainer、Caffe といった機械学習およびディープラーニングの代表的なライブラリ/フレームワーク3種と、2015年に話題になったディープラーニングを利用したアプリケーション2種(DeepDream、chainer-gogh)。 (DeepDreamで試した結果画像) タイトルに半日と書きましたが、たとえばTensorFlowは環境構築だけなら10分もあれば終わるでしょうし、Chainerなんてコマンド一発なので5秒くらいです。Caffeは僕はハ
ディープラーニングを応用したGAN(敵対的生成ネットワーク)により、 高解像度(1024×1024)のアイドル顔画像を安定して生成することに成功株式会社データグリッド(本社:京都府京都市左京区吉田本町36-1 京都大学国際科学イノベーション棟西館1階、 代表取締役社長 岡田侑貴、以下「データグリッド」)は、研究開発として「アイドル自動生成AI」を開発いたしました。 1. 開発の背景・目的 データグリッドは「AIと共に創造する社会を実現する」をビジョンに、価値あるコンテンツを生成するクリエイティブAIの開発を行っております。これまで、AIがクリエイティブな活動を行うことは難しいとされてきましたが、近年AIによる生成技術が活発に研究されており、その精度は飛躍的に向上しております。そこで、クリエイティブAIの開発を加速するために、画像生成分野における最新の研究成果を応用し、アイドルの顔画像生成に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く