導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。 今回は、RAGの要であるEmbeddingの性能を大きく低下させてしまう、文章の特性について解説します。 このブログで紹介している内容は以下の論文を元に作成しておりますので、詳細はそちらをご確認ください。RAGを構成してみたが、どうしても正解の文章を取ってこれない!そんなときはもしかするとこの論文で紹介されているような文章になってしまっているかもしれません。 サマリー Embeddingは、RAGの検索能力の根幹に関わる機能ですが、そのの性能や特性についてはあまり知られてはいません。実は、保管するテキストの文体や分割方法次第で最大90%程度、検索性能が下がってしまいます。 今回紹介する論文では、Embeddingの性能を著しく下げるテキストの特徴を調べ、その性質についてまとめています。特に「文章の位置」、「使用する単語」、「文章量」
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、人工知能を促進することを目的とした国際的な学術団体「AAAI」(Association for the Advancement of Artificial Intelligence)が2025年3月に公開したレポート「AAAI 2025 PRESIDENTIAL PANEL ON THE Published March 2025 Future of AI Research」に注目します。 ▲レポートのトップページ このレポートはAAAI会長の指揮のもと25名のAI研
研究開発 量子コンピュータを用いた処方自動生成システムを開発 ハイブリッド型アルゴリズムによる計算の高速化と実用性の確立 2023.01.31 リリース全文 [ PDF / 535KB ] 株式会社コーセー(本社:東京都中央区、代表取締役社長:小林 一俊)は、量子コンピュータと従来型のコンピュータを組み合わせたハイブリッド型アルゴリズムにより、高速に動作する化粧品の処方自動生成システムを開発しました。本システムの適用例として、角栓除去能の高さを目標品質としたクレンジングオイル処方を自動生成したところ、安全に使用できる条件を満たしながら、これまでの一般的な処方よりも高い角栓除去能をもつ処方が得られました。今後、他の剤型など適用範囲を広げていきます。なお、このアルゴリズムについては関連する2件の特許を出願済みです。 研究の概要 量子コンピュータは次世代のコンピュータ技術として、幅広い産業におい
香港とボストンに拠点を置く人工知能(AI)を活用した創薬企業、Insilico Medicine(インシリコ・メディシン)が、香港の資産運用会社バリュー・パートナーズ・グループが主導した資金調達ラウンドで1億1000万ドル(約163億円)を調達し、ユニコーン企業の仲間入りを果たした。 インシリコは3月12日、今回のシリーズEラウンドで同社の評価額が10億ドル(約1480億円)を超えたと発表した。同社のこれまでの出資者には、米国のプライベートエクイティ大手のウォーバーグ・ピンカスや、中国の啓明創投(Qiming Venture Partners)、医療メーカーの無錫薬明康徳(WuXi)、以前はセコイア・チャイナとして知られた紅杉資本(ホンシャン)などが含まれる。 同社は、調達した資金をAIモデルの改良や、30種類にわたる候補薬の開発強化に充てるとしている。インシリコは2023年11月に、特発
JSTホーム 研究公正ポータル 取材レポート 第47回日本分子生物学会年会 研究倫理ランチョンセミナー 「最近の学術論文の動向:フェイク論文が増えている?学術的品質保証の必要性」取材報告 第47回日本分子生物学会年会が2024年11月27日から29日までの3日間、福岡市の福岡国際会議場とマリンメッセ福岡にて開催されました。年会では会員の研究倫理意識の向上に資するため、同学会の研究倫理委員会の主催により、研究倫理ランチョンセミナーが開催されました。 今回は11月28日に行われた研究倫理ランチョンセミナー「最近の学術論文の動向:フェイク論文が増えている?学術的品質保証の必要性」(座長:大谷直子氏)について詳細を報告します。 このセミナーでは、学術的品質保証における重要なポイントとして、主にデータの品質管理とデータの再現性について話題提供があり、パネルディスカッションでは研究データの品質保証のた
患者は8年以上も効果のない治療を受けさせられ、国民は無駄な社会保険料を払わされ続けてきた―。昨年(2024年)、再生医療早期承認制度によって「仮承認」を受けていた2つの再生医療等製品の「正式承認」が否決されたことを受け、名戸ヶ谷病院(千葉県)整形外科顧問の川口浩氏が日本の再生医療の実態を「暗雲が立ち込めてきた」と形容し、世界に告発した(Stem Cells Dev 2025年3月6日オンライン版)。日本の再生医療の在り方をめぐっては、Nature誌が「このままでは効果のない製品が日本国内に溢れる」と警告してきたが、同氏はそれが的中したことになると主張している(関連記事「化けの皮が剝がれた日本の再生医療」)。 4製品が仮承認により臨床の場に登場 日本の再生医療は、第二次安倍晋三政権が看板としたアベノミクスの経済成長戦略の1つに位置付けられ、国を挙げて推進することになった。その中核となる政策が
では、それぞれ見ていきましょう。 arXiv AI/ML関連における一次情報源として欠かせないのがarXivです。 しかし、最近はプレプリントの投稿数が爆発的に増加しており、そのままarXivを見に行くとノイズが多すぎて、本当に価値のある論文を見つけるのが難しくなっています。 学会のトップ論文をチェックするという手もありますが、査読プロセスを経るため情報がどうしても遅くなりがちです。 そこで役立つのが、新鮮な論文を適度にキュレーションしてくれるサービスです。ここでは特におすすめの3つを紹介します。 Hugging Face - Daily Papers AI界隈で有名なAKさんをはじめとするHugging Faceのメンバーが、arXivから毎日厳選した論文リストを公開してくれているサービスです。 土日はお休みしていますが、平日は結構な量(多い日だと40本程度)の論文が選定されています。こ
本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 本論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。 本論文の興味深いところ 本論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対
ほとんどのAIベンチマークはAIの出力精度(スキル)を測定するものですが、スキルはAIの知能を表すものではありません。スキルではなくAIの知能を測定するため、AIがスキルを効率的に習得する能力を測定するベンチマークが「ARC-AGI」です。そんなARC-AGIの開発者であるフランソワ・ショレ氏が立ち上げた「ARC Prize」が、話題の中国AI企業DeepSeekの最新推論モデルである「DeepSeek-R1」ファミリーについて分析しています。 R1-Zero and R1 Results and Analysis https://arcprize.org/blog/r1-zero-r1-results-analysis ARC Prizeの目標は汎用人工知能(AGI)に向けた新しいアイデアを定義・評価することです。そのため、ARC Prizeは可能な限り最強のグローバルイノベーション環境
「DeepSeek-R1」の概要をまとめました。 1. DeepSeek-R1「DeepSeek-R1」は、「DeepSeek」が開発した、オープンで高性能なReasoning能力を持つ大規模言語モデルです。2025年1月に発表され、OpenAIのo1と同等の性能を持つとされています。 ・deepseek-ai/DeepSeek-R1 特徴は、次のとおりです。 ・強力なReasoning能力 強化学習を用いた革新的なアプローチにより、特に数学や科学的推論において優れた性能を発揮。 ・オープン MITライセンスのもとで提供さている。 ・低コスト API価格が「OpenAI o1」の25分の1以下と、非常に低価格で利用できる。 ・長いコンテキスト長 最大128Kトークンのコンテキストを扱えるため、長文の処理や要約に優れている。 Webサイトと API が現在公開されています。今すぐ http:
はじめに 2025年1月、DeepSeek社が画期的な言語モデル「DeepSeek-R1」を発表しました。このモデルは、強化学習を中心とした革新的なアプローチにより開発され、OpenAI-o1-1217と同等の性能を達成しながら、完全なオープンソース化を実現しました。 DeepSeek-R1の特筆すべき点は、純粋な強化学習による訓練から始まり、段階的な改良を重ねることで高い性能を実現したことです。特に数学や科学的推論のタスクにおいて優れた成績を収めており、AIIMEやMATH-500などのベンチマークで印象的な結果を示しています。 さらに、このモデルは1.5Bから70Bまでの様々なサイズで提供され、MITライセンスによる公開により、研究目的から商用利用まで幅広い活用が可能となっています。本記事では、DeepSeek-R1の技術的特徴、性能評価、実用面での特徴について詳しく解説していきます。
海の目の前に建つ異色の酒蔵 日本酒の味は、水に大きく左右されると言われる。適しているとされるのは、伏流水や雪解け水だ。山地に降った雨や雪が地中に染み込み、地層に沿って流れる水だ。それらの水は地層によって濾過され、土壌のミネラル分を取り込む。カリウムやリン酸、マグネシウムを含む、酒造りに適した水質になっていくのだ。 ここまで読んで、酒蔵のある街をイメージしてほしい。「雪深い里山の麓、清水がたどり着く自然豊かな農村」みたいな風景を思い浮かべてはいないだろうか。実際、そんな風景のある東北は酒所として有名だ。 だが、取材に訪れたのは茨城県日立市。明治後期に日立鉱山が拓かれて以来高度経済成長の波に乗り、全国でも有数の工業都市として発展を遂げた海辺の街だ。しかも森島酒造があるのは、太平洋に面する川尻海水浴場からわずか70歩。潮風が漂い、髪が塩気を帯びるロケーションである。 「東京のど真ん中でもうまい酒
掲載料を目的にずさんな審査で論文を掲載する「ハゲタカジャーナル」とみられる粗悪な学術誌が、生成AI(人工知能)を使って「フェイク論文」を作成し、その著者として日本の研究者3人の名前を無断で使っていることが、毎日新聞の取材で判明した。3人はいずれも学術誌側との関係を否定。ハゲタカ誌による生成AI悪用の被害が日本人研究者に広がっていた。その狙いはどこにあるのか? 偽論文を載せていたのは、バルセロナとブリュッセルに拠点を置くと称する学術出版社。森林生態学や水管理などの分野の論文をウェブサイトで公開している。論文掲載前に査読(内容チェック)があるとしているが、ハゲタカ誌を発行している可能性のある世界の出版社について米国の専門家がまとめたリストに、同社も名を連ねている。 この学術誌が2012~24年に掲載した全352本の論文を調べたところ、少なくとも3本の著者が、実在する日本人研究者の名前になってい
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。通常は新規性の高い科学論文を解説しているが、ここでは番外編として“ちょっと昔”に発表された個性的な科学論文を取り上げる。 X: @shiropen2 米イリノイ大学アーバナ・シャンペーン校やカナダのカールトン大学などに所属する研究者らが2017年に発表した論文「A Systematic Review of Personality Trait Change Through Intervention」は、 パーソナリティー(性格)特性は治療などの介入によってどの程度変化するのかを調べた研究報告である。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く