mi141 @mi141 Twitter profile | Pikagi

Pikagi

mi141

@mi141

3,863

Followers

207

Following

439

Media

4,486

Statuses

どこぞの研究所で機械学習やら画像処理やらの研究をしています。社会人博士を無事に修了しました（2021.3）。機械学習全般に興味がありますが、最近のお仕事は主に深層学習。転職したので日本橋の某IPには出没しなくなりました。

Joined June 2008

Don't wanna be here? Send us removal request.

Pinned Tweet

@mi141

mi141

3 years

「少ないデータやラベルを効率的に活用するための機械学習技術」という動画シリーズの投稿を始めました。色んな技術（データ拡張、正則化、転移学習、ドメイン適応、メタ学習、半・弱教師あり学習）を幅広く紹介するので、この分野を短時間で俯瞰したい人は是非。

Tweet card media

【Deep Learning研修（発展）】少データ・少ラベル学習

【Deep Learning研修（発展）】はディープラーニング・機械学習に関する発展的な話題を幅広く紹介する研修動画シリーズです。Neural Network Consoleチャンネル（https://www.youtube.com/c/NeuralNetworkConsole）でもディープラーニングに関するより...

www.youtube.com

1

110

531

Last Seen Profiles

@adinkolansky

@GreyWallis96991

@bokeplokalmalam

@Hotwolfffff

@Aliqulifc

@invictusgamesNG

@monalisasmile93

@CarlesTgna

@bokeplokalmalam

@Fatima_cha49933

@tomiiide

@X_AZEEZ3

@gemsays

@Veekid

@aryaputra1998

@CastPrep

@britain616

@S_Mis_IRIAM

@KylePGraphics

@hoshi10202

@Kasane_CT

@Papodecriaa1

@Bigmusclenm

@epichedeadmeme

@TaylorYablonski

@hiro_akihabara1

@bapi22740

@heritage4peace

@dimvladkost

@smueller01

@DinoneverbowD

@Norman_Era_

@GSmybaby

@LuisFerQuintero

@SukaIbuIbuTua2

@StarzGold_Bunn

@mi141

mi141

2 years

Googleから凄い論文が出てますね。拡散モデルを数枚でちょっとfinetuneするだけで、「あなたのワンちゃん」を生成画像内に自由に登場させられます！　StableDiffusionでやる人めっちゃ出てきそう。原理としては対象に新しいwordを割り当ててモデルをfinetuneするようです。

Tweet media one

1

839

3K

@mi141

mi141

2 years

GANを越える生成モデルとして注目されている拡散モデルの解説動画を作りました。たぶん日本語の資料の中では最も丁寧に説明したと思ってます。理論的にも応用的にも魅力の多い技術なので、生成モデルに興味がある方に（ついでにこの研修動画シリーズ自体も）オススメです！

Tweet media one

0

208

1K

@mi141

mi141

11 months

これはシンプルに草（Google DeepMindの方からの招待講演）

Tweet media one

Tweet media two

6

270

1K

@mi141

mi141

2 years

まあ買わざるを得なかったですよね… とりあえずぱらぱら眺めたんですが、拡散モデルとスコアベース生成モデルとの関係を中心に据えた解説になっていて見通しが良さそうです。あと、式展開が結構丁寧なので、国際会議の論文では省略されがちな話がちゃんと確認できるのが良さそう…

Tweet media one

0

81

618

@mi141

mi141

1 year

こちらの論文、なんとbest paper awardを受賞しました！（社会人１年目の研究で、拡散モデルとかいう超レッドオーシャンで、CVPRのworkshopで発表してベストペーパーって、最近の若者は強いですね…）

Tweet media one

@mi141

mi141

1 year

CVPR2023のworkshopにて、共著論文の発表（oralで採択）があります。拡散モデルを使った高品質＆精緻な画像編集を、高速＆省コストに実現する方法を提案しています。ご興味のある方はぜひ！（ちなみに筆頭は昨年度の新人で、初年度に取り組んだ研究をまとめたものです）

Tweet media one

0

18

139

2

86

558

@mi141

mi141

2 years

拡散モデルの高速化に関するサーベイ動画を公開しました。ほっとくとめっちゃ遅いので、重要な研究テーマです！ついでにスコアベース生成モデルやSDE/ODEとの関係も解説してます。拡散モデルは理論がめっちゃ面白いのに日本語解説をなかなか見かけないので是非！

Tweet media one

Tweet media two

Tweet media three

Tweet media four

1

109

542

@mi141

mi141

2 years

DALL-E 2の解説動画を作りました。コアとなるアイデア自体は、CLIPの逆処理ということでシンプルです。一方、拡散モデルの応用として見ると、ベースラインとして有名なDDPMから、３つの壁を破る道のりをたどったモデルになっています。動画ではまとめて説明しているので是非！

Tweet media one

Tweet media two

1

94

523

@mi141

mi141

7 months

Soraがすごすぎるのでblogを読んだんですが、手法としての目新しさはほとんどなくて、やっぱりスケールが効いてる感じですね。ただ、すんごい細かいところで気になるところがいくつかあるので、備忘のために列挙します（続）

Tweet card media

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect...

1

82

489

@mi141

mi141

1 year

GPT/ChatGPTをベースに、複数の外部API（他の基盤モデルなども）をうまく使いこなして様々なタスクを解く手法に興味があったので・Toolformer ・Visual ChatGPT ・HuggingGPT ・（下図はこれ）あたりを読みました。主に知りたかったのは、APIの使い方をどのように学ぶかです

Tweet media one

3

76

476

@mi141

mi141

2 years

どこよりも早い（？）CVPR2022の参加報告動画が公開されました！ Vision最先端技術のトレンド分析から始まり、・Vision Transformer ・自己教師あり学習・NeRF の３つにフォーカスして紹介しています。重要な技術トレンドを30分でつまみ食いできるので、是非ご覧下さい！

Tweet card media

【学会聴講報告】CVPR2022からみるVision最先端トレンド

この動画では、Computer VisionのトップカンファレンスであるCVPR2022の概要や発表動向について解説します。【目次】00:00 - Intro00:27 - CVPR2022学会概要01:50 - トレンド分析05:14 - 技術トピック① Vision Transformers16:50 - 技...

www.youtube.com

0

86

479

@mi141

mi141

2 years

拡散モデルについて知るためのコンテンツが揃ってきたので、ちょっとまとめてみます。まずは、拡散モデルの基礎

Tweet media one

Tweet media two

1

78

471

@mi141

mi141

9 months

素晴らしいチュートリアルだった。パラメータ数を増やしていったときに、過学習を起こしつつも汎化性能が良くなる『良性過学習』の理論についての解説。最低限の数式で直感的な説明を徹底していてすごい。とにかくnearly-orthogonalが全てを解決する…（？） ↑資料は公開済

1

52

447

@mi141

mi141

2 years

先日から話題沸騰しているテキストからの3D生成（DreamFusion）について、弊チームの新人くんが爆速で解説動画を作ってくれました！テキストから画像を生成する拡散モデルを使って、任意のテキストに沿った物体・シーンのNeRFを獲得できます。こちらもインパクト凄いです…

Tweet media one

Tweet media two

0

98

429

@mi141

mi141

2 years

ほぼ同じタイミングで拡散モデルのサーベイが２本公開されてます１本目は画像に特化して事例をたくさん知りたい場合、２本目は拡散モデルを基礎から幅広く把握したい場合にオススメ！特に後者の最後、他の生成モデルとの関連はとても面白いです。

1

62

370

@mi141

mi141

2 years

少データ学習の研究動向についての動画です（SSII2022での講演の再録）。主な内容は以下です。・転移学習の全体的な説明・自己教師あり表現学習・test-time adaptation / source-free domain adaptation 動画最後におまけでオススメの関連資料や動画のリストがあります！

Tweet card media

【SSII2022講演】少ないデータを効率的に活用する機械学習技術

少ないデータやラベルを用いた機械学習に関する最先端の技術動向解説を行っています。SSII2022の技術動向解説セッションで講演した内容の再録となります。最後のページで紹介している動画へのリンク：＜DL研修＞https://youtube.com/playlist?list=PLbtqZvaoOVPBF8MypuG...

www.youtube.com

0

50

365

@mi141

mi141

2 years

何かの参考になれば…

Tweet media one

@tmaehara

™

2 years

知らないうちに self-supervised learning の理論がずいぶん進歩してて驚いた。どなたか現在の理解を教えてください……。

1

5

72

1

36

352

@mi141

mi141

9 months

NeurIPSの招待講演を聞いて初めて知ったんですが、Transformerに次に来るモデル構造は何だ的な話、最近また進展があったんですね。ついにperplexityの意味でもTransformerを追い抜いて、性能が良いのに爆速みたいな状況に見えます。年末年始に論文読むか…

Tweet media one

Tweet media two

0

51

351

@mi141

mi141

2 years

TransformerはCNNよりも入力に対する摂動にロバストだよ ↓ 分布外データには強いけど、敵対的摂動には大して変わらんよ ↓ やっぱり分布外データに対しても変わらんよ ↓ 私「もうなんもわからん」

1

52

344

@mi141

mi141

1 year

そういえば同僚が昨��講演した内容（拡散モデルの基礎と応用）についても、以下に資料が公開されていますので、気になる方はぜひ！

Tweet card media

SSII2023 [SS1] 拡散モデルの基礎とその応用 ~Diffusion Models入門~

speakerdeck.com

0

57

305

@mi141

mi141

11 months

ControlNetがbest paperとなったそうですが、ResNet以来の「そりゃそうでしょうね…」感がすごい。

@a_hasimoto

橋本敦史

11 months

joint best!

Tweet media one

Tweet media two

Tweet media three

0

12

55

1

45

296

@mi141

mi141

9 months

「学習済みの拡散モデルを使って画像間の対応が求められるぞ」という話がNeurIPSに4本も通っていて面白かったので、以下で簡単に紹介します（図は２本目の論文から引用） (1) (2) (3) (4)

Tweet media one

1

48

290

@mi141

mi141

1 year

拡散モデルによる動画生成について、乱立する最新手法を「効率化のための３つの戦略」という観点でまとめた動画を公開しました。テキストからの画像生成に飽きたらなくなってきた方（？）はぜひご覧ください！

Tweet media one

Tweet media two

1

61

283

@mi141

mi141

2 years

DALL-E 2の論文をこれから読もうと思っているみなさんへこの手法では、画像をCLIPで埋め込んだ特徴（オレンジのベクトル）とテキストを埋め込んだ特徴（青のベクトル）は、（prior modelでつなぐべき）別のものとして扱ってるので注意。同じ特徴空間にいると思って読むと混乱します…（実体験）

Tweet media one

1

19

285

@mi141

mi141

2 months

Kaiming Heのグループから出た論文、めっちゃ面白い。離散表現を使わずに自己回帰型生成モデルを学習する方法の提案。離散表現の獲得が大変な画像や音の分野にはありがたい話。論文を読んでて『自己回帰』の定義で若干混乱したので、以下、備忘のためにメモ。

Tweet card media

Autoregressive Image Generation without Vector Quantization

Conventional wisdom holds that autoregressive models for image generation are typically accompanied by vector-quantized tokens. We observe that while a discrete-valued space can facilitate...

1

40

280

@mi141

mi141

2 years

ちなみに世の中の99.9%の人は、Stable Diffusionでplms/dpm2 samplerをよく分からずに使ってると思うんですけど、正体を知りたいという稀有な方のために以下の動画の最後の方で解説してます。両者は高速時の劣化のかかり方が違うと思うので、なんかのスタイルと捉えられてる風潮がありますね…

Tweet media one

@mi141

mi141

2 years

拡散モデルの高速化に関するサーベイ動画を公開しました。ほっとくとめっちゃ遅いので、重要な研究テーマです！ついでにスコアベース生成モデルやSDE/ODEとの関係も解説してます。拡散モデルは理論がめっちゃ面白いのに日本語解説をなかなか見かけないので是非！

Tweet media one

Tweet media two

Tweet media three

Tweet media four

1

109

542

0

52

277

@mi141

mi141

3 years

SLAMを研究している人に朗報なんですが、CVPR2021での関連発表と最近のトレンドが分かりやすくまとまった動画があるので、お酒のお供にちょうど良いですね？

Tweet card media

【学会聴講報告】CVPR2021 VSLAM研究の最新動向（前編）

今回はComputer VisionのトップカンファレンスであるCVPR2021におけるVSLAMとその関連技術(奥行き推定と姿勢推定)の最新動向について解説します。本動画はその前編としてVSLAMの最新動向の紹介をします。後編はこちら( https://youtu.be/2F4zNDuKC0c )です。ソニーが...

www.youtube.com

0

43

278

@mi141

mi141

10 months

Stable Video DiffusionとEmu Videoという凄い動画生成モデル（と論文）が２つも出たので見比べたんですが、対比が面白かったのでまとめておきます。いずれも標準的なモデル構造を使ってますが、改良における焦点が違います（続） [SVD] [Emu Video]

Tweet card media

Emu Video: Factorizing Text-to-Video Generation by Explicit Image...

We present Emu Video, a text-to-video generation model that factorizes the generation into two steps: first generating an image conditioned on the text, and then generating a video conditioned on...

1

52

273

@mi141

mi141

5 months

Consistency ModelとRectified Flowについて解説した動画を公開しました。元論文と最近の改良（ICLR2024論文３本で、うち１本はﾍｲｼｬの論文）を紹介してます。DALL-E3やLDM、StableDiffusion3などでも活用されている技術で、前提から説明しているので興味のある方はぜひ！

Tweet media one

Tweet media two

Tweet media three

Tweet media four

1

63

270

@mi141

mi141

2 years

NeurIPS2022参加報告ということで、拡散モデルの研究動向をまとめました。・応用の広がり・理論的／実験的解析・生成の高速化関連論文はほぼ全て目を通しており、タイトルぐらいはどこかに出てくるはずです。ご活用ください！以下、スレッドで内容を簡単に紹介します。

Tweet media one

1

58

268

@mi141

mi141

5 months

結局、拡散モデルって『少しずつノイズを除去して生成するモデル』という他に・階層型VAE ・特殊なランジュバン動力学・自己回帰の一般系・Neural ODEの一種としても説明できるので、過去10年の歴史を学ぶのも無駄じゃないね！という気持ちになった。なお、敵対的なんとかくんは蒸留で役立つ模様。

@mi141

mi141

5 months

こちらSSII2024で講演します。ちなみに、私の講演はマジで今昔物語＋αにするつもりですが、拡散モデルに特化した話は技術動向解説セッションのほうで、噂のSakana AIさんから講演があるそうです。他にも面白企画が目白押しなので、ぜひご参加を！（参加登録始まりました）

Tweet media one

Tweet media two

0

28

124

1

41

271

@mi141

mi141

1 year

GANに潜む本質的な問題を解決して性能をブーストする技術です。Discriminatorの最終層と損失関数を少しいじるだけなので、理屈上ほぼどんなGANにでも使えます（引用先はStyleGANに使った例）先日のCVPRではGANも結構頑張ってるみたいな話がありましたが、これを使うと実は全部もっと強くなりますね…

@takiko_san

Yuhta Takida

1 year

Our work with @insou , "SAN", updated SOTA FID score on ImageNet-256 among GANs on top of StyleGAN-XL imp! Simple modifications to objectives and last layers of discriminators are all you need to enhance most GANs with SAN! #GAN #GenerativeModeling

Tweet media one

1

22

86

1

34

265

@mi141

mi141

7 months

機械学習の『学習』って何だみたいな話を見かけたんですが、機械学習の定義って調べたことあります？私は社会人博士で博士論文を書き始めるぞとなった時に、「そういえば知らないな…」となって初めて調べました。最終的に引用したのはwikipediaにも載ってる以下の定義。これを見て思ったのが（続）

Tweet media one

3

46

262

@mi141

mi141

3 months

本日、SSII2024での講演で使用した資料��以下で公開されています。たくさんの研究を駆け足で紹介していったので、じっくり見直したいかたや、SSIIは参加してないけど画像生成AIの歴史をざっくりと知りたいぞというかたはどうぞ！

Tweet card media

SSII2024 [OS1] 画像生成技術の発展：過去10年の軌跡と未来への展望

speakerdeck.com

0

69

258

@mi141

mi141

10 months

「Diffusion Models with/as Foundation Models」というタイトルで、拡散モデルと基盤モデルに関する2023年の研究動向をざっくりまとめた動画を公開しました。社内講演の流用なので資料は英語ですが日本語でしゃべってます。関連する動画とツイートも並べておきます（続）

Tweet media one

Tweet media two

Tweet media three

Tweet media four

1

38

254

@mi141

mi141

10 months

今年５月のCVIM研究会で行ったチュートリアル講演の資料を公開しました。・拡散モデルの原理と学習方法・生成処理の制御（画像変換・編集への応用）・生成の高速化（微分方程式との関係）について解説してます。

Tweet card media

拡散モデルによる画像生成（CVIMチュートリアル）

2023年5月開催の情報処理学会CVIM研究会において行ったチュートリアル講演の資料です。拡散モデルによる画像生成について、「拡散モデルの原理と学習方法」「生成処理の制御（画像変換・編集への応用）」「生成処理の高速化（微分方程式との関係）」の３つに分けて解説しています。

speakerdeck.com

0

43

247

@mi141

mi141

11 months

- 最新の拡散モデル（EDM） - 最新のGAN（StyleGAN-XL） - 最新の生成モデル（CM: consistency models）これら全てを打ち破る性能を１回の推論で達成するモデルの提案です。弊部署に来たつよつよインターンのお仕事で、雰囲気としてはCMと拡散モデルを合体してGANでぐつぐつ煮た感じです（？）

Tweet media one

@JCJesseLai

Chieh-Hsin (Jesse) Lai

11 months

🔥SOTAs for ONE-step generation, surpassing all GANs, diffusions! Consistency Trajectory Model, co-fisrt author work with Sony's intern, @gimdong58085414 achieves new SOTA FID 1.98 on ImageNet 64 with 1-step! Project page: (w/ @StefanoErmon @mittu1204 )

Tweet media one

4

43

193

1

54

243

@mi141

mi141

1 year

ソニーの研究を対談形式でカジュアルに紹介する企画がスタート！初回はCVPR2023で発表されたRawgmentの紹介です。ML屋さんは無邪気に画素値を定数倍してデータ拡張をしますが、「そんなんじゃ現実的な拡張にはならんぞ光学的に考えて…」みたいな面白い話ですので、ぜ��！

Tweet card media

【論文対談】データ拡張をもっと自然に！CVPR2023採択論文"Rawgment"を紹介 | Sony's Research Minds

Sony's Research Mindsは、優れた研究を行っている方をお呼びしてその魅力を引き出す対談番組です今回はCVPR2022採択論文"Rawgment"についての対談ですMasakazu Yoshimura Junji Otsuka Atsushi Irie Takeshi Ohashi, Rawgme...

www.youtube.com

0

50

244

@mi141

mi141

6 months

DEIMで『LLMと音声理解・生成の最新動向』というチュートリアルの資料が公開されていて、気になっていた分野でめっちゃありがたかった（しかも、LLMの基礎から説明されててすごい）画像分野への応用との違いが気になってたんですが、以下備忘録です（続）

Tweet media one

1

43

240

@mi141

mi141

2 years

これはめちゃくちゃ強い結果に見えますね… 昨年のNeurIPSで、「実は拡散モデルは、真の分布と生成データ分布とのWasserstein距離をすごくよく最小化してる」という話（）を見かけて面白いな～と思ってたんですが、こっちの論文だとミニマックス最適を達成していてすごいです！

Tweet card media

Score-based Generative Modeling Secretly Minimizes the Wasserstein...

Score-based generative models are shown to achieve remarkable empirical performances in various applications such as image generation and audio synthesis. However, a theoretical understanding of...

@btreetaiji

Taiji Suzuki

2 years

拡散モデルが話題ですが，拡散モデルは分布推定の意味でミニマックス最適な推定誤差を達成可能であることを示しました．分布のサポートが低次元である場合は次元の呪いを回避し，Wasserstein距離の意味で最適レートを達成することも示しています．主著は弊研究室M1の大古君です．

0

127

501

0

38

232

@mi141

mi141

1 year

Any-to-Anyの生成を行う拡散モデルCoDiが出てますね。画像、動画、音、テキストから選んだ任意の組み合わせでX-to-Yという条件付き生成が可能です。大変面白く読んだのですが、関連研究の記述がしょぼ（げふんげふん）控えめなので、私の知る限りで多少補足してみました。

Tweet media one

2

25

222

@mi141

mi141

3 years

自己教師あり表現学習に関する最新動向（2020-2021年）をまとめました。主に画像分野で流行っている対照学習ベースの方法について、３つのトレンドと、その代表的な研究事例をいくつか紹介しています。万能な事前学習済みモデルを得るための戦いに興味がある方は是非！

Tweet card media

【AI論文解説】自己教師あり表現学習技術の最新動向（2020-2021年）

【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。（プレイリスト： https://www.youtube.com/playlist?list... ）今回は、自己教師あり表現学習に関する研究の最新動向を、2020-2021年の論文を中心に紹介します。本動画の途中で紹介した、非...

www.youtube.com

0

29

221

@mi141

mi141

17 days

Transfusion面白いですね～。テキストと画像の両方を１つのTransformerで生成するモデル（１枚目）ですが、テキストは自己回帰、画像はノイズ推定と、別々の損失で学習。以前のChameleon（２枚目）は、画像も自己回帰でしたけど、拡散モデルっぽいほうが高性能だそうです。

Tweet media one

Tweet media two

1

31

213

@mi141

mi141

1 year

Stable Diffusion XLのテクニカルレポートが出たので、ざっと読みました。大きな変更点は、・モデルが大きくなった・モデルに入力する条件情報を増やした・高品質化専用のモデルを追加導入した・学習データセットの４つかなと思いました。以下、感想を書きます（続）

1

37

204

@mi141

mi141

2 years

先月のどこよりも早いCVPR2022まとめ動画がだいぶ好評だったのですが、今度は拡散モデルに特化したまとめ動画が公開されました！・画像の編集や操作・計算コスト削減・その他の話題に分けて網羅的に紹介されていますので、最先端をサクッと把握したい人に是非！

1

34

201

@mi141

mi141

11 months

DALL-E3の技術詳細は謎ですが、元ネタであると分かっているDALL-E2に関しては、以前に解説動画を投稿したので参考にはなるかもしれません。よろしくお願いします（宣伝）

Tweet media one

Tweet media two

Tweet media three

Tweet media four

2

42

199

@mi141

mi141

11 months

画像生成モデルが持ってしまっている「望ましくない知識」を事後的に修正する技術について、単純かつ面白い手法を２つほどICCV2023で見つけました。１つは特定の概念を忘れさせるもの（左図）、もう１つは暗黙知（≒偏見？）を増幅／低減するもの（右図）です。

Tweet media one

Tweet media two

1

32

196

@mi141

mi141

1 year

またもや宣伝ですが、人工知能学会全国大会（JSAI2023）で、「拡散モデルによる画像生成の基礎と最新研究動向」と題したチュートリアル講演をします。最終日なので、参加される方はぜひ気楽に聞きに来てください～あと、その前日の懇親会も参加するので仲良くしてください…

Tweet media one

1

29

193

@mi141

mi141

15 days

１週間も経たないうちに、似たコンセプトのShow-oというモデルが登場しましたね。単一のTransformerで、テキストは自己回帰、画像は拡散モデルで扱うぞ、という点は同じ。ただ、面白い違いとして、こちらでは離散表現の拡散モデルを使ってます（続）

Tweet media one

Tweet media two

@mi141

mi141

17 days

Transfusion面白いですね～。テキストと画像の両方を１つのTransformerで生成するモデル（１枚目）ですが、テキストは自己回帰、画像はノイズ推定と、別々の損失で学習。以前のChameleon（２枚目）は、画像も自己回帰でしたけど、拡散モデルっぽいほうが高性能だそうです。

Tweet media one

Tweet media two

1

31

213

1

26

190

@mi141

mi141

1 year

低次元の潜在空間で拡散モデルを学習するLDM（Stable Diffusionの元ネタ）が、audioの生成でも有効という噂を聞いたので、AudioLDMとTANGOを読んだんですが、思った以上に画像生成と同じモデルが使われていてびっくりしました。 AudioLDM: TANGO:

Tweet media one

Tweet media two

1

38

185

@mi141

mi141

2 years

重大な問題に気づいたんですけど、・拡『散』・『敵』対的・変『分』・自己回『帰』って全部縁起悪い字が入ってますよね？結婚式で生成モデルについてしゃべる時ってみなさんどうしてるんですか？？

1

43

179

@mi141

mi141

6 months

Stable Diffusion 3のレポートをざっと読んだのでまとめておきます。大きなポイントは２つです。 (1) Rectified flowベースになった (2) モデルの構造（特にテキストの入れ方）が大きく変わった以下で多少詳しく書きますが、個人的には(2)のほうが大きいと思います（続）

Tweet card media

Stable Diffusion 3: Research Paper — Stability AI

Following our announcement of the early preview of Stable Diffusion 3, today we are publishing the research paper which outlines the technical details of our upcoming model release, and invite you to...

1

28

185

@mi141

mi141

10 months

拡散モデル × 基盤モデルの研究動向を紹介する動画（↓の動画の2023年版）を収録してしまったので、もう今年は何も起きないで欲しい（切実）

Tweet card media

【ソニー社内講演】拡散モデルと基盤モデル

社内で行った講演を再録した動画です。拡散モデル（diffusion models）と基盤モデル（foundation models）の関係について、特に以下の２つの視点から解説します。・Diffusion models with foundation models: 基盤モデルによる拡散モデルの拡張・Diffus...

www.youtube.com

0

24

176

@mi141

mi141

3 years

NeurIPS2021に参加してきたので、参加報告動画を作りました。私の興味にだいぶ偏っていますが、様々なトピックを浅く広くサクっと紹介しています（GAN、diffusion models、予測の不確実性、表現学習、NASなど）

Tweet card media

【学会聴講報告】NeurIPS2021の注目論文をまとめて紹介

この動画では、機械学習分野のトップカンファレンスであるNeurIPS2021で発表された論文について紹介します。【目次】00:00 Introduction00:51 生成モデル（GAN）07:28 生成モデル（diffusion models）11:50 予測の不確実性・ロバスト性17:56 DNN一般（MLP...

www.youtube.com

0

30

173

@mi141

mi141

7 months

わかりみが深い。少データ学習技術の研修資料を作ったことがあるけど、「in-context learningとか入れてアップデートしなきゃなー」と思い続けてはや一億年。必要性は感じても私自身があんま興味ない… （一方、拡散モデルは面白かったから、生成モデル研修にすぐ入れた）

Tweet card media

【Deep Learning研修（発展）】少データ・少ラベル学習

【Deep Learning研修（発展）】はディープラーニング・機械学習に関する発展的な話題を幅広く紹介する研修動画シリーズです。Neural Network Consoleチャンネル（https://www.youtube.com/c/NeuralNetworkConsole）でもディープラーニングに関するより...

www.youtube.com

1

23

172

@mi141

mi141

2 years

テキストからの画像生成においてDALL-E 2を超えたでお馴染みのImagenについても解説動画が出ています。どんどん進化する拡散モデルが、すでに驚異的な成果を見せている大規模言語モデルと出会って一体何が起こったのか。是非ご覧下さい！

Tweet media one

Tweet media two

1

38

170

@mi141

mi141

2 years

GANで高品質なtext-to-image 拡散モデルよりも非常に高速だぞという主張と、地味に生成画像間の内挿がスムーズにできることをアピールしてますね。GANの論文はお久しぶりなんですが、テキスト情報の使い方に興味があったのでチェックしました（続）

Tweet media one

Tweet media two

1

32

168

@mi141

mi141

2 years

任意の線形逆問題（超解像、画像補間、自動着色…）を学習済み拡散モデルを使って個別の学習なしで解く手法：DDNM 類似の方法でDDRM [NeurIPS2022]やILVR [ICCV2021]があるので、違いが気になってちょっと読みました。

Tweet media one

1

32

165

@mi141

mi141

1 year

門外漢にも分かりやすい素晴らしい講演だった

Tweet card media

SSII2023 [OS3] マルチエージェント経路計画の基礎と最新動向

奥村圭祐（産業技術総合研究所/ ケンブリッジ⼤学）

speakerdeck.com

0

21

165

@mi141

mi141

2 years

なんか最近またDALL-E 2やmidjourneyが話題沸騰してるみたいなので、こちら便乗して宣伝しておきますね…

@mi141

mi141

2 years

DALL-E 2の解説動画を作りました。コアとなるアイデア自体は、CLIPの逆処理ということでシンプルです。一方、拡散モデルの応用として見ると、ベースラインとして有名なDDPMから、３つの壁を破る道のりをたどったモデルになっています。動画ではまとめて説明しているので是非！

Tweet media one

Tweet media two

1

94

523

0

44

157

@mi141

mi141

2 years

画像編集に特化した拡散モデル（diffusion autoencoder）の紹介です。元画像を条件に使った条件付き生��を学習するという不思議な構成ですが、低次元に圧縮した条件にすることで、この部分が画像の意味を効率よく表現し、編集に有用なものとなります。面白い使い方ですね！

Tweet media one

Tweet media two

0

21

157

@mi141

mi141

2 years

今日参加したセミナーでDeepMindの人が紹介してた研究が面白かった。学習済みの識別モデルが苦手とするデータの傾向をテキストで説明するみたいな話。どのくらい汎用性があるのか分からないですけど、強い画像生成モデルの面白い応用ですね。

Tweet media one

2

11

156

@mi141

mi141

3 years

宣伝ですが、vision and languageのタスクをtransformerで解くという最近流行りのアプローチのサーベイ論文を公開しました。発展の速い分野ですが良くまとまっていると思うので、この分野に興味のある方は是非。

Tweet card media

Perspectives and Prospects on Transformer Architecture for...

Transformer architectures have brought about fundamental changes to computational linguistic field, which had been dominated by recurrent neural networks for many years. Its success also implies...

0

23

154

@mi141

mi141

9 months

一応virtualでNeurIPSに参加しているので、とりあえずLatent Diffusion Modelのチュートリアルを聞いてみました。資料はすでに公開されてます（録画はたぶん後日）個人的にはPart1の説明、特に設計思想の話（p.31-38あたり）がすごく面白かったです。

Tweet card media

Latent Diffusion Models: Is the Generative AI Revolution Happening in Latent Space?

Tutorial in Conjunction with NeurIPS 2023

neurips2023-ldm-tutorial.github.io

1

25

150

@mi141

mi141

3 years

ViTのattentionがローパスフィルタとして働いてるという話が出ていますが、面白いですね。Poolingやshiftに代える最近の流行に関連？逆にconvはハイパスらしいので、直流を残すresnetの有効性にも関連？NeurIPSでViTにanti-aliasingが効くという話も…等々気になりました

Tweet card media

How Do Vision Transformers Work?

The success of multi-head self-attentions (MSAs) for computer vision is now indisputable. However, little is known about how MSAs work. We present fundamental explanations to help better understand...

1

24

148

@mi141

mi141

2 years

Meta AIが発表したMake-A-Video （テキストからの動画生成）をざっと読みました。ベースはDALL-E2ですが、テキストと画像で事前学習したモデルを、なんと動画だけでfinetuneしてます！（つまりテキスト・動画ペアが不要）手法の面白いと思った点を以下に書きます。

Tweet media one

1

27

146

@mi141

mi141

3 months

こちらは隣の課のお仕事です。LCMの２倍速いという爆速T2Iモデルを実現。最初に64x64で学習し、UNetの後半だけ『成長』させることで512x512を生成できるようにする、みたいなことをしてます。生成モデルとしても拡散モデルとGANの良いとこどりをしたような新しいモデルなので、興味のある方はぜひ～

Tweet media one

Tweet media two

@JCJesseLai

Chieh-Hsin (Jesse) Lai

3 months

🚀Check our new work: PaGoDA!!! 🚀TL;RD: All you need is a 64x64 pixel diffusion model for a 512x512 1-step pixel generator! 🚀PaGoDA employs data-2-latent distillation (not noise-2-sample) and progressively trains a growing generator for resolutions

Tweet media one

4

16

67

0

31

143

@mi141

mi141

2 years

新しい動画です。拡散モデルと基盤モデルの関係について、・基盤モデルによる拡散モデルの拡張・基盤モデルとしての拡散モデルの活用の２つの視点で、様々な技術をざっくりと紹介してます。社内講演の再録なので資料は英語ですが、日本語で喋ってます。お気軽にどうぞ～

Tweet media one

Tweet media two

Tweet media three

Tweet media four

0

28

140

@mi141

mi141

2 years

松井先生の転移学習の講演面白かった。同じタスク間でsim2realでスケール則が成り立つ話（）は初めて知った。実データの異タスク間では成り立たなそう（）なので、これからますます学習用のシミュレーション技術が大事になりそうだなと思いました。

Tweet card media

A Scaling Law for Synthetic-to-Real Transfer: How Much Is Your...

Synthetic-to-real transfer learning is a framework in which a synthetically generated dataset is used to pre-train a model to improve its performance on real vision tasks. The most significant...

2

23

140

@mi141

mi141

1 year

CVPR2023のworkshopにて、共著論文の発表（oralで採択）があります。拡散モデルを使った高品質＆精緻な画像編集を、高速＆省コストに実現する方法を提案しています。ご興味のある方はぜひ！（ちなみに筆頭は昨年度の新人で、初年度に取り組んだ研究をまとめたものです）

Tweet media one

@nm715_33

Naoki Matsunaga

1 year

📢 Our paper has been accepted by AI for Content Creation(Oral) of #CVPR23 . I am very appreciated for all reviewers and organizers and co-authors!!

0

6

19

0

18

139

@mi141

mi141

2 years

ということで、IBISML研究会にて学習済み拡散モデルの活用について講演させて頂きました！講演で使ったマップ（と文献リスト）は以下です。今回試験的に作ってみたものなので、ご意見大募集です！講演自体はたぶん再録してYouTubeで公開するような気がします（わからん）

Tweet media one

Tweet media two

1

20

136

@mi141

mi141

2 years

噂のRT-1に関する解説動画が出ました。ロボティクスにおける基盤モデルとは何なのかについて考えさせてくれる面白い論文だと思います。17ヶ月かけてデータを収集している辺りにGoogleの本気度が伺えますね…

Tweet card media

【AI論文解説】ロボット版GPT! Robotics Transformer (RT-1)

【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。（プレイリスト： https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ）今回は、ロボット版GPTともいえるRobotics Trans...

www.youtube.com

0

28

135

@mi141

mi141

1 year

<UniDiffuser> x(画像)とy(言語)という２つのドメインに対して - Marginal: xやyだけの生成（画像やテキスト生成） - Conditional: yを指定してxを生成、その逆（text-to-imageとimage captioning） - Joint: xとyを同時に生成（画像テキストペアの生成）を全部扱う拡散モデル。原理が面白い！

Tweet media one

1

17

132

@mi141

mi141

2 years

新しい研修動画シリーズが始まりました！深層強化学習入門ということで、直感的な理解・使い方の習熟に特化した内容になっています。弊チャンネルは最新の論文解説に加えて、研修シリーズも充実してきたので初学者の方にも活用していただけるとありがたいです～

Tweet media one

Tweet media two

Tweet media three

1

14

134

@mi141

mi141

2 years

３月に函館で開催されるIBISML/PRMU/CVIM研究会にて「拡散モデルによる画像生成の最前線」というタイトルで講演します！拡散モデルの画像・音・時系列データへの適用についてまとめて聞けるって凄い機会だと思うので皆さん是非！（私も楽しみです…！）

Tweet media one

0

27

130

@mi141

mi141

2 years

Transformerの出現以降、様々なモーダル・タスクを統一的に扱うモデルの研究が盛んですが、今回はそのうちのUni-Perceiver [CVPR2022]の紹介です同じ会議でFLAVA、ICMLではOFAなど、続々と手法が出ている熱い分野ですね！

1

13

130

@mi141

mi141

2 years

また凄い動画生成が出てきましたね！ Imagen + cascaded diffusion + video diffusion + progressive distillationでまさに集大成！ Make-A-Videoはテキスト+画像で事前学習⇒動画でfinetuneですが、こちらはテキスト+画像とテキスト+動画の両方を同時に使って学習してます

Tweet card media

High Definition Video Generation with Diffusion Models

imagen.research.google

1

17

127

@mi141

mi141

2 years

最近の拡散モデルの無双っぷりを見て「うおーすげー！！」ってなる人多いと思うんですけど、この現象は一定以上の年代の人は若干デジャヴ… そう、2012年のImageNetショックですね大量のデータとリソースで殴ったら実は凄かったです、というあたりも似てる気がします（拡散モデルの初出は2015年）

1

11

129

@mi141

mi141

2 years

NeurIPS2022採択論文。すでに読んだもので印象に残ったもので言うとDDRMが面白いです。線形劣化を復元するタイプのタスクを、学習済み拡散モデルを使って統一的に解けます (c)(d)は、かの有名なICLR2021 award論文で取り組まれてますが、更に一般的に解いててとても綺麗です！

Tweet media one

1

18

126

@mi141

mi141

5 months

こちらSSII2024で講演します。ちなみに、私の講演はマジで今昔物語＋αにするつもりですが、拡散モデルに特化した話は技術動向解説セッションのほうで、噂のSakana AIさんから講演があるそうです。他にも面白企画が目白押しなので、ぜひご参加を！（参加登録始まりました）

Tweet media one

Tweet media two

@mi141

mi141

5 months

某国内会議で「画像生成の歴史10年分を25本の論文で��解くぞ」みたいな講演をするんだけど、論文選ぶの難しすぎるね…

0

3

43

0

28

124

@mi141

mi141

2 years

先週のSSII2022での講演では、特にモデルを転移するタイプの少データ学習が面白いという紹介をしましたが、もうひとつ強調しておきたいのが、SSIIのslideshareに過去に講演された凄く良い解説資料がたくさんあるよというお話です。みなさん是非チェックしましょう！！

Tweet media one

Tweet media two

0

16

124

@mi141

mi141

1 year

[MIRU2023共著1/3] テキスト指示に従ってNeRFを編集する「Instruct 3D-to-3D」を提案しています。拡散モデルでNeRFを生成するDreamFusionがベースですが、元のシーンの構造を保持しつつテキストの指示に従うための工夫が入っています。２日目にロングオーラルで発表予定です。

1

16

122

@mi141

mi141

2 months

以前の動画で、consistency modelsの上位互換であるCTMを紹介したのですが、同僚である著者自身による紹介動画が公開されてます！（しゃべりは英語ですが日本語字幕付き）ついでなので、私の知る限りでCTMの派生について、以下に紹介してみます↓

Tweet media one

1

14

118

@mi141

mi141

2 years

動画と音を同時生成する拡散モデル。モーダル間の情報統合を行うcross-attentionで、時間方向にランダムに範囲を限定。逆拡散でどうせ何回も推論するから、最終的にはglobalにattentionが取れるでしょ、というのが面白いですね（sampler変えられるのか心配ですが…？）

Tweet media one

1

28

119

@mi141

mi141

2 months

音声合成でも似たアプローチが提案されましたね。こちらは、自己回帰は素直に言語モデルっぽいものを使い、各トークンからの生成は拡散モデルではなくVAEっぽい方法をとっているようです。VALL-Eと比べて（客観評価より）主観評価がすごくよくなっているけど、なぜだろう…？

Tweet media one

Tweet media two

@mi141

mi141

2 months

Kaiming Heのグループから出た論文、めっちゃ面白い。離散表現を使わずに自己回帰型生成モデルを学習する方法の提案。離散表現の獲得が大変な画像や音の分野にはありがたい話。論文を読んでて『自己回帰』の定義で若干混乱したので、以下、備忘のためにメモ。

1

40

280

1

19

118

@mi141

mi141

2 years

というか、世界中の研究者が紹介する最新ML研究を無料で聴ける理研AIPセミナーはもっと評価されるべき。 DoorKeeperで登録（）すればセミナーの案内がたくさん来るし、録画したものもYouTube（）で見れる。なんでこんなに参加者・登録者少ないねん…

Tweet card media

RIKEN AIP Public

Public events of RIKEN Center for Advanced Intelligence Project (AIP)

c5dc59ed978213830355fc8978.doorkeeper.jp

0

30

114

@mi141

mi141

2 years

テキスト指示通りに画像を編集するInstructPix2Pix、学習データの作り方が凄い！ (1)captionから編集指示と編集後captionのペアを（700samplesでfinetuneした）GPT-3で生成 (2)編集前後のcaptionからprompt2promptで画像生成これで編集指示と編集前後画像ペアの出来上がり…

Tweet media one

Tweet media two

1

17

114

@mi141

mi141

1 year

こちら非常に凝縮された濃密な報告でしたね！ちなみに弊社からもCVPR2023のまとめ動画が出ているので、興味のあるかたは是非…！

Tweet media one

Tweet media two

@CVpaperChalleng

cvpaper.challenge | AI/CV研究コミュニティ

@CVpaperChalleng

1 year

「CVPR 2023 速報」のスライドが公開されました！300ページ超だった速報資料も研究メンバーの熱量で40ページ程度に圧縮しております！ #MIRU2023

1

47

175

0

18

110

@mi141

mi141

2 years

Video Diffusion Model (VDM)を使って、テキストで動画を編集（動画変換に近い） UniTuneと似て、特定の動画でfine-tuneするアプローチですけど、VDMの性質をうまく利用してますね。動画だけでなく静止画のノイズ推定もできるので、fine-tuneの損失に両方使ってます。

1

20

107

@mi141

mi141

2 years

実はすっごいこっそりとtext-to-imageの拡散モデルの学習コードが追加されてます。LAIONデータセットのローダーもあるので、やる気と電気とGPUさえあれば誰でもImagenもどきが作れます！すごい！

@NNC_NNL_jpn

NNC_NNL Japan

2 years

Neural Network Libraries v1.32.0をリリースしました！ auto-forwardモードの改良による２倍以上のメモリ効率化とオーバーヘッド削減による高速化に加え、python3.10のサポートも開始しました。 #sony #neuralnetworklibraries

0

5

25

0

22

108

@mi141

mi141

2 years

新しいコンセプトを少数データで学習するtext-to-image、また新しい手法が出てますね～これ系の技術、↓の２枚目のような分類をしたことがあるんですが、基本は②で、①もできますみたいな感じでしょうか。正則化目的で補助的な学習データも併用するのは面白いですね。

Tweet media one

Tweet media two

1

7

106

@mi141

mi141

3 years

「万能な事前学習済みモデルを得るために何が必要だったのか？」というテーマでCVPR2021とICML2021の論文（いずれもhonorable mention！）を紹介しました。教師なし表現学習の話ですが、前者のSimSiamだけ読んで満足してる人は、めっちゃもったいないので是非見て下さい！

Tweet card media

【AI論文解説】万能な事前学習済みモデルを得るために何が必要だったのか？（CVPR2021・ICML2021論文紹介）

次の動画 ⇒ https://youtu.be/Lbg5TwtZ6s0今回は、万能な事前学習済みモデルをうまく学習するための技術について、CVPR2021とICML2021で発表された２本の論文を紹介します。本動画は２本の論文の概要です。【紹介論文】・"Exploring Simple Siamese Repre...

www.youtube.com

0

13

106

@mi141

mi141

9 months

ML分野で社会人博士に興味がある人のためのマッチングイベント！これだけ凄い先生方に相談できるとは、素晴らしい企画ですね…。CV分野でもMIRUとかに併設して開催したらめっちゃ良さそう（むしろ産業界の参加者が多いSSII or ViEWかな？）

Tweet media one

Tweet media two

@jsai_ml

人工知能学会 jsai-ann ML

10 months

機械学習社会人博士イベント(信学会IBISML/理研AIP)

0

10

43

1

23

105

@mi141

mi141

3 months

余談なんですが、先日の講演で（歴史以外で）微妙に強調したのが以下のスライドです。センシング屋さんに対する『画像生成は他人事じゃないかも』というメッセージである一方、雰囲気で画像生成を使いたくなった時に『このタスク、本当に生成で解かなきゃダメだっけ？』と考える基準でもあります。

Tweet media one

Tweet media two

@mi141

mi141

3 months

本日、SSII2024での講演で使用した資料は以下で公開されています。たくさんの研究を駆け足で紹介していったので、じっくり見直したいかたや、SSIIは参加してないけど画像生成AIの歴史をざっくりと知りたいぞというかたはどうぞ！

0

69

258

0

10

104

@mi141

mi141

2 years

話題になってたMuseをざっと読みました MaskGIT [CVPR2022]の正統進化版（text条件受け付け＋高解像度化のための２段階構成）という感じですが、MaskGITを知らないと論文の方はちょっと読みにくいので、メモ代わりにMaskGITについて以下にまとめます（所感を含むので注意）

Tweet media one

1

19

103

@mi141

mi141

3 months

SSIIの30周年記念特別企画である『SSII技術マップ』が続々と公開されてます！ソニーからは、『��メージング技術』『ViT』『生成モデル』のマップ作成に若手メンバが協力していますので、ぜひご覧ください！　画像生成に関しては、私のほうからも明日講演（OS1）があります～

Tweet media one

Tweet media two

Tweet media three

0

19

104

@mi141

mi141

3 years

共著ですが、クロスモーダルタスク向けのtransformerに関するサーベイ論文がIJCVに載りました。流れの速い分野ですが、俯瞰したい人にオススメです！

Tweet card media

Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and...

International Journal of Computer Vision - Transformer architectures have brought about fundamental changes to computational linguistic field, which had been dominated by recurrent neural networks...

link.springer.com

0

11

104

@mi141

mi141

2 years

Text-to-imageで特定物体を登場・編集する技術が流行ってますね！対象にトークンを割り当てて、 (1) Textual inversion: トークンだけ最適化（モデル固定） (2) Imagic: トークンとモデルを両方少しずつ最適化 (3) DreamBooth (4) UniTune: モデルだけ最適化（レアなトークンを適当に選んで固定）

Tweet media one

Tweet media two

Tweet media three

Tweet media four

1

13

98

@mi141

mi141

1 month

来週のMIRU2024では、動画と音の同時生成について発表するんですが、せっかくなので興味のある方向けにいくつか最近の研究例を紹介したいと思います！おそらく最もよく知られているのがMM-Diffusionだと思います。まさに動画・音向けのU-Netを設計しましたよーという感じです

Tweet media one

@mi141

mi141

2 months

MIRU2024（）にて、動画生成と音生成を悪魔合体して、動画と音を同時生成する話をします！ちなみに、このような同時生成は、ガイダンスを使う方法[1]や、masked generative transformerを使う方法[2]も提案しているので、興味のある方はぜひ議論しましょう！（リンクは↓）

Tweet media one

1

7

58

1

19

96

@mi141

mi141

1 year

六本木にあるオフィスに初めて出社しました。めちゃくちゃイケイケのスタートアップみたいな感じ（？）でした。

Tweet media one

0

2

93