mi141 Profile
mi141

@mi141

3,863
Followers
207
Following
439
Media
4,486
Statuses

どこぞの研究所で機械学習やら画像処理やらの研究をしています。社会人博士を無事に修了しました(2021.3)。機械学習全般に興味がありますが、最近のお仕事は主に深層学習。転職したので日本橋の某IPには出没しなくなりました。

Joined June 2008
Don't wanna be here? Send us removal request.
Pinned Tweet
@mi141
mi141
3 years
「少ないデータやラベルを効率的に活用するための機械学習技術」という動画シリーズの投稿を始めました。色んな技術(データ拡張、正則化、転移学習、ドメイン適応、メタ学習、半・弱教師あり学習)を幅広く紹介するので、この分野を短時間で俯瞰したい人は是非。
1
110
531
@mi141
mi141
2 years
Googleから凄い論文が出てますね。拡散モデルを数枚でちょっとfinetuneするだけで、「あなたのワンちゃん」を生成画像内に自由に登場させられます! StableDiffusionでやる人めっちゃ出てきそう。 原理としては対象に新しいwordを割り当ててモデルをfinetuneするようです。
Tweet media one
1
839
3K
@mi141
mi141
2 years
GANを越える生成モデルとして注目されている拡散モデルの解説動画を作りました。たぶん日本語の資料の中では最も丁寧に説明したと思ってます。理論的にも応用的にも魅力の多い技術なので、生成モデルに興味がある方に(ついでにこの研修動画シリーズ自体も)オススメです!
Tweet media one
0
208
1K
@mi141
mi141
11 months
これはシンプルに草(Google DeepMindの方からの招待講演)
Tweet media one
Tweet media two
6
270
1K
@mi141
mi141
2 years
まあ買わざるを得なかったですよね… とりあえずぱらぱら眺めたんですが、拡散モデルとスコアベース生成モデルとの関係を中心に据えた解説になっていて見通しが良さそうです。あと、式展開が結構丁寧なので、国際会議の論文では省略されがちな話がちゃんと確認できるのが良さそう…
Tweet media one
0
81
618
@mi141
mi141
1 year
こちらの論文、なんとbest paper awardを受賞しました! (社会人1年目の研究で、拡散モデルとかいう超レッドオーシャンで、CVPRのworkshopで発表してベストペーパーって、最近の若者は強いですね…)
Tweet media one
@mi141
mi141
1 year
CVPR2023のworkshopにて、共著論文の発表(oralで採択)があります。 拡散モデルを使った高品質&精緻な画像編集を、高速&省コストに実現する方法を提案しています。ご興味のある方はぜひ!(ちなみに筆頭は昨年度の新人で、初年度に取り組んだ研究をまとめたものです)
Tweet media one
0
18
139
2
86
558
@mi141
mi141
2 years
拡散モデルの高速化に関するサーベイ動画を公開しました。ほっとくとめっちゃ遅いので、重要な研究テーマです! ついでにスコアベース生成モデルやSDE/ODEとの関係も解説してます。拡散モデルは理論がめっちゃ面白いのに日本語解説をなかなか見かけないので是非!
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
109
542
@mi141
mi141
2 years
DALL-E 2の解説動画を作りました。コアとなるアイデア自体は、CLIPの逆処理ということでシンプルです。一方、拡散モデルの応用として見ると、ベースラインとして有名なDDPMから、3つの壁を破る道のりをたどったモデルになっています。動画ではまとめて説明しているので是非!
Tweet media one
Tweet media two
1
94
523
@mi141
mi141
7 months
Soraがすごすぎるのでblogを読んだんですが、手法としての目新しさはほとんどなくて、やっぱりスケールが効いてる感じですね。ただ、すんごい細かいところで気になるところがいくつかあるので、備忘のために列挙します(続)
1
82
489
@mi141
mi141
1 year
GPT/ChatGPTをベースに、複数の外部API(他の基盤モデルなども)をうまく使いこなして様々なタスクを解く手法に興味があったので ・Toolformer ・Visual ChatGPT ・HuggingGPT ・(下図はこれ) あたりを読みました。主に知りたかったのは、APIの使い方をどのように学ぶかです
Tweet media one
3
76
476
@mi141
mi141
2 years
どこよりも早い(?)CVPR2022の参加報告動画が公開されました! Vision最先端技術のトレンド分析から始まり、 ・Vision Transformer ・自己教師あり学習 ・NeRF の3つにフォーカスして紹介しています。重要な技術トレンドを30分でつまみ食いできるので、是非ご覧下さい!
0
86
479
@mi141
mi141
2 years
拡散モデルについて知るためのコンテンツが揃ってきたので、ちょっとまとめてみます。 まずは、拡散モデルの基礎
Tweet media one
Tweet media two
1
78
471
@mi141
mi141
9 months
素晴らしいチュートリアルだった。パラメータ数を増やしていったときに、過学習を起こしつつも汎化性能が良くなる『良性過学習』の理論についての解説。最低限の数式で直感的な説明を徹底していてすごい。とにかくnearly-orthogonalが全てを解決する…(?) ↑資料は公開済
1
52
447
@mi141
mi141
2 years
先日から話題沸騰しているテキストからの3D生成(DreamFusion)について、弊チームの新人くんが爆速で解説動画を作ってくれました! テキストから画像を生成する拡散モデルを使って、任意のテキストに沿った物体・シーンのNeRFを獲得できます。こちらもインパクト凄いです…
Tweet media one
Tweet media two
0
98
429
@mi141
mi141
2 years
ほぼ同じタイミングで拡散モデルのサーベイが2本公開されてます 1本目は画像に特化して事例をたくさん知りたい場合、2本目は拡散モデルを基礎から幅広く把握したい場合にオススメ! 特に後者の最後、他の生成モデルとの関連はとても面白いです。
1
62
370
@mi141
mi141
2 years
少データ学習の研究動向についての動画です(SSII2022での講演の再録)。主な内容は以下です。 ・転移学習の全体的な説明 ・自己教師あり表現学習 ・test-time adaptation / source-free domain adaptation 動画最後におまけでオススメの関連資料や動画のリストがあります!
0
50
365
@mi141
mi141
2 years
何かの参考になれば…
Tweet media one
@tmaehara
2 years
知らないうちに self-supervised learning の理論がずいぶん進歩してて驚いた。どなたか現在の理解を教えてください……。
1
5
72
1
36
352
@mi141
mi141
9 months
NeurIPSの招待講演を聞いて初めて知ったんですが、Transformerに次に来るモデル構造は何だ的な話、最近また進展があったんですね。ついにperplexityの意味でもTransformerを追い抜いて、性能が良いのに爆速みたいな状況に見えます。年末年始に論文読むか…
Tweet media one
Tweet media two
0
51
351
@mi141
mi141
2 years
TransformerはCNNよりも入力に対する摂動にロバストだよ ↓ 分布外データには強いけど、敵対的摂動には大して変わらんよ ↓ やっぱり分布外データに対しても変わらんよ ↓ 私「もうなんもわからん」
1
52
344
@mi141
mi141
1 year
そういえば同僚が昨��講演した内容(拡散モデルの基礎と応用)についても、以下に資料が公開されていますので、気になる方はぜひ!
0
57
305
@mi141
mi141
11 months
ControlNetがbest paperとなったそうですが、ResNet以来の「そりゃそうでしょうね…」感がすごい。
@a_hasimoto
橋本敦史
11 months
joint best!
Tweet media one
Tweet media two
Tweet media three
0
12
55
1
45
296
@mi141
mi141
9 months
「学習済みの拡散モデルを使って画像間の対応が求められるぞ」という話がNeurIPSに4本も通っていて面白かったので、以下で簡単に紹介します(図は2本目の論文から引用) (1) (2) (3) (4)
Tweet media one
1
48
290
@mi141
mi141
1 year
拡散モデルによる動画生成について、乱立する最新手法を「効率化のための3つの戦略」という観点でまとめた動画を公開しました。テキストからの画像生成に飽きたらなくなってきた方(?)はぜひご覧ください!
Tweet media one
Tweet media two
1
61
283
@mi141
mi141
2 years
DALL-E 2の論文をこれから読もうと思っているみなさんへ この手法では、画像をCLIPで埋め込んだ特徴(オレンジのベクトル)とテキストを埋め込んだ特徴(青のベクトル)は、(prior modelでつなぐべき)別のものとして扱ってるので注意。同じ特徴空間にいると思って読むと混乱します…(実体験)
Tweet media one
1
19
285
@mi141
mi141
2 months
Kaiming Heのグループから出た論文、めっちゃ面白い。 離散表現を使わずに自己回帰型生成モデルを学習する方法の提案。離散表現の獲得が大変な画像や音の分野にはありがたい話。論文を読んでて『自己回帰』の定義で若干混乱したので、以下、備忘のためにメモ。
1
40
280
@mi141
mi141
2 years
ちなみに世の中の99.9%の人は、Stable Diffusionでplms/dpm2 samplerをよく分からずに使ってると思うんですけど、正体を知りたいという稀有な方のために以下の動画の最後の方で解説してます。 両者は高速時の劣化のかかり方が違うと思うので、なんかのスタイルと捉えられてる風潮がありますね…
Tweet media one
@mi141
mi141
2 years
拡散モデルの高速化に関するサーベイ動画を公開しました。ほっとくとめっちゃ遅いので、重要な研究テーマです! ついでにスコアベース生成モデルやSDE/ODEとの関係も解説してます。拡散モデルは理論がめっちゃ面白いのに日本語解説をなかなか見かけないので是非!
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
109
542
0
52
277
@mi141
mi141
10 months
Stable Video DiffusionとEmu Videoという凄い動画生成モデル(と論文)が2つも出たので見比べたんですが、対比が面白かったのでまとめておきます。いずれも標準的なモデル構造を使ってますが、改良における焦点が違います(続) [SVD] [Emu Video]
1
52
273
@mi141
mi141
5 months
Consistency ModelとRectified Flowについて解説した動画を公開しました。元論文と最近の改良(ICLR2024論文3本で、うち1本はヘイシャの論文)を紹介してます。DALL-E3やLDM、StableDiffusion3などでも活用されている技術で、前提から説明しているので興味のある方はぜひ!
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
63
270
@mi141
mi141
2 years
NeurIPS2022参加報告ということで、拡散モデルの研究動向をまとめました。 ・応用の広がり ・理論的/実験的解析 ・生成の高速化 関連論文はほぼ全て目を通しており、タイトルぐらいはどこかに出てくるはずです。ご活用ください! 以下、スレッドで内容を簡単に紹介します。
Tweet media one
1
58
268
@mi141
mi141
5 months
結局、拡散モデルって『少しずつノイズを除去して生成するモデル』という他に ・階層型VAE ・特殊なランジュバン動力学 ・自己回帰の一般系 ・Neural ODEの一種 としても説明できるので、過去10年の歴史を学ぶのも無駄じゃないね!という気持ちになった。なお、敵対的なんとかくんは蒸留で役立つ模様。
@mi141
mi141
5 months
こちらSSII2024で講演します。ちなみに、私の講演はマジで今昔物語+αにするつもりですが、拡散モデルに特化した話は技術動向解説セッションのほうで、噂のSakana AIさんから講演があるそうです。他にも面白企画が目白押しなので、ぜひご参加を!(参加登録始まりました)
Tweet media one
Tweet media two
0
28
124
1
41
271
@mi141
mi141
1 year
GANに潜む本質的な問題を解決して性能をブーストする技術です。Discriminatorの最終層と損失関数を少しいじるだけなので、理屈上ほぼどんなGANにでも使えます(引用先はStyleGANに使った例) 先日のCVPRではGANも結構頑張ってるみたいな話がありましたが、これを使うと実は全部もっと強くなりますね…
@takiko_san
Yuhta Takida
1 year
Our work with @insou , "SAN", updated SOTA FID score on ImageNet-256 among GANs on top of StyleGAN-XL imp! Simple modifications to objectives and last layers of discriminators are all you need to enhance most GANs with SAN! #GAN #GenerativeModeling
Tweet media one
1
22
86
1
34
265
@mi141
mi141
7 months
機械学習の『学習』って何だみたいな話を見かけたんですが、機械学習の定義って調べたことあります? 私は社会人博士で博士論文を書き始めるぞとなった時に、「そういえば知らないな…」となって初めて調べました。最終的に引用したのはwikipediaにも載ってる以下の定義。これを見て思ったのが(続)
Tweet media one
3
46
262
@mi141
mi141
3 months
本日、SSII2024での講演で使用した資料���以下で公開されています。たくさんの研究を駆け足で紹介していったので、じっくり見直したいかたや、SSIIは参加してないけど画像生成AIの歴史をざっくりと知りたいぞというかたはどうぞ!
0
69
258
@mi141
mi141
10 months
「Diffusion Models with/as Foundation Models」というタイトルで、拡散モデルと基盤モデルに関する2023年の研究動向をざっくりまとめた動画を公開しました。社内講演の流用なので資料は英語ですが日本語でしゃべってます。関連する動画とツイートも並べておきます(続)
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
38
254
@mi141
mi141
11 months
- 最新の拡散モデル(EDM) - 最新のGAN(StyleGAN-XL) - 最新の生成モデル(CM: consistency models) これら全てを打ち破る性能を1回の推論で達成するモデルの提案です。弊部署に来たつよつよインターンのお仕事で、雰囲気としてはCMと拡散モデルを合体してGANでぐつぐつ煮た感じです(?)
Tweet media one
@JCJesseLai
Chieh-Hsin (Jesse) Lai
11 months
🔥SOTAs for ONE-step generation, surpassing all GANs, diffusions! Consistency Trajectory Model, co-fisrt author work with Sony's intern, @gimdong58085414 achieves new SOTA FID 1.98 on ImageNet 64 with 1-step! Project page: (w/ @StefanoErmon @mittu1204 )
Tweet media one
4
43
193
1
54
243
@mi141
mi141
1 year
ソニーの研究を対談形式でカジュアルに紹介する企画がスタート! 初回はCVPR2023で発表されたRawgmentの紹介です。ML屋さんは無邪気に画素値を定数倍してデータ拡張をしますが、「そんなんじゃ現実的な拡張にはならんぞ光学的に考えて…」みたいな面白い話ですので、ぜ��!
0
50
244
@mi141
mi141
6 months
DEIMで『LLMと音声理解・生成の最新動向』というチュートリアルの資料が公開されていて、気になっていた分野でめっちゃありがたかった(しかも、LLMの基礎から説明されててすごい) 画像分野への応用との違いが気になってたんですが、以下備忘録です(続)
Tweet media one
1
43
240
@mi141
mi141
2 years
これはめちゃくちゃ強い結果に見えますね… 昨年のNeurIPSで、「実は拡散モデルは、真の分布と生成データ分布とのWasserstein距離をすごくよく最小化してる」という話()を見かけて面白いな~と思ってたんですが、こっちの論文だとミニマックス最適を達成していてすごいです!
@btreetaiji
Taiji Suzuki
2 years
拡散モデルが話題ですが,拡散モデルは分布推定の意味でミニマックス最適な推定誤差を達成可能であることを示しました. 分布のサポートが低次元である場合は次元の呪いを回避し,Wasserstein距離の意味で最適レートを達成することも示しています. 主著は弊研究室M1の大古君です.
0
127
501
0
38
232
@mi141
mi141
1 year
Any-to-Anyの生成を行う拡散モデルCoDiが出てますね。画像、動画、音、テキストから選んだ任意の組み合わせでX-to-Yという条件付き生成が可能です。 大変面白く読んだのですが、関連研究の記述がしょぼ(げふんげふん)控えめなので、私の知る限りで多少補足してみました。
Tweet media one
2
25
222
@mi141
mi141
3 years
自己教師あり表現学習に関する最新動向(2020-2021年)をまとめました。主に画像分野で流行っている対照学習ベースの方法について、3つのトレンドと、その代表的な研究事例をいくつか紹介しています。万能な事前学習済みモデルを得るための戦いに興味がある方は是非!
0
29
221
@mi141
mi141
17 days
Transfusion面白いですね~。テキストと画像の両方を1つのTransformerで生成するモデル(1枚目)ですが、テキストは自己回帰、画像はノイズ推定と、別々の損失で学習。以前のChameleon(2枚目)は、画像も自己回帰でしたけど、拡散モデルっぽいほうが高性能だそうです。
Tweet media one
Tweet media two
1
31
213
@mi141
mi141
1 year
Stable Diffusion XLのテクニカルレポートが出たので、ざっと読みました。 大きな変更点は、 ・モデルが大きくなった ・モデルに入力する条件情報を増やした ・高品質化専用のモデルを追加導入した ・学習データセット の4つかなと思いました。以下、感想を書きます(続)
1
37
204
@mi141
mi141
2 years
先月のどこよりも早いCVPR2022まとめ動画がだいぶ好評だったのですが、今度は拡散モデルに特化したまとめ動画が公開されました! ・画像の編集や操作 ・計算コスト削減 ・その他の話題 に分けて網羅的に紹介されていますので、最先端をサクッと把握したい人に是非!
1
34
201
@mi141
mi141
11 months
DALL-E3の技術詳細は謎ですが、元ネタであると分かっているDALL-E2に関しては、以前に解説動画を投稿したので参考にはなるかもしれません。よろしくお願いします(宣伝)
Tweet media one
Tweet media two
Tweet media three
Tweet media four
2
42
199
@mi141
mi141
11 months
画像生成モデルが持ってしまっている「望ましくない知識」を事後的に修正する技術について、単純かつ面白い手法を2つほどICCV2023で見つけました。1つは特定の概念を忘れさせるもの(左図)、もう1つは暗黙知(≒偏見?)を増幅/低減するもの(右図)です。
Tweet media one
Tweet media two
1
32
196
@mi141
mi141
1 year
またもや宣伝ですが、人工知能学会全国大会(JSAI2023)で、「拡散モデルによる画像生成の基礎と最新研究動向」と題したチュートリアル講演をします。最終日なので、参加される方はぜひ気楽に聞きに来てください~ あと、その前日の懇親会も参加するので仲良くしてください…
Tweet media one
1
29
193
@mi141
mi141
15 days
1週間も経たないうちに、似たコンセプトのShow-oというモデルが登場しましたね。単一のTransformerで、テキストは自己回帰、画像は拡散モデルで扱うぞ、という点は同じ。ただ、面白い違いとして、こちらでは離散表現の拡散モデルを使ってます(続)
Tweet media one
Tweet media two
@mi141
mi141
17 days
Transfusion面白いですね~。テキストと画像の両方を1つのTransformerで生成するモデル(1枚目)ですが、テキストは自己回帰、画像はノイズ推定と、別々の損失で学習。以前のChameleon(2枚目)は、画像も自己回帰でしたけど、拡散モデルっぽいほうが高性能だそうです。
Tweet media one
Tweet media two
1
31
213
1
26
190
@mi141
mi141
1 year
低次元の潜在空間で拡散モデルを学習するLDM(Stable Diffusionの元ネタ)が、audioの生成でも有効という噂を聞いたので、AudioLDMとTANGOを読んだんですが、思った以上に画像生成と同じモデルが使われていてびっくりしました。 AudioLDM: TANGO:
Tweet media one
Tweet media two
1
38
185
@mi141
mi141
2 years
重大な問題に気づいたんですけど、 ・拡『散』 ・『敵』対的 ・変『分』 ・自己回『帰』 って全部縁起悪い字が入ってますよね? 結婚式で生成モデルについてしゃべる時ってみなさんどうしてるんですか??
1
43
179
@mi141
mi141
6 months
Stable Diffusion 3のレポートをざっと読んだのでまとめておきます。大きなポイントは2つです。 (1) Rectified flowベースになった (2) モデルの構造(特にテキストの入れ方)が大きく変わった 以下で多少詳しく書きますが、個人的には(2)のほうが大きいと思います(続)
1
28
185
@mi141
mi141
3 years
NeurIPS2021に参加してきたので、参加報告動画を作りました。私の興味にだいぶ偏っていますが、様々なトピックを浅く広くサクっと紹介しています(GAN、diffusion models、予測の不確実性、表現学習、NASなど)
0
30
173
@mi141
mi141
7 months
わかりみが深い。 少データ学習技術の研修資料を作ったことがあるけど、「in-context learningとか入れてアップデートしなきゃなー」と思い続けてはや一億年。必要性は感じても私自身があんま興味ない… (一方、拡散モデルは面白かったから、生成モデル研修にすぐ入れた)
1
23
172
@mi141
mi141
2 years
テキストからの画像生成においてDALL-E 2を超えたでお馴染みのImagenについても解説動画が出ています。どんどん進化する拡散モデルが、すでに驚異的な成果を見せている大規模言語モデルと出会って一体何が起こったのか。是非ご覧下さい!
Tweet media one
Tweet media two
1
38
170
@mi141
mi141
2 years
GANで高品質なtext-to-image 拡散モデルよりも非常に高速だぞという主張と、地味に生成画像間の内挿がスムーズにできることをアピールしてますね。GANの論文はお久しぶりなんですが、テキスト情報の使い方に興味があったのでチェックしました(続)
Tweet media one
Tweet media two
1
32
168
@mi141
mi141
2 years
任意の線形逆問題(超解像、画像補間、自動着色…)を学習済み拡散モデルを使って個別の学習なしで解く手法:DDNM 類似の方法でDDRM [NeurIPS2022]やILVR [ICCV2021]があるので、違いが気になってちょっと読みました。
Tweet media one
1
32
165
@mi141
mi141
2 years
なんか最近またDALL-E 2やmidjourneyが話題沸騰してるみたいなので、こちら便乗して宣伝しておきますね…
@mi141
mi141
2 years
DALL-E 2の解説動画を作りました。コアとなるアイデア自体は、CLIPの逆処理ということでシンプルです。一方、拡散モデルの応用として見ると、ベースラインとして有名なDDPMから、3つの壁を破る道のりをたどったモデルになっています。動画ではまとめて説明しているので是非!
Tweet media one
Tweet media two
1
94
523
0
44
157
@mi141
mi141
2 years
画像編集に特化した拡散モデル(diffusion autoencoder)の紹介です。元画像を条件に使った条件付き生��を学習するという不思議な構成ですが、低次元に圧縮した条件にすることで、この部分が画像の意味を効率よく表現し、編集に有用なものとなります。面白い使い方ですね!
Tweet media one
Tweet media two
0
21
157
@mi141
mi141
2 years
今日参加したセミナーでDeepMindの人が紹介してた研究が面白かった。 学習済みの識別モデルが苦手とするデータの傾向をテキストで説明するみたいな話。どのくらい汎用性があるのか分からないですけど、強い画像生成モデルの面白い応用ですね。
Tweet media one
2
11
156
@mi141
mi141
3 years
宣伝ですが、vision and languageのタスクをtransformerで解くという最近流行りのアプローチのサーベイ論文を公開しました。発展の速い分野ですが良くまとまっていると思うので、この分野に興味のある方は是非。
0
23
154
@mi141
mi141
9 months
一応virtualでNeurIPSに参加しているので、とりあえずLatent Diffusion Modelのチュートリアルを聞いてみました。資料はすでに公開されてます(録画はたぶん後日) 個人的にはPart1の説明、特に設計思想の話(p.31-38あたり)がすごく面白かったです。
1
25
150
@mi141
mi141
3 years
ViTのattentionがローパスフィルタとして働いてるという話が出ていますが、面白いですね。Poolingやshiftに代える最近の流行に関連?逆にconvはハイパスらしいので、直流を残すresnetの有効性にも関連?NeurIPSでViTにanti-aliasingが効くという話も…等々気になりました
1
24
148
@mi141
mi141
2 years
Meta AIが発表したMake-A-Video (テキストからの動画生成)をざっと読みました。 ベースはDALL-E2ですが、テキストと画像で事前学習したモデルを、なんと動画だけでfinetuneしてます!(つまりテキスト・動画ペアが不要) 手法の面白いと思った点を以下に書きます。
Tweet media one
1
27
146
@mi141
mi141
3 months
こちらは隣の課のお仕事です。LCMの2倍速いという爆速T2Iモデルを実現。最初に64x64で学習し、UNetの後半だけ『成長』させることで512x512を生成できるようにする、みたいなことをしてます。生成モデルとしても拡散モデルとGANの良いとこどりをしたような新しいモデルなので、興味のある方はぜひ~
Tweet media one
Tweet media two
@JCJesseLai
Chieh-Hsin (Jesse) Lai
3 months
🚀Check our new work: PaGoDA!!! 🚀TL;RD: All you need is a 64x64 pixel diffusion model for a 512x512 1-step pixel generator! 🚀PaGoDA employs data-2-latent distillation (not noise-2-sample) and progressively trains a growing generator for resolutions
Tweet media one
4
16
67
0
31
143
@mi141
mi141
2 years
新しい動画です。拡散モデルと基盤モデルの関係について、 ・基盤モデルによる拡散モデルの拡張 ・基盤モデルとしての拡散モデルの活用 の2つの視点で、様々な技術をざっくりと紹介してます。 社内講演の再録なので資料は英語ですが、日本語で喋ってます。お気軽にどうぞ~
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
28
140
@mi141
mi141
2 years
松井先生の転移学習の講演面白かった。 同じタスク間でsim2realでスケール則が成り立つ話()は初めて知った。実データの異タスク間では成り立たなそう()なので、これからますます学習用のシミュレーション技術が大事になりそうだなと思いました。
2
23
140
@mi141
mi141
1 year
CVPR2023のworkshopにて、共著論文の発表(oralで採択)があります。 拡散モデルを使った高品質&精緻な画像編集を、高速&省コストに実現する方法を提案しています。ご興味のある方はぜひ!(ちなみに筆頭は昨年度の新人で、初年度に取り組んだ研究をまとめたものです)
Tweet media one
@nm715_33
Naoki Matsunaga
1 year
📢 Our paper has been accepted by AI for Content Creation(Oral) of #CVPR23 . I am very appreciated for all reviewers and organizers and co-authors!!
0
6
19
0
18
139
@mi141
mi141
2 years
ということで、IBISML研究会にて学習済み拡散モデルの活用について講演させて頂きました! 講演で使ったマップ(と文献リスト)は以下です。今回試験的に作ってみたものなので、ご意見大募集です! 講演自体はたぶん再録してYouTubeで公開するような気がします(わからん)
Tweet media one
Tweet media two
1
20
136
@mi141
mi141
2 years
噂のRT-1に関する解説動画が出ました。 ロボティクスにおける基盤モデルとは何なのかについて考えさせてくれる面白い論文だと思います。17ヶ月かけてデータを収集している辺りにGoogleの本気度が伺えますね…
0
28
135
@mi141
mi141
1 year
<UniDiffuser> x(画像)とy(言語)という2つのドメインに対して - Marginal: xやyだけの生成(画像やテキスト生成) - Conditional: yを指定してxを生成、その逆(text-to-imageとimage captioning) - Joint: xとyを同時に生成(画像テキストペアの生成) を全部扱う拡散モデル。原理が面白い!
Tweet media one
1
17
132
@mi141
mi141
2 years
新しい研修動画シリーズが始まりました! 深層強化学習入門ということで、直感的な理解・使い方の習熟に特化した内容になっています。弊チャンネルは最新の論文解説に加えて、研修シリーズも充実してきたので初学者の方にも活用していただけるとありがたいです~
Tweet media one
Tweet media two
Tweet media three
1
14
134
@mi141
mi141
2 years
3月に函館で開催されるIBISML/PRMU/CVIM研究会にて「拡散モデルによる画像生成の最前線」というタイトルで講演します! 拡散モデルの画像・音・時系列データへの適用についてまとめて聞けるって凄い機会だと思うので皆さん是非!(私も楽しみです…!)
Tweet media one
0
27
130
@mi141
mi141
2 years
Transformerの出現以降、様々なモーダル・タスクを統一的に扱うモデルの研究が盛んですが、今回はそのうちのUni-Perceiver [CVPR2022]の紹介です 同じ会議でFLAVA、ICMLではOFAなど、続々と手法が出ている熱い分野ですね!
1
13
130
@mi141
mi141
2 years
また凄い動画生成が出てきましたね! Imagen + cascaded diffusion + video diffusion + progressive distillationでまさに集大成! Make-A-Videoはテキスト+画像で事前学習⇒動画でfinetuneですが、こちらはテキスト+画像とテキスト+動画の両方を同時に使って学習してます
1
17
127
@mi141
mi141
2 years
最近の拡散モデルの無双っぷりを見て「うおーすげー!!」ってなる人多いと思うんですけど、この現象は一定以上の年代の人は若干デジャヴ… そう、2012年のImageNetショックですね 大量のデータとリソースで殴ったら実は凄かったです、というあたりも似てる気がします(拡散モデルの初出は2015年)
1
11
129
@mi141
mi141
2 years
NeurIPS2022採択論文。すでに読んだもので印象に残ったもので言うとDDRMが面白いです。線形劣化を復元するタイプのタスクを、学習済み拡散モデルを使って統一的に解けます (c)(d)は、かの有名なICLR2021 award論文で取り組まれてますが、更に一般的に解いててとても綺麗です!
Tweet media one
1
18
126
@mi141
mi141
5 months
こちらSSII2024で講演します。ちなみに、私の講演はマジで今昔物語+αにするつもりですが、拡散モデルに特化した話は技術動向解説セッションのほうで、噂のSakana AIさんから講演があるそうです。他にも面白企画が目白押しなので、ぜひご参加を!(参加登録始まりました)
Tweet media one
Tweet media two
@mi141
mi141
5 months
某国内会議で「画像生成の歴史10年分を25本の論文で���解くぞ」みたいな講演をするんだけど、論文選ぶの難しすぎるね…
0
3
43
0
28
124
@mi141
mi141
2 years
先週のSSII2022での講演では、特にモデルを転移するタイプの少データ学習が面白いという紹介をしましたが、もうひとつ強調しておきたいのが、SSIIのslideshareに過去に講演された凄く良い解説資料がたくさんあるよというお話です。みなさん是非チェックしましょう!!
Tweet media one
Tweet media two
0
16
124
@mi141
mi141
1 year
[MIRU2023共著1/3] テキスト指示に従ってNeRFを編集する「Instruct 3D-to-3D」を提案しています。拡散モデルでNeRFを生成するDreamFusionがベースですが、元のシーンの構造を保持しつつテキストの指示に従うための工夫が入っています。2日目にロングオーラルで発表予定です。
1
16
122
@mi141
mi141
2 months
以前の動画で、consistency modelsの上位互換であるCTMを紹介したのですが、同僚である著者自身による紹介動画が公開されてます!(しゃべりは英語ですが日本語字幕付き) ついでなので、私の知る限りでCTMの派生について、以下に紹介してみます↓
Tweet media one
1
14
118
@mi141
mi141
2 years
動画と音を同時生成する拡散モデル。モーダル間の情報統合を行うcross-attentionで、時間方向にランダムに範囲を限定。逆拡散でどうせ何回も推論するから、最終的にはglobalにattentionが取れるでしょ、というのが面白いですね(sampler変えられるのか心配ですが…?)
Tweet media one
1
28
119
@mi141
mi141
2 months
音声合成でも似たアプローチが提案されましたね。こちらは、自己回帰は素直に言語モデルっぽいものを使い、各トークンからの生成は拡散モデルではなくVAEっぽい方法をとっているようです。VALL-Eと比べて(客観評価より)主観評価がすごくよくなっているけど、なぜだろう…?
Tweet media one
Tweet media two
@mi141
mi141
2 months
Kaiming Heのグループから出た論文、めっちゃ面白い。 離散表現を使わずに自己回帰型生成モデルを学習する方法の提案。離散表現の獲得が大変な画像や音の分野にはありがたい話。論文を読んでて『自己回帰』の定義で若干混乱したので、以下、備忘のためにメモ。
1
40
280
1
19
118
@mi141
mi141
2 years
というか、世界中の研究者が紹介する最新ML研究を無料で聴ける理研AIPセミナーはもっと評価されるべき。 DoorKeeperで登録()すればセミナーの案内がたくさん来るし、録画したものもYouTube()で見れる。なんでこんなに参加者・登録者少ないねん…
0
30
114
@mi141
mi141
2 years
テキスト指示通りに画像を編集するInstructPix2Pix、学習データの作り方が凄い! (1)captionから編集指示と編集後captionのペアを(700samplesでfinetuneした)GPT-3で生成 (2)編集前後のcaptionからprompt2promptで画像生成 これで編集指示と編集前後画像ペアの出来上がり…
Tweet media one
Tweet media two
1
17
114
@mi141
mi141
1 year
こちら非常に凝縮された濃密な報告でしたね! ちなみに弊社からもCVPR2023のまとめ動画が出ているので、興味のあるかたは是非…!
Tweet media one
Tweet media two
@CVpaperChalleng
cvpaper.challenge | AI/CV研究コミュニティ
1 year
「CVPR 2023 速報」のスライドが公開されました!300ページ超だった速報資料も研究メンバーの熱量で40ページ程度に圧縮しております! #MIRU2023
1
47
175
0
18
110
@mi141
mi141
2 years
Video Diffusion Model (VDM)を使って、テキストで動画を編集(動画変換に近い) UniTuneと似て、特定の動画でfine-tuneするアプローチですけど、VDMの性質をうまく利用してますね。動画だけでなく静止画のノイズ推定もできるので、fine-tuneの損失に両方使ってます。
1
20
107
@mi141
mi141
2 years
実はすっごいこっそりとtext-to-imageの拡散モデルの学習コードが追加されてます。LAIONデータセットのローダーもあるので、やる気と電気とGPUさえあれば誰でもImagenもどきが作れます!すごい!
@NNC_NNL_jpn
NNC_NNL Japan
2 years
Neural Network Libraries v1.32.0をリリースしました! auto-forwardモードの改良による2倍以上のメモリ効率化とオーバーヘッド削減による高速化に加え、python3.10のサポートも開始しました。 #sony #neuralnetworklibraries
0
5
25
0
22
108
@mi141
mi141
2 years
新しいコンセプトを少数データで学習するtext-to-image、また新しい手法が出てますね~ これ系の技術、↓の2枚目のような分類をしたことがあるんですが、基本は②で、①もできますみたいな感じでしょうか。正則化目的で補助的な学習データも併用するのは面白いですね。
Tweet media one
Tweet media two
1
7
106
@mi141
mi141
3 years
「万能な事前学習済みモデルを得るために何が必要だったのか?」というテーマでCVPR2021とICML2021の論文(いずれもhonorable mention!)を紹介しました。教師なし表現学習の話ですが、前者のSimSiamだけ読んで満足してる人は、めっちゃもったいないので是非見て下さい!
0
13
106
@mi141
mi141
9 months
ML分野で社会人博士に興味がある人のためのマッチングイベント! これだけ凄い先生方に相談できるとは、素晴らしい企画ですね…。CV分野でもMIRUとかに併設して開催したらめっちゃ良さそう(むしろ産業界の参加者が多いSSII or ViEWかな?)
Tweet media one
Tweet media two
@jsai_ml
人工知能学会 jsai-ann ML
10 months
機械学習社会人博士イベント(信学会IBISML/理研AIP)
0
10
43
1
23
105
@mi141
mi141
3 months
余談なんですが、先日の講演で(歴史以外で)微妙に強調したのが以下のスライドです。 センシング屋さんに対する『画像生成は他人事じゃないかも』というメッセージである一方、 雰囲気で画像生成を使いたくなった時に『このタスク、本当に生成で解かなきゃダメだっけ?』と考える基準でもあります。
Tweet media one
Tweet media two
@mi141
mi141
3 months
本日、SSII2024での講演で使用した資料は以下で公開されています。たくさんの研究を駆け足で紹介していったので、じっくり見直したいかたや、SSIIは参加してないけど画像生成AIの歴史をざっくりと知りたいぞというかたはどうぞ!
0
69
258
0
10
104
@mi141
mi141
2 years
話題になってたMuseをざっと読みました MaskGIT [CVPR2022]の正統進化版(text条件受け付け+高解像度化のための2段階構成)という感じですが、MaskGITを知らないと論文の方はちょっと読みにくいので、メモ代わりにMaskGITについて以下にまとめます(所感を含むので注意)
Tweet media one
1
19
103
@mi141
mi141
3 months
SSIIの30周年記念特別企画である『SSII技術マップ』が続々と公開されてます! ソニーからは、『���メージング技術』『ViT』『生成モデル』のマップ作成に若手メンバが協力していますので、ぜひご覧ください! 画像生成に関しては、私のほうからも明日講演(OS1)があります~
Tweet media one
Tweet media two
Tweet media three
0
19
104
@mi141
mi141
3 years
共著ですが、クロスモーダルタスク向けのtransformerに関するサーベイ論文がIJCVに載りました。流れの速い分野ですが、俯瞰したい人にオススメです!
0
11
104
@mi141
mi141
2 years
Text-to-imageで特定物体を登場・編集する技術が流行ってますね! 対象にトークンを割り当てて、 (1) Textual inversion: トークンだけ最適化(モデル固定) (2) Imagic: トークンとモデルを両方少しずつ最適化 (3) DreamBooth (4) UniTune: モデルだけ最適化(レアなトークンを適当に選んで固定)
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
13
98
@mi141
mi141
1 month
来週のMIRU2024では、動画と音の同時生成について発表するんですが、せっかくなので興味のある方向けにいくつか最近の研究例を紹介したいと思います! おそらく最もよく知られているのがMM-Diffusionだと思います。まさに動画・音向けのU-Netを設計しましたよーという感じです
Tweet media one
@mi141
mi141
2 months
MIRU2024()にて、動画生成と音生成を悪魔合体して、動画と音を同時生成する話をします! ちなみに、このような同時生成は、ガイダンスを使う方法[1]や、masked generative transformerを使う方法[2]も提案しているので、興味のある方はぜひ議論しましょう!(リンクは↓)
Tweet media one
1
7
58
1
19
96
@mi141
mi141
1 year
六本木にあるオフィスに初めて出社しました。めちゃくちゃイケイケのスタートアップみたいな感じ(?)でした。
Tweet media one
0
2
93