furusu @gcem156 Twitter profile

Pinned Tweet

furusu

@gcem156

9 months

おまんこ

0

7

Last Seen Profiles

@KitmikiHomes

@soooma1739607

@Antalyitiraf_

@FalazioForever

@Northern_Child

@misa_lychee

@bokeplokalmalam

@Arikiaraa

@weedlove10

@MikeyBlKEY

@estrid_am

@stefanpinto

@Calyrex_TK7

@knahee_

@VTrendSongs

@eduherasyt

@readfearn

@Chugga_Boom

@AmbFeiShengchao

@pmalston

@atarc

@DotsNCuts

@Genevieve462511

@akkadikoy

@sweetiebelleth

@stw46

@bokeplokalmalam

@Chugga_Boom

@eusexsymbol

@Steph13Freed

@stw_pdg

@kimulleuer

@stwmaniax

@AriGTRock

@Grangepark2013

@aot_fate211

furusu

@gcem156

2 years

プロンプトを変更せずに画像だけを使って生成するキャラクターや衣装を指定する手法を記事にしました img2imgと違って完全なノイズからの生成です

プロンプトを変えずに色んなキャラを生成する！（Prompt Free Generation）｜gcem156

　今回の目的は、プロンプトを考えずに適当な画像を入力するだけで、それっぽい画像を生成するモデルを作ることです。そのために、画像分類モデルの出力をStable diffusionのUNetが理解できるように学習し、画像自体をプロンプトとして扱えるようにします。 ※自分の記事があまりにも面白すぎて冗長になってしまったので、太字部分だけ読んでもだいたい分かるようにしています。ばっくぐらうんど...

note.com

0

75

219

furusu

@gcem156

1 year

WqW

Stable-Diffusionの学習設定まとめ｜gcem156

　なんか学習設定について、よく分からんけどデフォルト！とかよく分からんけどこうしてみたらうまくいった！みたいな感覚で議論されていることが多い気がするので、学習設定についてまとめてみようと思います。機械学習のこと知らん人にも分かるようにするはずの記事でしたが多分そうなってないです。間違いもあると思いますが、私の記事が間違っていたとしても、悪いのは私よりも頭がいい人が分かりやすい説明をしないせい...

note.com

0

61

223

furusu

@gcem156

1 year

妻「画像生成AIで私を作ってみてよ！」夫「分かったよ。 beautiful, elegant, kind, intelligent, ...」妻「そんな・・・照れるわ///」夫「よし、negative promptはできたぞ！」

0

32

109

furusu

@gcem156

1 year

おまんこ

Stable Diffusionの生成設定まとめ｜gcem156

　前回学習設定の記事を書きましたが、しょうもないネタ画像を作るのが面白かったので、生成についても書いていきます。WebUIにある機能を中心に書きますが、実装をみないでフィーリングで理解してる部分もあります。生成過程について　Stable-Diffusionは拡散モデルというもので、完全なノイズからノイズを除去していって画像を生成するとかいいますね。ざっくりと以下のような図で表されます。...

note.com

0

22

124

furusu

@gcem156

2 years

ControlNet + PFG これもうなにがtxt2imgなんだ？ネガティブプロンプトはあるけどｗｗｗ

0

33

118

furusu

@gcem156

1 year

既存のイラストを参考にして新しい画像を生成するwebui拡張｜gcem156

　これのwebui拡張を実装したので記事にします。　実装にwebuiのPRを通す必要があって、githubの方が英語（DeepL語）になってしまったので、こっちで使い方をあげておきます。あと色々な拡張と組み合わせることができるはずなので、それも試します。環境構築 https://github.com/laksjdjf/pfg-webuiを他の拡張と同じようにインストールしてください。そん...

note.com

0

22

89

furusu

@gcem156

11 months

アニメスタイルの軽量版SDXLを作った

furusu/SSD-1B-anime · Hugging Face

huggingface.co

0

24

79

furusu

@gcem156

10 months

animagine_xl2.0用に学習したLCM-LoRAあげてみた多分性能上がってんじゃね

lcm-animagine.safetensors · furusu/SD-LoRA at main

huggingface.co

2

14

67

furusu

@gcem156

1 year

130行の学習コード作った

GitHub - laksjdjf/min-sd-trainer: 学習用

学習用. Contribute to laksjdjf/min-sd-trainer development by creating an account on GitHub.

github.com

0

7

53

furusu

@gcem156

1 year

自分のコードの説明つくった

Stable Diffusion追加学習のやり方｜gcem156

　みなさんStable Diffusionという画像生成AIをご存じでしょうか。このAIはオープンソースとして公開されており、自分が好きなように学習させることもできます。今回は私のコードの無給テスターを募集追加学習のやり方を紹介していきます！！ Kohyaさんのコードとの違い長所顔だけ学習みたいなことできる pfgを学習できる（？） ControlNetを学習できる pfgとLoRAの同...

note.com

0

14

51

furusu

@gcem156

2 years

webui対応のネガティブプロンプト強弱を設定するスクリプトを作りました #stablediffusion

GitHub - laksjdjf/negative_prompt_scaling_for_webui: scale nagative prompt

scale nagative prompt. Contribute to laksjdjf/negative_prompt_scaling_for_webui development by creating an account on GitHub.

github.com

5

21

50

furusu

@gcem156

1 year

機械学習知らない人向け学習設定の説明記事を書いてみてるけどもうだめかもしれん

0

9

46

furusu

@gcem156

1 year

5GBのcontrolnet ...

diffusers/controlnet-canny-sdxl-1.0 · Hugging Face

huggingface.co

1

13

47

furusu

@gcem156

1 year

画像をプロンプトのように扱うIP-AdapterのComfyUIカスタムノードを試験的に作ってみたよアニメイラストは、なんだかそれっぽい感じのは返ってくるけど...という感じテキストプロンプトと組み合わせればいい感じになるのかもしれない

0

12

46

furusu

@gcem156

1 year

LECOがやっていることを解説する｜gcem156

　LECOとはモデルから特定の概念を取り除いたり、付与することができるLoRA学習法です。特徴は教師画像が必要ないことで、欠点はモデルがすでに覚えている概念しか扱えないことです。実装元論文 Erasing Concepts from Diffusion Models Motivated by recent advancements in text-to-image diffusion,...

note.com

0

18

46

furusu

@gcem156

1 year

(ｗ)ｗ(ｗ)ｗｗｗｗ

0

16

42

furusu

@gcem156

2 years

Stable Diffusionでmimicする｜gcem156

　私がStable Diffusionの追加学習に興味を持った当初の理由はmimicをオープンソースですることだったのですが、それがほとんどできるというかそれを越えるようなことができたのでやります。Colabの無料版でもたぶんできます。追記：Colabのアップデートによってxformersのインストールに失敗するかもしれません。代わりに!pip install xformersとすればたぶ...

note.com

0

19

45

furusu

@gcem156

8 months

animagine xl 3.0用のlcm-loraあげたけど要調整かもしれん lcm sampler alternativeをうまく使う必要があるかも

lcm-animagine-3.safetensors · furusu/SD-LoRA at main

huggingface.co

0

16

44

furusu

@gcem156

1 year

プロンプト欄がスッキリした！！！

1

7

40

furusu

@gcem156

8 months

SDXLの層別サイズです(fp16のMiB)

1

9

40

furusu

@gcem156

1 year

SDXLのip-adapterに対応したよあと画像をあらかじめ正方形パディングしたり顔検出していい感じに切り抜くノードを作ってみた多少見切れるのを防げるぽい...

1

9

37

furusu

@gcem156

1 year

正直なところリークうんぬんって本当にどうでもいいというかAIに関する倫理とか法とかどうでもいいこういうのって技術のことがわからない人でも話題についていけるから盛り上がってるだけでしょとしか思ってない

0

5

37

furusu

@gcem156

2 years

latent coupleの改良版です生成がはやくなります

複数キャラクターを分けて生成するLatent coupleの改良版！（Attention Couple）｜gcem156

　先月複数キャラクターを特徴が混じらないように生成する技術が公開されました。今回はこれの改良（たぶん）手法を提案します。 Colab 　Attention coupleとLatent coupleの両方を試せるようになってます。比較してみてください。この実装では計算時間が半分くらいになることが確認できます。（実装が間違っていたらごめんね） Google Colaboratory colab....

note.com

0

13

37

furusu

@gcem156

1 year

ｖーｖ

Waifu Diffusion1.5のディテールをあげるLoRAを作ってみた｜gcem156

　以前ControlNetを��って何故かディテールをあげられるという記事を出しましたが、ControlNetを使うと生成が重くなるのでできれば避けたいです。今回はコピー機学習法の亜種というか変態バージョンみたいなのを使ってこれをLoRA化させてみます。コピー機学習法について　コピー機学習法とは、1枚の画像をひたすら学習して、どんな設定にしようがその画像そのものを生成するまで過学習したモデ...

note.com

1

12

36

furusu

@gcem156

1 year

LoRAとLoHAの階数を比較する｜gcem156

　KohakuBlueleafさんが公開しているLoRAの強化プロジェクト？LyCORISの中にLoHAというLoRAの拡張版があります。今回はその手法について分析していきます。元論文 FedPara: Low-Rank Hadamard Product for Communication-Efficient Federated Learning In this work, we...

note.com

0

9

35

furusu

@gcem156

1 year

Stable Diffusion学習のVRAM使用量を調査する｜gcem156

　調査するぞ調査すると徹底的に調査するぞ！！！基本設定　調査に使う学習コードは疑似的に作成したものになります。画像データ等は使わず、ランダムなテンソルをネットワークに入力します。VAEは使いません。共通設定を以下のようにします。モデル：Stable-Diffusion-v1.5 バッチサイズ：[1, 2, 3, 4, 6, 8, 10, 12, 14, 16] 画像サイズ：768×768...

note.com

1

12

35

furusu

@gcem156

1 year

√

ControlNetで何故か生成画像の質を調整できた話｜gcem156

　ControlNetを使って画像の線や陰影の強さを調整できるということが分かりました。なぜそんなことができるかという考察と、それ以外のこともできんじゃねということとか、応用すればUNet内の各チャンネルの性質が理解できるようになるのではという話です。多分前置きがあまりにも長いです。 ControlNet1.1からの新しい設定　ControlNet1.1がでてきましたね。私は新しくでてきた...

note.com

0

12

34

furusu

@gcem156

1 year

AI art(笑) 1枚作ってそれを64×64分割してimg2img

0

6

32

furusu

@gcem156

1 year

pytorch版のwd-tagger-vit 多分できた

GitHub - laksjdjf/wd-v1-4-tagger-pytorch: wd-1-4-tagger converted to pytorch

wd-1-4-tagger converted to pytorch. Contribute to laksjdjf/wd-v1-4-tagger-pytorch development by creating an account on GitHub.

github.com

0

7

31

furusu

@gcem156

11 months

あうあう

SDXLの軽量版モデルからアニメモデルをつくる｜gcem156

SDXLの軽量版とかいうのが出てきたのでこれをアニメ化します。 segmind/SSD-1B · Hugging Face We’re on a journey to advance and democratize artificial inte huggingface.co できたモデルはい https://huggingface.co/furusu/SSD-1B-anime モデルについて...

note.com

0

10

30

furusu

@gcem156

1 year

plusモデルへの対応と複数画像の入力とマスクによる領域指定を追加しますた。あとおそらくバグをいっぱい増やしました。

0

7

29

furusu

@gcem156

1 year

Pythonより35000倍早いPython

1

29

furusu

@gcem156

2 years

あ

GitHub - laksjdjf/pfg

Contribute to laksjdjf/pfg development by creating an account on GitHub.

github.com

0

10

28

furusu

@gcem156

1 year

たとえば8bitAdamのVRAM削減量は学習対象のパラメータ数に比例するので低rankのLoRAを学習するときにはほとんど意味がありません、みたいな情報をほとんどの人が知らずに適当に設定しているだろうという現状を変えたいのだが、誰も読まないであろう謎の長文ができあがるだけになる

0

4

26

furusu

@gcem156

2 years

webuiでABaGを実装する拡張を公開しました

GitHub - laksjdjf/ABaG-webui: ABaG for webui

ABaG for webui. Contribute to laksjdjf/ABaG-webui development by creating an account on GitHub.

github.com

0

10

28

furusu

@gcem156

10 months

Latent Consistency Modelによる蒸留を試してみた｜gcem156

　1～8ステップくらいで画像生成ができるようになるLatent Consistency Modelをつくります。まずはLatent Consistency Modelの説明をし、次に蒸留体験記を書いていきます。性能は微妙ですが、個人的にはうまくいくことが分かっただけで満足です。生成なんてしないしー。 furusu/LCM-Acertainty · Hugging Face We’re on a...

note.com

0

9

28

furusu

@gcem156

1 year

画像の説明文使えば140字制限突破できるやん

0

4

26

furusu

@gcem156

1 year

なんかすごそうだけどhuggingfaceにやばめなモデルとか詰め込んでてわろた

GitHub - SHI-Labs/Prompt-Free-Diffusion: Prompt-Free Diffusion: Taking "Text" out of Text-to-Image...

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models, arxiv 2023 / CVPR 2024 - SHI-Labs/Prompt-Free-Diffusion

github.com

0

1

26

furusu

@gcem156

1 year

LECOの自前実装とりあえずできた精度はともかく意図通りには動いてるぽい 2/(n+1)の割合で学習時間を削減できるがどのくらいnを増やしていいものなのか謎

0

10

25

furusu

@gcem156

1 year

機械学習知らない人向け....？？？

0

3

24

furusu

@gcem156

1 year

ああああ

DiffusersでFlashAttention-2を使う｜gcem156

　とりあえずメモインストール　githubに書いてある通りなんですが、クラウドのA100インスタンスのような化物構成の場合、 pip install ninja pip install flash-attn --no-build-isolation となります。Colabだと30分以上かかりました・・・。 RAMが少ない場合（というか一般的なPC）は、並列スレッド数が大きすぎるとOOMが...

note.com

0

6

26

furusu

@gcem156

1 year

いいきじだああうあ

誰でもわかるStable Diffusion　Kohya_ssを使ったLoRA学習設定を徹底解説 - 人工知能と親しくなるブログ

前回の記事では、Stable Diffusionモデルを追加学習するためのWebUI環境「kohya_ss」の導入法について解説しました。今回は、LoRAのしくみを大まかに説明し、その後にkohya_ssを使ったLoRA学習設定について解説していきます。 ※今回の記事は非常に長いです！この記事では「各設定の意味」の…

hoshikat.hatenablog.com

0

5

25

furusu

@gcem156

1 year

低解像度画像と高解像度画像をそれぞれノイズ付与していくと途中段階ですでに見分けがつかなくなるらしいだから拡散モデルを使った超解像は途中のステップからやればよくねという今更感ある話だけど、Hires fixの根拠になりそうな話だなあと思った

PartDiff: Image Super-resolution with Partial Diffusion Models

Denoising diffusion probabilistic models (DDPMs) have achieved impressive performance on various image generation tasks, including image super-resolution. By learning to reverse the process of...

arxiv.org

0

6

22

furusu

@gcem156

10 months

これ：https://gist.github.com/kohya-ss/3f774da220df102548093a7abc8538ed

これ：https://gist.github.com/kohya-ss/3f774da220df102548093a7abc8538ed - kohya_hiresfix.py

gist.github.com

Kohya Tech

@kohya_tech

10 months

昨日の、高解像度生成時に構図崩壊を防ぐ手法を詰めてみました。添付1枚目は2688x1536で通常生成した画像4つ、2枚目は適用して生成、同一seed。いずれもhighres fix適用なし。酒場と街は通常でもそこそこですが、適用したほうが安定してるのが分かると思います。

6

38

236

1

8

23

furusu

@gcem156

1 month

gemini 1.5 pro expつよくね

1

4

23

furusu

@gcem156

1 year

2つのLoRA(AB,CD)をマージするとき目標はAB/2+CD/2だけど、up層とdown層をそれぞれマージした(A+C)(B+D)/4は全く別物になる rankが同じだとしてもsvd_mergeをするしかないと思う目標重みとのコサイン類似度青がmerge_lora.pyで赤がsvd_merge_lora.py

0

5

22

furusu

@gcem156

1 year

なんじゃこりゃすごそ〜

GitHub - gnobitab/InstaFlow: :zap: InstaFlow! One-Step Stable Diffusion with Rectified Flow (ICLR...

:zap: InstaFlow! One-Step Stable Diffusion with Rectified Flow (ICLR 2024) - gnobitab/InstaFlow

github.com

0

7

22

furusu

@gcem156

1 year

attention couple ^(¢)^

0

5

22

furusu

@gcem156

1 year

ReLoRA、LoRAを学習→マージ→新しいLoRAを学習、を何度も繰り返すことでrankの制限を取っぱらうことができる感じか通常のLoRAのように少ないパラメータ数で差分をセーブできるわけじゃないけど、optimizer_statesが一気に減るので事前学習でVRAMを削減できる

0

3

21

furusu

@gcem156

3 months

llama.cppもllama-cpp-pythonもビルドのおぷちょんとしてLLAMA_CUDA_FA_ALL_QUANTS=trueをするとflash attention時にkv 量子化ができるようになるこれでcontextサイズ上げ放題だ

0

3

20

furusu

@gcem156

1 year

wd15のip-adapter-plusおいとく

furusu/IP-Adapter · Hugging Face

huggingface.co

0

7

20

furusu

@gcem156

1 year

FreeUのComfyUIお試しノードつくってみたよ Kohyaさんの実装をほぼ踏襲してる...はず custom_nodesにそのままいれたらloaderにApply FreeUが降臨します

0

9

20

furusu

@gcem156

1 month

animagine xlによる生成画像でいっぱい学習したLoRAを作る→マージしてaniamgine xlで作ったキャラ画像を学習してLoRAを作る後者だけ適用それなりにうまくいくようにはなってきた

1

6

20

furusu

@gcem156

2 years

LoRAの限界を探るべくrank 128で46000枚の画像を20エポックやった unetのtransformers内Linearだけ一つのLoRAにここまで学習させるアホは他にいないんじゃないかな純ファインチューンに比べて体感9割くらいのクオリティあるでもLoRAでこんな規模の学習をする意義はあまり感じないｗｗ

0

4

19

furusu

@gcem156

1 year

xlのアニメモデルに5000枚規模のキャラ画像を学習させると画風にかなり影響をあたえてしまっていたのだが、あえてsdxl-baseでLoRAを作ってみたらかなり画風への影響を抑えられている感じだ

1

3

19

furusu

@gcem156

11 months

HyperTileのComfyUIノードを実験的に作りますた 2K以上の高解像度画像を生成するときに結構効果あるみたいだね Token Mergingと似てるがself attentionをtile分けして計算するだけだよ ToMeと同じような事情でSDXLには効果ないですよ

hyper_tile.py

GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

1

3

18

furusu

@gcem156

7 months

convをdilation=2にするノード作ってみたよ 1664×2432がこんな感じで直接生成できるみたい画像はlcmつかってまつ

0

3

19

furusu

@gcem156

6 months

99%の男が見てる場所

2

5

19

furusu

@gcem156

6 months

例の比較で3.0→3.1で順当に性能が上がってることを確認できたよ

0

7

19

furusu

@gcem156

6 months

グラフ見るのがオナニーと同じくらい好き

Dart+WD-Taggerでプロンプトの忠実度を計測してみる｜gcem156

　最近出てきたプロンプト生成器 p1atdev/dart-v1-sft · Hugging Face We’re on a journey to advance and democratize artificial inte huggingface.co とWD-Taggerのv3 SmilingWolf/wd-vit-tagger-v3 · Hugging Face We’re on a...

note.com

1

7

19

furusu

@gcem156

1 year

論文解説記��になっちゃった...

0

16

furusu

@gcem156

11 months

Open?AI「どんなキャプションをつけたデータセットか一番いいか評価するためにいろんな設定で10億枚の画像学習したよ＾＾」世界観が違う

0

2

18

furusu

@gcem156

1 year

普通に生成→depthからキャラクター部分だけのノイズを作成→ControlNetに入力してキャラクター部分だけ書き込み量が増えるよう生成

0

18

furusu

@gcem156

1 year

LoRAのための特異値分解 - 勾配降下党青年局

特異値分解を解説する記事なんていくらでもありますが、LoRAに関連付けて話す記事なんてないと思うので、ここで書いてみます。まあ自分が特異値分解を理解するためでもあります。行列の右上カッコつき添え字に行数と列数を書きます。参考記事： yutomiyatake.github.io LoRA まずLoRAについて、重みの全…

xrg.hatenablog.com

0

6

18

furusu

@gcem156

1 year

pfgが追加の実装無しでlatent coupleに対応するのすごいな...

0

2

17

furusu

@gcem156

4 months

llmから着想を得てSDXLのTransformer層で同じ層を繰り返したりスキップできるノード作ってみたが沼すぎだこれ

0

3

17

furusu

@gcem156

6 months

新ControlNet？できてきたぞファイルサイズは8MB 生成速度はほぼ増えない

1

0

17

furusu

@gcem156

1 year

ip-adapter-plusがでてきたので対応中だよ plusブランチにとりあえず動いたのをあげた上がplusです。かなり忠実になってるね

0

3

16

furusu

@gcem156

7 months

Stable Diffusionの学習コードを作る：１.生成編｜gcem156

　学習コードに変な機能がいっぱい増えてわけわからなくなっちゃったので作り直すことにしました。せっかくなので記事にしてみます。完全なオレオレ学習コードなので全くゆうざあふれんどりぃでないものになる予定です！　方針として、モデルの定義以外は自前で実装します。モデルの定義はhuggingfaceとの連携辺りがめんどくさいのでやりたくないです。　※Noteに貼り付けているコードはGithubのも...

note.com

0

5

16

furusu

@gcem156

6 months

ためしにへんなのつくってみた

huggingface.co

0

3

16

furusu

@gcem156

8 months

fp8について色々やってみた

0

3

16

furusu

@gcem156

1 year

flash attention2すごそう FlashAttnProcessorは自前実装だよ F.scaled_dot_product_attentionと比べてdim=1,2の順番が逆なのに注意

1

3

16

furusu

@gcem156

1 year

顔画像を入力することに特化したip-adapterが実装されてる ComfyUIの拡張でも特に対応なしで使えるみたいデモを見ると実写系を意識してるみたいだが色々とやばそうだな

models/ip-adapter-plus-face_sd15.bin · h94/IP-Adapter at main

huggingface.co

0

1

15

furusu

@gcem156

2 years

プロンプトの指定なしで画像のみから生成するモデルができた全部プロンプトは「illustration of umamusume」のみ画像の質はあまり高くないけど...

0

3

16

furusu

@gcem156

1 year

ComfyUI面白いね〜

0

1

16

furusu

@gcem156

1 year

sd xlの学習意外と簡単に実装できた検証画像見てるけどかなり期待できるなこれ... (※アクセス権持ってないので全部想像です)

0

1

16

furusu

@gcem156

1 year

さんぷらーてんぷらーなんぷらー

さんぷらーについて - 勾配降下党青年局

各サンプラーの意味とかがなんとなく分かりたくて書いたものです。SDEやODEの導出に関する話はでてきません（分からんし）。拡散過程の定義サンプラーによって使われている文字の意味が違うので、ここでは文字をあわせていいきたいと思います。そのため論文の式そのままにできないので間違っている可能性があります。拡散過程は分散…

xrg.hatenablog.com

0

4

14

furusu

@gcem156

10 months

2週間LCMにささげて最終的な結論は8ステップで2枚生成するより16ステップで1枚生成した方が良い

1

2

15

furusu

@gcem156

11 months

512画像用に学習されたSDXLを使って512画像でLoRAを学習⇒普通のアニメモデルに適用して1024で生成結構うまくできてるぞ学習めっちゃ楽になる

0

1

15

furusu

@gcem156

1 year

ControlNetが成功したのも設計よりかはlllllllllllllllyasviel氏がユーザー視点まで降りてきてくれたことが要因な気がするな=¬=

0

15

furusu

@gcem156

10 months

そういえばこんなんやってた

GitHub - laksjdjf/dezero-diffusion: 拡散モデルのdezeroによる実装

拡散モデルのdezeroによる実装. Contribute to laksjdjf/dezero-diffusion development by creating an account on GitHub.

github.com

0

2

15

furusu

@gcem156

1 year

AI art(icle)

UNetが任意の解像度に対応できる理由｜gcem156

　Stable Diffusionは8の倍数であればどんな解像度の画像も生成できます。8の倍数でなくてはならないのは、VAEの出力が必ず8の倍数になるからです。つまりUNet部分は任意の解像度に対応することができます。　Stable Diffusionのことを学び始めたころは、まだ分類問題くらいしか触れたことがなくて、Pytorchになんども入力のサイズがあってない！と怒られたので、どんな...

note.com

0

3

14

furusu

@gcem156

1 year

LoRAで複数の概念を順番に学習するとき、今までの概念を途中で忘れるので、今までのLoRAの行列と学習中のLoRAの行列でアダマール積とって二乗和をペナルティにするそれによって変化するパラメータが今までのLoRAと被らないようになって忘却を防ぐあととーくんがあーだこーｄ

Continual Diffusion: Continual Customization of Text-to-Image...

Recent works demonstrate a remarkable ability to customize text-to-image diffusion models while only providing a few example images. What happens if you try to customize such models using...

arxiv.org

0

2

14

furusu

@gcem156

1 year

Stable Diffusionの学習速度をいろいろ比較する｜gcem156

　タイトルの通り比較します。学習設定使うのは自前の訓練コード学習用データセットは768×768画像128枚 Latentは事前に計算しておく（計測対象にはならない） UNetのみを学習対象とする torch2.0を使う diffusersは0.16.1を使う AMPを使用し、型はbfloat16にする AdamW8bitを使うバッチサイズはなるべく大きい値にする WD1-5を対象にす...

note.com

0

5

14

furusu

@gcem156

1 year

webui拡張(実験中)

GitHub - laksjdjf/Perp-Neg-stablediffusion-webui

Contribute to laksjdjf/Perp-Neg-stablediffusion-webui development by creating an account on GitHub.

github.com

0

1

13

furusu

@gcem156

8 months

animagine xl 3.0 学習なしはえ〜

0

1

13

furusu

@gcem156

2 years

やる気のない紹介記事

webui対応のネガティブプロンプト強弱設定スクリプト｜gcem156

　多分今のところネガティブプロンプトの強弱を変えるみたいな設定はないと思うので実装しました。()や[]でできるかもしれないですが、あれはUNetを通る前にやっているはずです。理論（と言えるのかは分からないけど）はgithubの方で見てください。使い方　githubの通りですが、中にあるnegative_scaler.pyをwebuiのscriptsディレクトリに入れるだけで��応できます。...

note.com

0

7

14

furusu

@gcem156

1 year

最強のGUIできた！！

0

1

13

furusu

@gcem156

5 months

animaginxl用のtcdのつもりだが本当にそうなのかよくわからない gamma=0.8くらいがよさげ

tcd-animaginexl-3_1.safetensors · furusu/SD-LoRA at main

huggingface.co

0

2

13

furusu

@gcem156

1 year

神機能が追加された

0

13

furusu

@gcem156

1 year

もはや趣旨が変わってきたが、guidance_scale=7.0で1girlにポジティブプロンプトやネガティブプロンプトを詰め込むことでcfg_scale=1.0でまともな生成ができるようになった。ネガティブプロンプトいらないので計算量が半分になる。

0

1

11

furusu

@gcem156

5 months

ｗｗ

0

5

13

furusu

@gcem156

1 year

こんなん書いてる間にdeepfloyd ifきててわろた〜

Stable Diffusion、UNetのすべて｜gcem156

　UNetの構造について書いていきます。またHyperNetworksやLoRAといったモジュールについても説明します。間違っているところがあっても謝りません。最初は大まかにみて徐々に小さいモジュール単位でみていきます。ResNetやVision Transformerのことを全く知らない人が読むことは想定していません。実装はdiffusersやStabilityAIのくそコードなんかよりわ...

note.com

0

4

13

furusu

@gcem156

9 months

SDXLとSD1.5を繋げるモジュールを学習することで、SD1.5で学習された任意のプラグインをSDXLで使えるようにするすごい変態的手法だｗｗ

0

13

furusu

@gcem156

1 year

皆が大嫌いな数式だよ

noise_predictionモデルとv_predictionモデルの損失 - 勾配降下党青年局

Stable-Diffusionのv1系は画像に加わったノイズを予測するモデルですが、v2の一部はvelocityというものを予測しています。この2つは損失関数が違うのでlossで比べられません。経験的にv_predictionモデルの方が3倍くらいlossが大きくなるイメージですが、数学的に確認していきます。ノイズ…

xrg.hatenablog.com

0

3

12

furusu

@gcem156

1 year

畳み込み層と全結合層の関係とLoRAの畳み込みへの拡張について｜gcem156

　深層学習の学習資料ではだいたい全結合型のニューラルネットワークの話から、畳み込みニューラルネットワークへと移っていくのが主流ですが、よく考えてみると畳み込みニューラルネットワークは本当にニューラルネットワークなの？という疑問を抱くようなものがほとんどだと思います。そのような話を分かりやすく解説している記事がありました。線形層と比較した畳み込み層 - HELLO CYBERNETICS...

note.com

0

4

11

furusu

@gcem156

6 months

学習データを1エポック学習させてできたLoRAをマージしてControlNetを学習→推論時はLoRAを外すことでスタイルの変化を防ごうとしてるのだが最初のLoRAをマイナス適用してみた(右) 結構いい感じか？

0

3

12

furusu

@gcem156

10 months

LCMに取り憑かれた結果

2

0

12

furusu

@gcem156

1 year

Perp-Negの説明

ネガティブプロンプトの理論とPerp-Neg - 勾配降下党青年局

ネガティブプロンプトに関する面白そうな論文を見つけたので、ちょっと読んでみますが、その前にネガティブプロンプトの理論的な背景について自分なりの解釈でまとめてみます。 arxiv.org いきなりですが、拡散モデルはスコアベースモデルと解釈できて、ノイズを予測するモデルは推定値がスコアと比例します。このスコアというのは…

xrg.hatenablog.com

0

3

12