Yuji Yamamoto @Mt_B00Ks Twitter profile

Pinned Tweet

Yuji Yamamoto

@Mt_B00Ks

3 months

B4の時のパワーが出ない。

0

Last Seen Profiles

@taekookrrss

@ItsOLY

@bokeplokalmalam

@hild3dlih

@Top698558615269

@byeol1013__

@malluactressnew

@Modest_M2

@HessianUSA

@caughtbyJ

@kiz_fol

@FENN_ominal

@slaughter_ford

@dvargas92495

@ChhayaGupta13

@bostonteam

@oluwafemioyeb14

@team__axon

@Muromi19

@Paolo78475202

@tkane

@cloudyzuha

@thiindz

@luigi_qb

@ChadWRussell_

@TokenOfTheMonth

@poetmongo

@pepepon0107

@cheery_ang00

@RyanBterp

@nana_illust

@liltomatofry

@lpvti

@celinhocruzeir6

@idsb_swift

@GetScarlet

Yuji Yamamoto

@Mt_B00Ks

2 months

「Transformer はブラックボックスである」から始まるイントロはこの辺↓の成果から目を背けている感がありモヤる個人的に Transformer の挙動はほぼ明らかになってると思っていて、まだ明らかになってないことはモデルというより言語の性質が原因な気がする（素人の勘）

A Primer on the Inner Workings of Transformer-based Language Models

The rapid progress of research aimed at interpreting the inner workings of advanced language models has highlighted a need for contextualizing the insights gained from years of work in this area....

arxiv.org

0

81

543

Yuji Yamamoto

@Mt_B00Ks

7 months

@ZeniYuki0922 「でもすぐ死んじゃうじゃん」

1

30

408

Yuji Yamamoto

@Mt_B00Ks

7 months

@ZeniYuki0922 これを思い出しました

2

60

340

Yuji Yamamoto

@Mt_B00Ks

3 months

世界を救うコード try: train_result = trainer.train() except torch.cuda.OutOfMemoryError: trainer._save_checkpoint(model, trial=None) raise

2

23

250

Yuji Yamamoto

@Mt_B00Ks

5 months

matplotlib をかっこよくできるやつこのライブラリの出力画像が $49 で売られてるの草

0

18

137

Yuji Yamamoto

@Mt_B00Ks

8 months

なんかの分析中に右上図みたいなのが出力されて、普通に実装ミスったと思って反射的にそっ閉じしたけど、アレまじだったんか

0

6

84

Yuji Yamamoto

@Mt_B00Ks

8 months

言語処理学会で面白かった話が arxiv に投稿されていることを今更知った

Sentence Representations via Gaussian Embedding

Recent progress in sentence embedding, which represents the meaning of a sentence as a point in a vector space, has achieved high performance on tasks such as a semantic textual similarity (STS)...

arxiv.org

0

8

85

Yuji Yamamoto

@Mt_B00Ks

3 months

アプローチは違うけど，示していることは自分の研究の完全上位互換に見える… 数学の素養が無いのですらすら読めないけど，Mamba と Transformer の気持ちは理解している自負はあるので頑張って読むか

State Space Models are Comparable to Transformers in Estimating...

Deep neural networks based on state space models (SSMs) are attracting much attention in sequence modeling since their computational cost is significantly smaller than that of Transformers. While...

arxiv.org

1

82

Yuji Yamamoto

@Mt_B00Ks

9 months

最近の疑問 BERT の注意がこうなるのは token_type_embedding のおかげだと思う。じゃないと "the" 同士は強く注意を向け合いそうなので。でも、RoBERTa とか DeBERTa にはこの embedding がないから恐らくこれはできない。じゃあなぜ GLUE で BERT より強いのか

1

8

75

Yuji Yamamoto

@Mt_B00Ks

5 months

NLP2024 の参加記書いた（未校正）

NLP2024 参加記

全体の感想

yuji96.github.io

1

8

57

Yuji Yamamoto

@Mt_B00Ks

6 months

NLP2024 アブスト一覧ページできたーもっと仕上げたいという欲をなんとか抑えてるちなみに、以前の PDF をイジイジしていた知見は一切活きてなくて、unilex-transcript が \section{hoge} を <hN>hoge<hN> にしてくれたの抽出してる

GitHub - fmalina/unilex-transcript: Get semantic HTML from PDFs, recover lost text, tables, data......

Get semantic HTML from PDFs, recover lost text, tables, data... in bulk. - fmalina/unilex-transcript

github.com

Yuji Yamamoto

@Mt_B00Ks

7 months

これを上手いこと流用すれば NLP2024 のアブスト一覧ページ作れたりして！？（ハードコーディングなのでほとんどの pdf の構造が同じであれば）

0

4

0

16

52

Yuji Yamamoto

@Mt_B00Ks

3 months

"low-dimensional capability space" ってなんのことかと思ったらリーダーボードをPCAしてた。すごい発想

1

7

53

Yuji Yamamoto

@Mt_B00Ks

11 months

EMNLP に採択されました🎉 interesting だけど concern がいっぱいあるという review で朝はもやもやしていましたが、それらをカバーするほど interesting だったと捉えて今は喜びを強く感じております

8

0

48

Yuji Yamamoto

@Mt_B00Ks

3 months

GPT-4o が検索できるらしいので自分の研究成果を聞いたら NAIST と共同研究していると言われた。引用先を見にいったらこの部分が参考にされたっぽい

0

8

47

Yuji Yamamoto

@Mt_B00Ks

4 months

採択ありがとうございます

Yuji Yamamoto

@Mt_B00Ks

5 months

@Yobinori 破滅的忘却 (catastrophic forgetting) 核サンプリング (Nucleus Sampling)

0

10

3

46

Yuji Yamamoto

@Mt_B00Ks

4 months

CVでもNLPと同じこと起きてたんだ

ヤツガニ君列伝

@tackson5

4 months

おもしろい！たしか受賞論文。ViTのattentionマップは少数パッチにspikyに集中。なぜ？調べると、このパッチは周囲と比べて冗長で大して有用な情報を持ってない→この無駄なパッチを使ってglobal infoを集約するノードとして利用してるのでは？→最初から冗長なtoken（レジスタ）を用意すると直った！

0

24

238

1

2

45

Yuji Yamamoto

@Mt_B00Ks

7 months

地球儀上の位置埋め込み？

0

3

44

Yuji Yamamoto

@Mt_B00Ks

8 months

loss = (タスク) - (異方性) としてわざと異方的にしようとすると性能が上がったのは、邪魔な項が足されたから負けじと (タスク) が頑張った可能性は全然ありそう。異方性がある方が性能向上する根拠 (Fig.3) よりも学習曲線が気になる。

Stable Anisotropic Regularization

Given the success of Large Language Models (LLMs), there has been considerable interest in studying the properties of model activations. The literature overwhelmingly agrees that LLM...

arxiv.org

1

3

39

Yuji Yamamoto

@Mt_B00Ks

7 months

openreview API で ICLR2024 一覧作りました。

2

5

31

Yuji Yamamoto

@Mt_B00Ks

2 months

retrieva-jp/bert-1.3b の位置埋め込み、学習時の系列長で境目ができてた。513 token 以降の精度どのくらいなんだろ - 系列長128: 31,000 steps - 系列長256: 219,000 steps - 系列長512: 192,000 steps - 系列長2048: 12,000 steps Longformer みたいに位置埋め込みを expand すれば回避できるのかな

1

3

31

Yuji Yamamoto

@Mt_B00Ks

5 months

小さいモデルだと dropout の有無でこんなに変わるんだ LLM ほどパラメータが増えるとどのくらい重要なのかとか検討してる文献ないかな

2

29

Yuji Yamamoto

@Mt_B00Ks

2 months

mamba のアルゴリズムでは A.shape -> (D, N) だけど実装では (N,) だった

0

4

28

Yuji Yamamoto

@Mt_B00Ks

5 months

新B4にモデル学習手順を説明するなら環境構築: 研鯖は構築済モデル実装: センスでデータ処理・管理: datasets でよしなに？(知らん) 学習: yaml or bash を書くだけ実験管理: 大学なら wandb。実験名は時刻タスク実行 (生成、分類): 生成はめんどいので transformers でモデル分析: センスで

1

2

28

Yuji Yamamoto

@Mt_B00Ks

6 years

翠泉の金魚が青鷺に食べられた

0

3

25

Yuji Yamamoto

@Mt_B00Ks

3 months

学振提出した。この瞬間、俺が世界で一番偉い

1

0

25

Yuji Yamamoto

@Mt_B00Ks

2 months

0

3

25

Yuji Yamamoto

@Mt_B00Ks

7 months

ICLR2024 全タイトルに目を通そうの会 (1021 / 2251). しんど

2

0

24

Yuji Yamamoto

@Mt_B00Ks

11 months

YANS2023 の参加報告というか当日とその後の脳内を書きました。

YANS2023 感想書き流し

各発表については 1 ヶ月前の記憶に基づいて書いているため正確ではないかもしれません。

yuji96.github.io

2

11

24

Yuji Yamamoto

@Mt_B00Ks

7 months

NLP2024 の発表件数が600件ではなく599件であることの原因は僕が諦めたからです()

1

0

24

Yuji Yamamoto

@Mt_B00Ks

4 months

嗚呼、自分とほとんど同じ研究を見つけてしまった……

Itamar Zimerman

@ItamarZimerman

6 months

New!🚨📰 Mamba is a cool, efficient, and effective DL architecture, but what do we know about Mamba? How does it capture interactions between tokens? Can it be the attention-killer? In our work, "The Hidden Attention of Mamba Models" we provide answers to these questions! [1/4]

3

103

560

1

0

22

Yuji Yamamoto

@Mt_B00Ks

3 months

は？

1

23

Yuji Yamamoto

@Mt_B00Ks

3 months

NLP、急にやる気がプツンとなくなる可能性があるから、深層学習のより基礎の理論とかちょっとずらした分野に足突っ込んどいた方が将来虚無にならなくて良さそう

0

23

Yuji Yamamoto

@Mt_B00Ks

1 year

紹介されてた😎

NLP2023 に参加しました：聴講編 - クックパッド開発者ブログ

こんにちは。技術部機械学習グループの深澤(@fukkaa1225)です。 3月に沖縄で行われた言語処理学会2023に参加してきました。本連載の1つ目ではクックパッドとして「レシピに含まれる不使用な材料等に関する記述の抽出」という発表を山口(@altescy)がしてくれた様子をお伝えしました。自分は共著者兼聴講参加です。…

techlife.cookpad.com

0

20

Yuji Yamamoto

@Mt_B00Ks

11 months

おや？

1

2

20

Yuji Yamamoto

@Mt_B00Ks

2 months

そういえば ICML papers list が公開されてた

ICML 2024 Conference

Welcome to the OpenReview homepage for ICML 2024 Conference

openreview.net

1

0

20

Yuji Yamamoto

@Mt_B00Ks

6 months

大規模コーパス構築の元祖筆でひたすら書き写すガッツと原本が失われても残し続ける姿勢は見習うべき所だらけ

0

4

20

Yuji Yamamoto

@Mt_B00Ks

7 months

誰得メモです

Mamba メモ

論文 URL: https://arxiv.org/abs/2312.00752

yuji96.github.io

1

0

17

Yuji Yamamoto

@Mt_B00Ks

1 month

この開発方針だと transformers のアプデ待たずにバージョンアップできるのか。良いことしかなくないか。全モデルこの方針にしてほしいが時すでにお寿司

retrieva-jp/bert-1.3b at main

huggingface.co

0

5

18

Yuji Yamamoto

@Mt_B00Ks

3 months

リア充勾配爆発しろ

Yam Peleg

@Yampeleg

3 months

11

89

1K

0

1

17

Yuji Yamamoto

@Mt_B00Ks

4 months

「それを研究で明らかにしてなにが嬉しいんですか？」に対するアンサーが「俺」しか思いつかなくて詰んだ

1

16

Yuji Yamamoto

@Mt_B00Ks

4 months

うーんかなり難しい - config.json の定義は基本使われなさそう - generate() は generation_config.json の定義を使う - config.json の値が使われる挙動は v4.41で消える - special_tokens_map.json と tokenizer_config.json に別の値を定義すると混ざる - 前者が優先?

hiroshi matsuda

@hmtd223

5 months

config.json generation_config.json special_tokens_map.json tokenizer_config.json これらのどのspecial tokenの設定がどこで使われるかのまとめ資料を切望（たのむ）

0

11

1

3

16

Yuji Yamamoto

@Mt_B00Ks

11 months

Fee にユニバ代含まれてて草

Yuji Yamamoto

@Mt_B00Ks

11 months

EMNLP の会場の隣のユニバに Transformer がいるらしい

0

4

0

15

Yuji Yamamoto

@Mt_B00Ks

3 years

卒業してからどんどん偏差値が上がる母校

0

1

15

Yuji Yamamoto

@Mt_B00Ks

4 months

周辺の博士進学予定のM2みんな病みかけで草

0

15

Yuji Yamamoto

@Mt_B00Ks

1 year

YANS ハッカソン D チーム四人寄ればROUGEの知恵の手法を gradio とかで公開したいけど、いかんせん僕は明日から旅行なので鮮度が落ちちゃう

2

15

Yuji Yamamoto

@Mt_B00Ks

27 days

中途半端に賢くなったせいでプログラミングできなくなった。ライブラリとか並列処理を駆使した速くてシンプルな実装Aとforをネストしまくる遅そうな実装Bが思いついて、Aを実装しようとするが、ムズくてなかなか完成せず、先にBをしてれば終わっていたのではという毎日

2

0

14

Yuji Yamamoto

@Mt_B00Ks

1 month

#YANS2024 ハッカソン＆発表あり参加登録 done

1

0

14

Yuji Yamamoto

@Mt_B00Ks

5 months

21時〜26時に研究する人間になっちゃった

1

0

9

Yuji Yamamoto

@Mt_B00Ks

3 months

#イタリア

0

14

Yuji Yamamoto

@Mt_B00Ks

4 years

起きてすぐ何してんだ俺

0

13

Yuji Yamamoto

@Mt_B00Ks

5 months

ふと作りたくなったので作ってみたモデルサイズ比較図

1

13

Yuji Yamamoto

@Mt_B00Ks

3 years

最初に subplots の数とレイアウトを明示的に指定しなくても描画できちゃった。革命かな？ #matplotlib

1

0

13

Yuji Yamamoto

@Mt_B00Ks

16 days

今年の YANS 委員の衣装予測

1

0

13

Yuji Yamamoto

@Mt_B00Ks

4 months

元ツイの意図(=スライドの可愛さ)とは話題がズレますが、温度パラメータの調整が「温度を上げると拡散して下げると凝縮する」という物理的な直感と対応してることに気付いてから「高温度だと平坦と急峻のどっちになるんだっけ」に迷うことがなくなりました

hpp

@hpp_ricecake

4 months

現状かわいく作れている

0

50

0

13

Yuji Yamamoto

@Mt_B00Ks

3 months

簡単なタスクなのに正解率が全然上がらないから何度も実装ミスを疑ったけど，待てばぎゅんって上がった．なんやそれ．

0

13

Yuji Yamamoto

@Mt_B00Ks

3 years

季節が変わったので桜から紫陽花に変えました。 #新しいプロフィール画像

1

0

13

Yuji Yamamoto

@Mt_B00Ks

4 years

4コマ漫画

0

12

Yuji Yamamoto

@Mt_B00Ks

7 months

S4 の直後に vision に応用しようとしたら、そもそもが時系列モデルだから難しそうって話を聞いた気がするけど、双方向にするだけでいいのか。思い付かなかった。あと、Mamba の現実的なニーズって音声しか浮かばなかったけど高画質画像は身近で面白いことになりそう

Vision Mamba: Efficient Visual Representation Learning with...

Recently the state space models (SSMs) with efficient hardware-aware designs, i.e., the Mamba deep learning model, have shown great potential for long sequence modeling. Meanwhile building...

arxiv.org

2

12

Yuji Yamamoto

@Mt_B00Ks

5 months

無事、健康を診断してきた。体調悪いときは白湯がいいらしいので帰りに

3

0

12

Yuji Yamamoto

@Mt_B00Ks

1 month

warmup ってなんで要るんやと思ってたけど、「統計量を保持する optimizer を使う場合は、統計量を安定させてからパラメータ更新したほうが良いのかも」という回答は納得感ある。

In the context of Deep Learning, what is training warmup steps

I found the term "training warmup steps" in some of the papers. What exactly does this term mean? Has it got anything to do with "learning rate"? If so, how does it affect it?

datascience.stackexchange.com

0

11

Yuji Yamamoto

@Mt_B00Ks

4 months

llm-jpのwandbって公開されてたりするのだろうか。U字型のログが何なのかとても気になる

0

1

11

Yuji Yamamoto

@Mt_B00Ks

3 months

最先端NLP→夏院試→YANS とかいうハードスケジュールの予感

0

11

Yuji Yamamoto

@Mt_B00Ks

5 months

モデルマージ、面白さと同じくらい気持ち悪さがある。パラメータ空間どうなってんだろ。パラメータは埋め込みと積or和として絡んでるから、類似性・方向性のものさしみたいな感じで実は埋め込み空間にいたりして。そもそも埋め込みもパラメータの一種と思えばマージの気持ち悪さは減るけど

1

0

11

Yuji Yamamoto

@Mt_B00Ks

6 months

文章がめっちゃ読みやすくてこの論文の分析をしたくなってる

Yuji Yamamoto

@Mt_B00Ks

6 months

P2-18 Style SimCSE: SNSユーザ同一性に基づく対照学習によるスタイル類似性を捉えた文ベクトルの獲得

1

0

3

0

1

11

Yuji Yamamoto

@Mt_B00Ks

4 years

俺の課題の進捗全部消しやがった

1

0

11

Yuji Yamamoto

@Mt_B00Ks

2 months

試しに実装してみるかーーってコードは使い捨てにはならず、後々のコアになるので、常に整然としたコーディングをしましょう 1ヶ月後の自分より

0

1

11

Yuji Yamamoto

@Mt_B00Ks

6 years

最低の花火への誘い方「分��器持って音速と重力加速度求めに行こうぜ」

0

1

10

Yuji Yamamoto

@Mt_B00Ks

5 months

どう考えても chatgpt よりもラーメンのほうが偉大

0

1

11

Yuji Yamamoto

@Mt_B00Ks

7 months

気になるタイトルをメモっていたら 86 / 599 になっていた１割にも絞れてない。もしかして自分の興味、思ったより広い？（そんなに予稿を読む時間＆体力ないけど）

2

1

11

Yuji Yamamoto

@Mt_B00Ks

6 months

やはりいま求められてるのは CUDA エンジニアなのか

1

2

10

Yuji Yamamoto

@Mt_B00Ks

5 months

P9-14 In-Context Learning においてLLMはフォーマットを学べるかこれ、坂ラッシュ君の発表だったのか。ハンドルネームと一致してなかった

1

0

10

Yuji Yamamoto

@Mt_B00Ks

10 months

今日も一日中寝っ転がってしまって懺悔の深夜作業です。朝起きたときは毎日やる気あるのに昼になって急に全てのやる気なくすのはなんでだろね。

2

0

10

Yuji Yamamoto

@Mt_B00Ks

5 months

オレオレ LLM 開発フレームワーク作りたいと思ったけど、インターン終わったら GPU を失うので作り損になるななんだかんだ huggingface Trainer しか勝たんになってる（deepspeed, accelerate は未履修）

0

10

Yuji Yamamoto

@Mt_B00Ks

4 months

NAACL，タイトルだけ見れる

Accepted Papers

NAACL 2024 Accepted Papers

2024.naacl.org

1

0

10

Yuji Yamamoto

@Mt_B00Ks

7 months

時間を書けた結果、「分からない😱」が「分からない🤔」になった mamba-ssm の cuda 実装を（苦しみながら）追う #zenn 行列 B の離散化が論文通りに実装されてるのかご存じの方はリプで教えてほしいです

mamba-ssm の cuda 実装を（苦しみながら）追う

zenn.dev

1

0

10

Yuji Yamamoto

@Mt_B00Ks

5 months

学会の昼休みに尖っていることを自覚したほうがいいというコメントを貰ったのだが、NLP 界のザコシショウってこと？それってつまり……めっちゃ世の中に必要とされてるってこと？

1

0

9

Yuji Yamamoto

@Mt_B00Ks

2 years

僕の心は汚れているので、mac のデフォルト背景をスカート着てる人の脚と見間違えました。

0

10

Yuji Yamamoto

@Mt_B00Ks

10 months

今年一番感動したツールと言っても過言ではない

GitHub - ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to...

OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched - ocrmypdf/OCRmyPDF

github.com

1

0

10

Yuji Yamamoto

@Mt_B00Ks

11 months

俺「通知こねー」親「ノーベル賞の？」そんなわけがない

0

10

Yuji Yamamoto

@Mt_B00Ks

7 months

経験上大人数が苦手なので懇親会には参加せずに外食でちょっと贅沢する予定

0

10

Yuji Yamamoto

@Mt_B00Ks

5 months

久しぶりに (!?) 論文を読む。論文読んだ本数しかラーメン食えないことにしようかな

1

0

10

Yuji Yamamoto

@Mt_B00Ks

5 months

@Yobinori 破滅的忘却 (catastrophic forgetting) 核サンプリング (Nucleus Sampling)

0

10

Yuji Yamamoto

@Mt_B00Ks

8 months

（ビッグバン的進捗が発生しない限り）言語処理学会は一旦諦めることにしました… 初学会参加が想像の何倍も楽しかったので毎年出たいと思っていたけど早々に実現できなそうで悔しい

0

9

Yuji Yamamoto

@Mt_B00Ks

10 months

居酒屋にいたら唐突に理科大をバックに花火が上がった

1

0

9

Yuji Yamamoto

@Mt_B00Ks

15 days

面白すぎてマルチモーダルを本職にしたいまである

0

1

9

Yuji Yamamoto

@Mt_B00Ks

1 year

事務室でいただきました…

0

7

Yuji Yamamoto

@Mt_B00Ks

5 months

エントリーページを開いたことくらい就活してないのに博士課程の進学を決心してないの意味わからんと言われてたしかにそうだなと思いました

0

9

Yuji Yamamoto

@Mt_B00Ks

12 days

告って振られるという最悪の悪夢からの目覚め

1

0

9

Yuji Yamamoto

@Mt_B00Ks

2 months

大好き

Latexで簡単に文字数カウントしたい人へ - Qiita

前準備VSCodeプラグインにLatex Workshopをインストールしてビルドが通るようにする．これさえできていれば .tex ファイル単位で文字数をカウントできます．結論VSCodeで…

qiita.com

1

0

9

Yuji Yamamoto

@Mt_B00Ks

6 months

M2 に向けて刷新した研究テーマが開始 2 週間でゴール見えた感ある。まだ M1 なのだが

0

9

Yuji Yamamoto

@Mt_B00Ks

4 months

人類って学振書きながら並行で研究できるんですかと聞こうと思ったけど「できますよ」と言われて自己肯定感が負に発散する未来しか見えないので聞かない

0

9

Yuji Yamamoto

@Mt_B00Ks

6 months

大学では y = f(x) の f がどうなってるかを考えてたけど、インターンやってみたら、良い感じの y を出すために y = f(x) の f を開発するのも性に合ってるなと思った。謎を解明すること自体が目的なのではなく、目的を達成するために謎を解くことになるからやりやすいのかな

0

8

Yuji Yamamoto

@Mt_B00Ks

5 months

講演を観終わったので公演を観に行く

1

0

8

Yuji Yamamoto

@Mt_B00Ks

9 months

なんかみんな PC 持たずにステージ向かってるなーと思ったら、どうやら（事前収録ではなく本番用の）発表スライドを提出する必要があるらしく、本部の方に対応してもらった。片言を恥じていたら生き恥を晒すところだった

0

8

Yuji Yamamoto

@Mt_B00Ks

1 year

NLPコロキウム直感的なアイデアがモデル化されてる系好き

0

2

8

Yuji Yamamoto

@Mt_B00Ks

1 year

今日も一日中寝てたな。机でPC開いたことはあったけど何すればいいのか分からんかった。ゴールが定まらない不安が続いてる。なら、あえて気まぐれで研究してみるか？明日はノリで RetNet のスクラッチ学習でもしてみるか。

1

0

8

Yuji Yamamoto

@Mt_B00Ks

4 years

新入生がビリヤードやりたくなるような80文字を考えようの会

0

8