Yuji Yamamoto Profile
Yuji Yamamoto

@Mt_B00Ks

341
Followers
343
Following
502
Media
2,941
Statuses

理科大 M2 松崎研 褒められて伸びるタイプ メンタル不安定なときにツイートします

Joined October 2016
Don't wanna be here? Send us removal request.
Pinned Tweet
@Mt_B00Ks
Yuji Yamamoto
3 months
B4の時のパワーが出ない。
0
0
0
@Mt_B00Ks
Yuji Yamamoto
2 months
「Transformer はブラックボックスである」から始まるイントロはこの辺↓の成果から目を背けている感がありモヤる 個人的に Transformer の挙動はほぼ明らかになってると思っていて、まだ明らかになってないことはモデルというより言語の性質が原因な気がする(素人の勘)
0
81
543
@Mt_B00Ks
Yuji Yamamoto
7 months
@ZeniYuki0922 「でもすぐ死んじゃうじゃん」
1
30
408
@Mt_B00Ks
Yuji Yamamoto
7 months
@ZeniYuki0922 これを思い出しました
Tweet media one
2
60
340
@Mt_B00Ks
Yuji Yamamoto
3 months
世界を救うコード  try:     train_result = trainer.train() except torch.cuda.OutOfMemoryError:     trainer._save_checkpoint(model, trial=None)     raise
2
23
250
@Mt_B00Ks
Yuji Yamamoto
5 months
matplotlib をかっこよくできるやつ このライブラリの出力画像が $49 で売られてるの草
0
18
137
@Mt_B00Ks
Yuji Yamamoto
8 months
なんかの分析中に右上図みたいなのが出力されて、普通に実装ミスったと思って反射的にそっ閉じしたけど、アレまじだったんか
Tweet media one
0
6
84
@Mt_B00Ks
Yuji Yamamoto
3 months
アプローチは違うけど,示していることは自分の研究の完全上位互換に見える… 数学の素養が無いのですらすら読めないけど,Mamba と Transformer の気持ちは理解している自負はあるので頑張って読むか
1
1
82
@Mt_B00Ks
Yuji Yamamoto
9 months
最近の疑問 BERT の注意がこうなるのは token_type_embedding のおかげだと思う。じゃないと "the" 同士は強く注意を向け合いそうなので。 でも、RoBERTa とか DeBERTa にはこの embedding がないから恐らくこれはできない。じゃあなぜ GLUE で BERT より強いのか
Tweet media one
1
8
75
@Mt_B00Ks
Yuji Yamamoto
5 months
NLP2024 の参加記書いた(未校正)
1
8
57
@Mt_B00Ks
Yuji Yamamoto
6 months
NLP2024 アブスト一覧ページできたー もっと仕上げたいという欲をなんとか抑えてる ちなみに、以前の PDF をイジイジしていた知見は一切活きてなくて、unilex-transcript が \section{hoge} を <hN>hoge<hN> にしてくれたの抽出してる
@Mt_B00Ks
Yuji Yamamoto
7 months
これを上手いこと流用すれば NLP2024 のアブスト一覧ページ作れたりして!?(ハードコーディングなのでほとんどの pdf の構造が同じであれば)
0
0
4
0
16
52
@Mt_B00Ks
Yuji Yamamoto
3 months
"low-dimensional capability space" ってなんのことかと思ったらリーダーボードをPCAしてた。すごい発想
Tweet media one
1
7
53
@Mt_B00Ks
Yuji Yamamoto
11 months
EMNLP に採択されました🎉 interesting だけど concern がいっぱいあるという review で朝はもやもやしていましたが、それらをカバーするほど interesting だったと捉えて今は喜びを強く感じております
8
0
48
@Mt_B00Ks
Yuji Yamamoto
3 months
GPT-4o が検索できるらしいので自分の研究成果を聞いたら NAIST と共同研究していると言われた。引用先を見にいったらこの部分が参考にされたっぽい
Tweet media one
0
8
47
@Mt_B00Ks
Yuji Yamamoto
4 months
採択ありがとうございます
Tweet media one
Tweet media two
@Mt_B00Ks
Yuji Yamamoto
5 months
@Yobinori 破滅的忘却 (catastrophic forgetting) 核サンプリング (Nucleus Sampling)
0
0
10
3
3
46
@Mt_B00Ks
Yuji Yamamoto
4 months
CVでもNLPと同じこと起きてたんだ
@tackson5
ヤツガニ君列伝
4 months
おもしろい!たしか受賞論文。ViTのattentionマップは少数パッチにspikyに集中。なぜ?調べると、このパッチは周囲と比べて冗長で大して有用な情報を持ってない→この無駄なパッチを使ってglobal infoを集約するノードとして利用してるのでは?→最初から冗長なtoken(レジスタ)を用意すると直った!
Tweet media one
0
24
238
1
2
45
@Mt_B00Ks
Yuji Yamamoto
7 months
地球儀上の位置埋め込み?
Tweet media one
0
3
44
@Mt_B00Ks
Yuji Yamamoto
8 months
loss = (タスク) - (異方性) としてわざと異方的にしようとすると性能が上がったのは、邪魔な項が足されたから負けじと (タスク) が頑張った可能性は全然ありそう。異方性がある方が性能向上する根拠 (Fig.3) よりも学習曲線が気になる。
1
3
39
@Mt_B00Ks
Yuji Yamamoto
7 months
openreview API で ICLR2024 一覧作りました。
Tweet media one
2
5
31
@Mt_B00Ks
Yuji Yamamoto
2 months
retrieva-jp/bert-1.3b の位置埋め込み、学習時の系列長で境目ができてた。513 token 以降の精度どのくらいなんだろ - 系列長128: 31,000 steps - 系列長256: 219,000 steps - 系列長512: 192,000 steps - 系列長2048: 12,000 steps Longformer みたいに位置埋め込みを expand すれば回避できるのかな
Tweet media one
1
3
31
@Mt_B00Ks
Yuji Yamamoto
5 months
小さいモデルだと dropout の有無でこんなに変わるんだ LLM ほどパラメータが増えるとどのくらい重要なのかとか検討してる文献ないかな
Tweet media one
2
2
29
@Mt_B00Ks
Yuji Yamamoto
2 months
mamba のアルゴリズムでは A.shape -> (D, N) だけど実装では (N,) だった
Tweet media one
0
4
28
@Mt_B00Ks
Yuji Yamamoto
5 months
新B4にモデル学習手順を説明するなら 環境構築: 研鯖は構築済 モデル実装: センスで データ処理・管理: datasets でよしなに?(知らん) 学習: yaml or bash を書くだけ 実験管理: 大学なら wandb。実験名は時刻 タスク実行 (生成、分類): 生成はめんどいので transformers で モデル分析: センスで
1
2
28
@Mt_B00Ks
Yuji Yamamoto
6 years
翠泉の金魚が青鷺に食べられた
Tweet media one
0
3
25
@Mt_B00Ks
Yuji Yamamoto
3 months
学振提出した。この瞬間、俺が世界で一番偉い
1
0
25
@Mt_B00Ks
Yuji Yamamoto
2 months
Tweet media one
0
3
25
@Mt_B00Ks
Yuji Yamamoto
7 months
ICLR2024 全タイトルに目を通そうの会 (1021 / 2251). しんど
2
0
24
@Mt_B00Ks
Yuji Yamamoto
7 months
NLP2024 の発表件数が600件ではなく599件であることの原因は僕が諦めたからです()
1
0
24
@Mt_B00Ks
Yuji Yamamoto
4 months
嗚呼、自分とほとんど同じ研究を見つけてしまった……
@ItamarZimerman
Itamar Zimerman
6 months
New!🚨📰 Mamba is a cool, efficient, and effective DL architecture, but what do we know about Mamba? How does it capture interactions between tokens? Can it be the attention-killer? In our work, "The Hidden Attention of Mamba Models" we provide answers to these questions! [1/4]
Tweet media one
3
103
560
1
0
22
@Mt_B00Ks
Yuji Yamamoto
3 months
は?
Tweet media one
Tweet media two
1
1
23
@Mt_B00Ks
Yuji Yamamoto
3 months
NLP、急にやる気がプツンとなくなる可能性があるから、深層学習のより基礎の理論とかちょっとずらした分野に足突っ込んどいた方が将来虚無にならなくて良さそう
0
0
23
@Mt_B00Ks
Yuji Yamamoto
11 months
おや?
Tweet media one
Tweet media two
1
2
20
@Mt_B00Ks
Yuji Yamamoto
2 months
そういえば ICML papers list が公開されてた
1
0
20
@Mt_B00Ks
Yuji Yamamoto
6 months
大規模コーパス構築の元祖 筆でひたすら書き写すガッツと原本が失われても残し続ける姿勢は見習うべき所だらけ
0
4
20
@Mt_B00Ks
Yuji Yamamoto
1 month
この開発方針だと transformers のアプデ待たずにバージョンアップできるのか。良いことしかなくないか。全モデルこの方針にしてほしいが時すでにお寿司
0
5
18
@Mt_B00Ks
Yuji Yamamoto
3 months
リア充勾配爆発しろ
@Yampeleg
Yam Peleg
3 months
Tweet media one
11
89
1K
0
1
17
@Mt_B00Ks
Yuji Yamamoto
4 months
「それを研究で明らかにしてなにが嬉しいんですか?」に対するアンサーが「俺」しか思いつかなくて詰んだ
1
1
16
@Mt_B00Ks
Yuji Yamamoto
4 months
うーんかなり難しい - config.json の定義は基本使われなさそう - generate() は generation_config.json の定義を使う - config.json の値が使われる挙動は v4.41で消える - special_tokens_map.json と tokenizer_config.json に別の値を定義すると混ざる - 前者が優先?
Tweet media one
@hmtd223
hiroshi matsuda
5 months
config.json generation_config.json special_tokens_map.json tokenizer_config.json これらのどのspecial tokenの設定がどこで使われるかのまとめ資料を切望(たのむ)
0
0
11
1
3
16
@Mt_B00Ks
Yuji Yamamoto
11 months
Fee にユニバ代含まれてて草
Tweet media one
@Mt_B00Ks
Yuji Yamamoto
11 months
EMNLP の会場の隣のユニバに Transformer がいるらしい
Tweet media one
0
0
4
0
0
15
@Mt_B00Ks
Yuji Yamamoto
3 years
卒業してからどんどん偏差値が上がる母校
0
1
15
@Mt_B00Ks
Yuji Yamamoto
4 months
周辺の博士進学予定のM2みんな病みかけで草
0
0
15
@Mt_B00Ks
Yuji Yamamoto
1 year
YANS ハッカソン D チーム四人寄ればROUGEの知恵 の手法を gradio とかで公開したいけど、いかんせん僕は明日から旅行なので鮮度が落ちちゃう
2
2
15
@Mt_B00Ks
Yuji Yamamoto
27 days
中途半端に賢くなったせいでプログラミングできなくなった。ライブラリとか並列処理を駆使した速くてシンプルな実装Aとforをネストしまくる遅そうな実装Bが思いついて、Aを実装しようとするが、ムズくてなかなか完成せず、先にBをしてれば終わっていたのではという毎日
2
0
14
@Mt_B00Ks
Yuji Yamamoto
1 month
#YANS2024 ハッカソン&発表あり参加登録 done
1
0
14
@Mt_B00Ks
Yuji Yamamoto
5 months
21時〜26時に研究する人間になっちゃった
1
0
9
@Mt_B00Ks
Yuji Yamamoto
3 months
#イタリア
Tweet media one
0
0
14
@Mt_B00Ks
Yuji Yamamoto
4 years
起きてすぐ何してんだ俺
Tweet media one
0
0
13
@Mt_B00Ks
Yuji Yamamoto
5 months
ふと作りたくなったので作ってみたモデルサイズ比較図
Tweet media one
1
1
13
@Mt_B00Ks
Yuji Yamamoto
3 years
最初に subplots の数とレイアウトを明示的に指定しなくても描画できちゃった。革命かな? #matplotlib
Tweet media one
1
0
13
@Mt_B00Ks
Yuji Yamamoto
16 days
今年の YANS 委員の衣装予測
Tweet media one
1
0
13
@Mt_B00Ks
Yuji Yamamoto
4 months
元ツイの意図(=スライドの可愛さ)とは話題がズレますが、温度パラメータの調整が「温度を上げると拡散して下げると凝縮する」という物理的な直感と対応してることに気付いてから「高温度だと平坦と急峻のどっちになるんだっけ」に迷うことがなくなりました
@hpp_ricecake
hpp
4 months
現状かわいく作れている
Tweet media one
0
0
50
0
0
13
@Mt_B00Ks
Yuji Yamamoto
3 months
簡単なタスクなのに正解率が全然上がらないから何度も実装ミスを疑ったけど,待てばぎゅんって上がった.なんやそれ.
Tweet media one
0
0
13
@Mt_B00Ks
Yuji Yamamoto
3 years
季節が変わったので桜から紫陽花に変えました。 #新しいプロフィール画像
Tweet media one
Tweet media two
1
0
13
@Mt_B00Ks
Yuji Yamamoto
4 years
4コマ漫画
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
0
12
@Mt_B00Ks
Yuji Yamamoto
7 months
S4 の直後に vision に応用しようとしたら、そもそもが時系列モデルだから難しそうって話を聞いた気がするけど、双方向にするだけでいいのか。思い付かなかった。 あと、Mamba の現実的なニーズって音声しか浮かばなかったけど高画質画像は身近で面白いことになりそう
2
2
12
@Mt_B00Ks
Yuji Yamamoto
5 months
無事、健康を診断してきた。 体調悪いときは白湯がいいらしいので帰りに
Tweet media one
3
0
12
@Mt_B00Ks
Yuji Yamamoto
1 month
warmup ってなんで要るんやと思ってたけど、「統計量を保持する optimizer を使う場合は、統計量を安定させてからパラメータ更新したほうが良いのかも」という回答は納得感ある。
0
0
11
@Mt_B00Ks
Yuji Yamamoto
4 months
llm-jpのwandbって公開されてたりするのだろうか。U字型のログが何なのかとても気になる
Tweet media one
0
1
11
@Mt_B00Ks
Yuji Yamamoto
3 months
最先端NLP→夏院試→YANS とかいうハードスケジュールの予感
0
0
11
@Mt_B00Ks
Yuji Yamamoto
5 months
モデルマージ、面白さと同じくらい気持ち悪さがある。パラメータ空間どうなってんだろ。 パラメータは埋め込みと積or和として絡んでるから、類似性・方向性のものさしみたいな感じで実は埋め込み空間にいたりして。 そもそも埋め込みもパラメータの一種と思えばマージの気持ち悪さは減るけど
1
0
11
@Mt_B00Ks
Yuji Yamamoto
6 months
文章がめっちゃ読みやすくてこの論文の分析をしたくなってる
@Mt_B00Ks
Yuji Yamamoto
6 months
P2-18 Style SimCSE: SNSユーザ同一性に基づく対照学習によるスタイル類似性を捉えた文ベクトルの獲得
1
0
3
0
1
11
@Mt_B00Ks
Yuji Yamamoto
4 years
俺の課題の進捗全部消しやがった
Tweet media one
1
0
11
@Mt_B00Ks
Yuji Yamamoto
2 months
試しに実装してみるかーーってコードは使い捨てにはならず、後々のコアになるので、常に整然としたコーディングをしましょう 1ヶ月後の自分より
0
1
11
@Mt_B00Ks
Yuji Yamamoto
6 years
最低の花火への誘い方 「分���器持って音速と重力加速度求めに行こうぜ」
Tweet media one
0
1
10
@Mt_B00Ks
Yuji Yamamoto
5 months
どう考えても chatgpt よりもラーメンのほうが偉大
0
1
11
@Mt_B00Ks
Yuji Yamamoto
7 months
気になるタイトルをメモっていたら 86 / 599 になっていた1割にも絞れてない。もしかして自分の興味、思ったより広い?(そんなに予稿を読む時間&体力ないけど)
2
1
11
@Mt_B00Ks
Yuji Yamamoto
6 months
やはりいま求められてるのは CUDA エンジニアなのか
1
2
10
@Mt_B00Ks
Yuji Yamamoto
5 months
P9-14  In-Context Learning においてLLMはフォーマットを学べるか これ、坂ラッシュ君の発表だったのか。ハンドルネームと一致してなかった
1
0
10
@Mt_B00Ks
Yuji Yamamoto
10 months
今日も一日中寝っ転がってしまって懺悔の深夜作業です。朝起きたときは毎日やる気あるのに昼になって急に全てのやる気なくすのはなんでだろね。
2
0
10
@Mt_B00Ks
Yuji Yamamoto
5 months
オレオレ LLM 開発フレームワーク作りたいと思ったけど、インターン終わったら GPU を失うので作り損になるな なんだかんだ huggingface Trainer しか勝たんになってる(deepspeed, accelerate は未履修)
0
0
10
@Mt_B00Ks
Yuji Yamamoto
4 months
NAACL,タイトルだけ見れる
1
0
10
@Mt_B00Ks
Yuji Yamamoto
7 months
時間を書けた結果、「分からない😱」が「分からない🤔」になった mamba-ssm の cuda 実装を(苦しみながら)追う #zenn 行列 B の離散化が論文通りに実装されてるのかご存じの方はリプで教えてほしいです
1
0
10
@Mt_B00Ks
Yuji Yamamoto
5 months
学会の昼休みに尖っていることを自覚したほうがいいというコメントを貰ったのだが、NLP 界のザコシショウってこと? それってつまり……めっちゃ世の中に必要とされてるってこと?
1
0
9
@Mt_B00Ks
Yuji Yamamoto
2 years
僕の心は汚れているので、mac のデフォルト背景をスカート着てる人の脚と見間違えました。
Tweet media one
0
0
10
@Mt_B00Ks
Yuji Yamamoto
11 months
俺「通知こねー」 親「ノーベル賞の?」 そんなわけがない
0
0
10
@Mt_B00Ks
Yuji Yamamoto
7 months
経験上大人数が苦手なので懇親会には参加せずに外食でちょっと贅沢する予定
0
0
10
@Mt_B00Ks
Yuji Yamamoto
5 months
久しぶりに (!?) 論文を読む。 論文読んだ本数しかラーメン食えないことにしようかな
1
0
10
@Mt_B00Ks
Yuji Yamamoto
5 months
@Yobinori 破滅的忘却 (catastrophic forgetting) 核サンプリング (Nucleus Sampling)
0
0
10
@Mt_B00Ks
Yuji Yamamoto
8 months
(ビッグバン的進捗が発生しない限り)言語処理学会は一旦諦めることにしました… 初学会参加が想像の何倍も楽しかったので毎年出たいと思っていたけど早々に実現できなそうで悔しい
0
0
9
@Mt_B00Ks
Yuji Yamamoto
10 months
居酒屋にいたら唐突に理科大をバックに花火が上がった
1
0
9
@Mt_B00Ks
Yuji Yamamoto
15 days
面白すぎてマルチモーダルを本職にしたいまである
0
1
9
@Mt_B00Ks
Yuji Yamamoto
1 year
事務室でいただきました…
Tweet media one
0
0
7
@Mt_B00Ks
Yuji Yamamoto
5 months
エントリーページを開いたことくらい就活してないのに博士課程の進学を決心してないの意味わからんと言われてたしかにそうだなと思いました
0
0
9
@Mt_B00Ks
Yuji Yamamoto
12 days
告って振られるという最悪の悪夢からの目覚め
1
0
9
@Mt_B00Ks
Yuji Yamamoto
6 months
M2 に向けて刷新した研究テーマが開始 2 週間でゴール見えた感ある。まだ M1 なのだが
0
0
9
@Mt_B00Ks
Yuji Yamamoto
4 months
人類って学振書きながら並行で研究できるんですかと聞こうと思ったけど「できますよ」と言われて自己肯定感が負に発散する未来しか見えないので聞かない
0
0
9
@Mt_B00Ks
Yuji Yamamoto
6 months
大学では y = f(x) の f がどうなってるかを考えてたけど、インターンやってみたら、良い感じの y を出すために y = f(x) の f を開発するのも性に合ってるなと思った。 謎を解明すること自体が目的なのではなく、目的を達成するために謎を解くことになるからやりやすいのかな
0
0
8
@Mt_B00Ks
Yuji Yamamoto
5 months
講演を観終わったので公演を観に行く
Tweet media one
Tweet media two
1
0
8
@Mt_B00Ks
Yuji Yamamoto
9 months
なんかみんな PC 持たずにステージ向かってるなーと思ったら、どうやら(事前収録ではなく本番用の)発表スライドを提出する必要があるらしく、本部の方に対応してもらった。片言を恥じていたら生き恥を晒すところだった
0
0
8
@Mt_B00Ks
Yuji Yamamoto
1 year
NLPコロキウム 直感的なアイデアがモデル化されてる系好き
0
2
8
@Mt_B00Ks
Yuji Yamamoto
1 year
今日も一日中寝てたな。机でPC開いたことはあったけど何すればいいのか分からんかった。ゴールが定まらない不安が続いてる。 なら、あえて気まぐれで研究してみるか?明日はノリで RetNet のスクラッチ学習でもしてみるか。
1
0
8
@Mt_B00Ks
Yuji Yamamoto
4 years
新入生がビリヤードやりたくなるような80文字を考えようの会
0
0
8