Yuta Nakamura🐠 @iBotamon Twitter profile

Pinned Tweet

Yuta Nakamura🐠

@iBotamon

3 months

【宣伝】誰でも利用できる日本語医療データを使ったAIコンテスト (shared task) の開催準備を進めています。どうぞ奮ってご参加ください！（より親しみやすくするため，デザインを一新しました）

1

4

29

Last Seen Profiles

@loganbryars25

@StoaHQ

@5Uixf

@KittiyaKie

@1961Smirnova

@Ltmzin777

@wwwfilmtv

@Training_Manag

@Ltmzin777

@zkotle

@Xcroge

@GWmidwestpower

@claymorecovers

@JiaKasumi82735

@_ELOL_

@TrikePatrol_GT

@_MALL0W_

@MarvUnited

@bnhavacation

@fuzokutaiki

@iamemiliemuller

@mariam76035620

@khalid_kmi

@kunitake0321

@jandakembangstw

@RAshraf_14

@BourdaisOnTrack

@dragonproxies_

@jihyo

@ImOnDrugzz

@_MALL0W_

@claymorecovers

@Training_Manag

@KempMckenn86499

@nancyscola

@zkotle

Yuta Nakamura🐠

@iBotamon

4 months

📞私「確定申告を修正したいです」 📞税務署「LINEで来所予約できますので，まずは国税庁とお友達になっていただいて…」＼＼\\　　　　　　　　//／／　　　国税庁とお友達／／//　　　　　　　　＼＼\\

151

20K

136K

Yuta Nakamura🐠

@iBotamon

4 months

国税庁とお友達になりました

1

256

3K

Yuta Nakamura🐠

@iBotamon

1 year

私の博士論文，書き上げてから3ヶ月しか経ってないはずなんですがその後にMedPaLM, ChatGPT, GPT-4が立て続けに出てきたのでもうすでに古文書と化しています

7

485

2K

Yuta Nakamura🐠

@iBotamon

11 months

数ヶ月前までは「限界なんて超えてやる」という意気込みでいろいろ無理もしてました自然言語処理やりたての頃，終電まで居残り勉強したり研究始めたての頃，ラボの椅子を3個並べて仮眠したり博論追い込みの頃，ベッドで寝ずにソファ仮眠生活してみたり要領の悪さを時間でカバーしてましたが (→)

2

36

472

Yuta Nakamura🐠

@iBotamon

5 years

(今こんな事している場合ではないと思いつつ) 英語のセンター試験の大問2なら, 訓練済みBERTをそのまま使って8割取れます(38/47点)。大問3〜6は要約や質問応答が絡んでくるのでさらに一工夫が必要そう

1

110

464

Yuta Nakamura🐠

@iBotamon

4 years

↓いま知ったんですがMatplotlibでの日本語の文字化けが一瞬で解決するそうです。たしかに1行書くだけで治るようになりました(凄い!!)

0

70

317

Yuta Nakamura🐠

@iBotamon

3 years

ちょっと遊んでみてますが高性能すぎて本当に凄いです。よっぽど変な入力をしない限り人間と区別が付かないかも……雑談って対話タスクの中でも難しいんじゃなかったでしたっけ？

Ryobot

@_Ryobot

3 years

AIで架空の友達を育てて共有したり、みんなが育てたAIと話せる無料アプリ「エアフレンド」を個人開発しました。推しが言いそうなセリフをAIに教えると、推しの人格を学習したAIと会話できますエアフレンド→

95

18K

37K

1

113

277

Yuta Nakamura🐠

@iBotamon

11 months

(→) 最近，時々やってくる体調不良の種類が変わるようになったので（就寝時に心拍数が上がったままだったり早期覚醒するようになったり）持続可能性を重視する方向に少し倒すようになりました。疲れたらその日はもうスパッと止めるようにする，という程度ですが自分の中では大きな変化です

1

22

280

Yuta Nakamura🐠

@iBotamon

2 years

これは試してみたい！ VisualBERTでもそうですが，言語モデルへの入力をテキスト→画像に変えてうまく行くのは何とも不思議ですねそして日本語T5モデルをせっせと大量に提供している言語処理屋さんがなぜ日鉄ソリューションズにいらっしゃるのかは最大の謎

ディープラーニングの先端技術、マルチモーダルの日本語モデルを作ってみた【日本語VL-T5】 - Qiita

要点マルチモーダル深層学習って何？Vision-Language Modelって何？という方向けに、Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュー…

qiita.com

0

42

273

Yuta Nakamura🐠

@iBotamon

3 years

Pandasで重複したレコードを削除したいとき， drop_duplicates() を使って安心してはダメで， NaN がどこかのカラムに混じっているレコードは重複していても除去されていないという罠にハマりました (NaN == NaN が False と判定されるため)

1

52

267

Yuta Nakamura🐠

@iBotamon

3 years

1本目の論文が無事acceptされました！最初に投稿してから1年半近く掛かってしまいましたが何とか形にできました

9

8

257

Yuta Nakamura🐠

@iBotamon

4 months

X/Twitter で論文を宣伝してもその論文の被引用数はほとんど増えないらしい

Controlled experiment finds no detectable citation bump from Twitter promotion

Multiple studies across a variety of scientific disciplines have shown that the number of times that a paper is shared on Twitter (now called X) is correlated with the number of citations that paper...

journals.plos.org

0

90

250

Yuta Nakamura🐠

@iBotamon

3 years

統計学はなかなか理解できずに何冊も本を買いまくったんですが新装改訂版の現代数理統計学が今のところ一番良かったです，噂どおりでした統計学の教科書の天下り的な部分の行間がきちんと埋めてあるのでより正確に理解できます

1

26

239

Yuta Nakamura🐠

@iBotamon

5 years

PyTorchでやりがちなミスはだいたい 1. floatとlongを混ぜる 2. squeeze/unsqueezeを忘れる 3. .item()を忘れる 4. CPUに移し忘れるのどれかで, この4つに気をつければ結構バグが減ることが分かってきた

1

25

234

Yuta Nakamura🐠

@iBotamon

4 years

放射線科専門医試験，無事合格していました！よかった！！！

10

221

Yuta Nakamura🐠

@iBotamon

26 days

斜め読みしかできていませんが，これはすごいレビュー論文 Section 2→5に進むにつれてTransformerのコンポーネント内の局所的な挙動から始まってより最終的な表現型に近い現象の説明まで，これまでの大量の知見がまとまっています

Yuji Yamamoto

@Mt_B00Ks

27 days

「Transformer はブラックボックスである」から始まるイントロはこの辺↓の成果から目を背けている感がありモヤる個人的に Transformer の挙動はほぼ明らかになってると思っていて、まだ明らかになってないことはモデルというより言語の性質が原因な気がする（素人の勘）

0

81

546

0

44

215

Yuta Nakamura🐠

@iBotamon

5 years

凄いリポジトリを発見！NLPの各種タスクについて近年のSoTA一覧とその実装へのリンクがまとめてある

0

45

211

Yuta Nakamura🐠

@iBotamon

4 years

正直，GPT-3が出た当時は「ただモデルがでかいだけじゃん」と甘く見ていたんですよ... このべき乗則を見せられると，生成モデルはTransformerがすでに一つの完成形に達していて，これ以上頑張って改良するよりもGPUに巨費をつぎこんだ人の勝ちに思えてしまう

0

29

210

Yuta Nakamura🐠

@iBotamon

4 years

ついに日本語でも医療ドメインの事前学習済みBERTモデルが！東大の医療AI開発学講座から公開されたそうです。語彙数は25000, 分かち書きはMeCab+BPE, 辞書はNEologd+万病辞書, モデルサイズはBERT_base。

0

52

207

Yuta Nakamura🐠

@iBotamon

2 years

知識を言語モデルに取り込む面白い手法が提案されています 2事物間の関係の学習を，2種のデータ(知識グラフ/大量テキスト)のどちらからでも同じモデルでできるように設計さらに枠組みをMLMから対照学習に変えて性能を改善 UMLS医学用語間の関係を当てるタスクでacc 92%

Language Models as Knowledge Embeddings

Knowledge embeddings (KE) represent a knowledge graph (KG) by embedding entities and relations into continuous vector spaces. Existing methods are mainly structure-based or description-based....

arxiv.org

0

29

189

Yuta Nakamura🐠

@iBotamon

1 year

「自然言語処理がこれほど大ブームだったことは未だかつて無い，私達はこの期待に応えるべき」この視点は持っていなかった，ハッとしました #NLP2023 #ChatGPT で自然言語処理は終わるのか

2

33

186

Yuta Nakamura🐠

@iBotamon

1 year

オライリー・ジャパン様より『AIファースト・ヘルスケア』をご恵贈いただきました（大変遅くなり申し訳ありません）！私の博士論文でも引用しましたが，明るい未来像とそこへの課題のバランスがとれた本です。失職がこわい医療関係者にも，活用法に迷う技術者の方にも届いて欲しいですね 1/4

1

33

181

Yuta Nakamura🐠

@iBotamon

3 years

やっと人生初のジャーナル論文がPubMedに載りました。BERTでポンで文書分類しただけの単純な研究ですが，それでも長い道のりだったので感慨深いです。

Automatic detection of actionable radiology reports using bidirectional encoder representations...

BERT was assumed to be useful to detect actionable reports. More sophisticated methods are required to use order information effectively.

pubmed.ncbi.nlm.nih.gov

5

7

158

Yuta Nakamura🐠

@iBotamon

4 months

【宣伝】誰でも利用できる日本語医療データを使ったAIコンテスト (shared task) の開催準備を進めています。どうぞ奮ってご参加ください！

2

17

158

Yuta Nakamura🐠

@iBotamon

4 years

去年から書きかけで放置していたものを今更載せました。 ①BERTのTensorFlow→PyTorch版への変換，②Torchtext，③PyTorch-Lightningを覚えましたという内容。

日本語BERTモデルをPyTorch用に変換してfine-tuningする with torchtext & pytorch-lightning - radiology-nlp’s blog

TL;DR ①TensorFlow版訓練済みモデルをPyTorch用に変換した (→方法だけ読みたい方はこちら) ②①をスムーズに使うための torchtext.data.Dataset を設計した ③PyTorch-Lightningを使ってコードを短くしたはじめに日本語Wikipediaで事前学習されたBERT…

radiology-nlp.hatenablog.com

0

19

156

Yuta Nakamura🐠

@iBotamon

4 years

NAISTでの半年間が終わりました！学生さん達と作業に熱中した午前2時も，真夜中のカップ麺自販機も，食堂の親子丼も，すべてが宝物です。大変お世��になりました

4

7

149

Yuta Nakamura🐠

@iBotamon

4 years

医療分野に特化したBERTのうち，・医学論文に強いのはBioBERT ・診療記録に強いのはClinicalBERT という印象です。 (もともとそういうコーパスで事前学習しているので納得のいく結果ではあります)

MedNLP survey 👀

@MednlpS

5 years

10. Publicly Available Clinical BERT Embeddings. (NAACL 2019) ClinicalBERTはBioBERTをfine-tuningする形で事前学習したほうが医療言語処理タスクで好成績だった。また，事前学習コーパスにMIMIC-IIIのデータ全部ではなく退院サマリーだけを使っても性能はほぼ不変

1

14

0

33

146

Yuta Nakamura🐠

@iBotamon

4 years

次年度あたりからKaggle常連組の方々をはじめデータサイエンスにめっぽう強い医学生が続々と研修医になってきますね。医師の中でも「ちょっとAI触ってみました」程度の人はすぐに淘汰されていきそうで怖い。すごい時代です。

2

28

129

Yuta Nakamura🐠

@iBotamon

2 years

BARTのBiomedical版が発表されたようです。新しいモデルが提案されたらとりあえず誰よりも早くそのBiomedical版を作れば1本論文が書ける，という流れは定番化してますね

BioBART: Pretraining and Evaluation of A Biomedical Generative...

Pretrained language models have served as important backbones for natural language processing. Recently, in-domain pretraining has been shown to benefit various domain-specific downstream tasks....

arxiv.org

3

20

125

Yuta Nakamura🐠

@iBotamon

11 months

4日前のarXivから: LLMをinstruction tuningによって蒸留する際，固有表現抽出に特化したinstructionをテンプレートベースで生成して使うことで固有表現抽出のタスク性能が大幅に向上したという論文 1つのタスクしか解けなくて良いのであればたしかに有効そうですね

UniversalNER: Targeted Distillation from Large Language Models for...

Large language models (LLMs) have demonstrated remarkable generalizability, such as understanding arbitrary entities and relations. Instruction tuning has proven effective for distilling LLMs into...

arxiv.org

1

25

125

Yuta Nakamura🐠

@iBotamon

1 year

情報系の学生さんがたまに「ドメイン知識のような強みがなくて困る」と言われているのを耳にするのですが私達は私達で「医学も情報学も中途半端な存在……」と日々悩んでいるのでどちらかが一方的によい/悪いではないと思っています

1

10

118

Yuta Nakamura🐠

@iBotamon

4 years

(あらためて) 4月から半年間，NAIST荒牧研に国内留学させて頂けることになりました。COVID-19の渦中でのタイミングになってしまいましたが，医療言語処理の発展に向けてより一層精進するつもりです。この機会をくださった方々に感謝いたします。

6

7

117

Yuta Nakamura🐠

@iBotamon

4 years

日本語BERTを使うとき，学習時のサブワード分割が Wordpiece なのか BPE なのかが意外とバラバラなので実はけっこう気を遣いそうですよね

2

24

116

Yuta Nakamura🐠

@iBotamon

4 years

NICTが事前学習済み日本語BERTモデルを公開したとのお知らせが入りました()。 Batch size=4096にすることで既存のモデルよりも性能が上がったようです

1

42

114

Yuta Nakamura🐠

@iBotamon

4 months

「楽譜でしか学習していない言語モデルでも自然言語である程度性能を出せる」 #NLP2024

Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models

Isabel Papadimitriou, Dan Jurafsky. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.

aclanthology.org

0

18

111

Yuta Nakamura🐠

@iBotamon

4 years

資料はこちらです！

4

23

110

Yuta Nakamura🐠

@iBotamon

3 years

3年前の1月 → 必死にExcelで統計解析していた 2年前の1月 → Gitを覚え，Pythonで競技プログラミングを始めた 1年前の1月 → BERTで簡単な文書分類をして国内会議に出した今 → 投稿中の英語論文が2本なので，一応成長はしているのかもしれない

0

3

108

Yuta Nakamura🐠

@iBotamon

1 year

2023年4月1日付で東大病院22世紀医療センターコンピュータ画像診断学／予防医学講座に配属となりました。引き続き医療言語処理をやっていきます！まだ未熟な点ばかりですが今後とも宜しくお願いいたします。

1

4

109

Yuta Nakamura🐠

@iBotamon

2 years

ACL2022の採択論文から: 1つの言語モデルで色々なタスクを解きたい！超巨大なGPT-3を使えばもちろんできるが，その1/1000倍小さなBARTモデルでも，クラウドソーシング用の指示書を入力に含めながら複数データセットでfine-tuningすると未知のタスクでも解けるようになる

2

16

107

Yuta Nakamura🐠

@iBotamon

2 years

少し日が経ちましたが，某トップカンファレンスに2年連続で挑んだものの不採択でした… コンセプトを練り直し，実験全体をやり直し，図を何百回と修正し，本文も丸ごと書き換える勢いで磨きましたが壁は厚かったですね。人工知能系のトップカンファレンスに一度でも通せた人は本当に凄いと思います

1

2

103

Yuta Nakamura🐠

@iBotamon

4 years

機械学習で医学論文を書くときには「この技術がいかにすごいか」を力説しても仕方がなく，・その問題設定にどんな意義があるか？・その問題への医学界のこれまでの努力を把握しているか？それにどんな文脈で+αするつもりか？などを説明しないとならないんですね(当たり前といえば当たり前ですが)

1

9

97

Yuta Nakamura🐠

@iBotamon

2 years

「自然言語処理が医療にできることは業務効率化くらいしかないのか」はとても重要で難しい問いだと思う

2

10

97

Yuta Nakamura🐠

@iBotamon

2 years

4日前にこんな論文出たんですか？博士論文修正しないといけないじゃないですか… この論文ではHealthSearchQAデータセットを新作しているのですが， CommonsenseQAの自由記述回答版かつ医療版というだいぶ攻めたデータセットですね (context一切無し，promptのみから回答を生成で答える必要あり)

小猫遊りょう（たかにゃし・りょう）

@jaguring1

2 years

うぉ、グーグルの言語モデル「Flan-PaLM」「Med-PaLM」が凄い。7つの医学質問応答タスクで最高性能米国医師免許試験(USMLE)形式のタスク「MedQA」で正答率67.6%(USMLEの合格点は60%）。従来手法は50.3% 医学生向け試験タスク「MedMCQA」で57.6%(合格点は50%) PubMedQAで79.0%(専門家の性能は78.0%)

2

141

543

1

17

98

Yuta Nakamura🐠

@iBotamon

5 years

CTでありありと映るような肺癌が単純X線(レントゲン)で全く見えないことなんて日常茶飯事です。

𝑺𝒖𝒛𝒂𝒏𝒂🐪

@suzuzZ

5 years

そろそろ常識化してほしいんですけど、胸部レントゲンでは初期の肺癌は必ずしも見つけられないですよ！と検診見逃し、と鬼の首でもとったように報道するニュースをみて白けている。健診でCTをやらないのは被曝量に対してのメリットを天秤にかけているだけで、精度としたらレントゲンの比ではない。

1

92

322

1

28

94

Yuta Nakamura🐠

@iBotamon

7 months

データサイエンスを勉強中の医学生や医歯薬系大学院生の方はもしじっくり時間をかけて伸ばしたいスキル(統計学なりKaggleなり)があれば迷わずすぐに始めたほうがいいです自分のために時間を使えるというのは若い人の特権です歳をとるほど自分のリソースは周囲の人のために割くものになりますから

0

6

91

Yuta Nakamura🐠

@iBotamon

10 months

最近は「徹夜のダメージがでかい」どころか普段8時間睡眠のところが6時間になるだけで明らかに翌日の調子が悪いんですよね子なし30代前半でこの状態だと先が思いやられますのう…

4

2

92

Yuta Nakamura🐠

@iBotamon

4 years

画像からのテキスト生成タスクは，4年前からすでに「Cross-entropyでは限界があったので，微分不可能な目的関数をつかって強化学習する」方向になっているようですねこれはモデルに依存しない話だから，読影レポートの自動生成を本気でやろうとする場合には強化学習の勉強は避けて通れなさそう

1

11

91

Yuta Nakamura🐠

@iBotamon

4 years

共参照が1対多になっている状態をsplit antecedantsというらしいのですが，去年のStanford NLPの講義を聞くかぎりこれを解決できるモデルはまだ提案されていないようですね

1

12

89

Yuta Nakamura🐠

@iBotamon

1 year

医療ドメインでは， GPT-3.5→GPT-4で MKSAPの成績が53%→75%に改善とのこと (Correct scoreかパーセンタイルかは不明) 米国内科医の生涯学習用の試験なので，医師資格試験(USMLE)よりも相当難度は高いはず？です (私自身あまり詳しくないですが)

1

19

84

Yuta Nakamura🐠

@iBotamon

4 months

被引用数が100を超えていました (Google Scholar調べの数値ではあります) 引き続き頑張ります！

0

1

86

Yuta Nakamura🐠

@iBotamon

4 years

本日19時からのBERT応用勉強会で，医療言語処理をテーマに15分ほど発表します。 Youtube Liveでの視聴枠はまだ無尽蔵に空いているので，お時間のある方はぜひ！

BERT応用勉強会 (2020/05/15 19:00〜)

# イベント概要近年NLPの領域で発展を遂げているBERTモデル。今回はそのBERTモデルの応用をテーマにした勉強会を開催します。特定のドメインでの活用事例やフロントエンドでの利用例などをLT形式で発表します。 ※参加枠が限られていますので、予定が合わなくなった方は忘れずにキャンセルするようお願いします。 ※本勉強会は、技術交流が目的です。知識の共有や参加者同士の交流を目的としない方...

nlpaper-challenge.connpass.com

1

16

85

Yuta Nakamura🐠

@iBotamon

7 months

LLMという呼称だけがあまりに突出してポピュラーになってしまったので BERTやT5あたりの「そんなに大きくないモデル」をどう呼べば一般向けにも伝わりやすいのか難しいですね特に医学系ジャーナルの論文タイトル決めが悩ましい・・・さすがにBERTまでLLMと呼ぶのは違和感があるので

2

9

83

Yuta Nakamura🐠

@iBotamon

3 years

PyTorch Metric LearningのContributorに名前を挙げていただきました(嬉しい！)

Release v1.0.0 · KevinMusgrave/pytorch-metric-learning

Reference embeddings for tuple losses You can separate the source of anchors and positive/negatives. In the example below, anchors will be selected from embeddings and positives/negatives will be s...

github.com

0

2

80

Yuta Nakamura🐠

@iBotamon

2 years

博士論文をやっと本提出しました!!!!!!!!!! これで学位審査会に進めます (相当スケジュールを押してしまったので引き続き頑張ります，審査委員の先生方申し訳ありません)

4

0

79

Yuta Nakamura🐠

@iBotamon

1 month

NECがオンプレミス生成AIを東北大学病院に導入して業務支援の実証実験を行ったようです先ほどの医療情報学会での報告によると紹介状作成にかかる時間を47%削減できたとのこと！

0

10

76

Yuta Nakamura🐠

@iBotamon

2 years

最近DeepLの公式Chrome拡張機能がリリースされて，ブラウザのページ全体を直接翻訳できるようになったようです。 PDFを介さず全文読めるタイプの論文だと一気に翻訳できるので読むのが大幅に楽です現在は有料プラン限定ですが，近日中に無料プランにも開放されるとのこと

0

30

75

Yuta Nakamura🐠

@iBotamon

3 months

ICML2023に似たような発想の研究があるのを思い出しました三段論法のような論理的な文章を名詞だけランダム生成しためちゃくちゃなものに入れ替えることで LLMが「知識」に頼らず「演繹」できるか純粋に測定しようとしたもの

ロードランナー様

@shinkai35

3 months

学者は、自分の専門に特化した「知識」と「認知スキル」を持ってるわけだけど、学習科学の世界では、歴史学者に専門外の歴史問題を解いてもらうことで、「知識」を抜きにした「認知スキル」とはどんなものかを調べるという研究があるんだよね。

1

78

414

1

8

72

Yuta Nakamura🐠

@iBotamon

1 year

ChatGPT，肺癌ステージングも出来ちゃうんですね・・・もちろん間違っている場合も多々ありますが，もはや実験のベースラインはBERTではなくChatGPTにすべきなのか？😇 ※ この読影レポートはダミーで，実際の患者さんに基づいたデータではありません

2

12

71

Yuta Nakamura🐠

@iBotamon

11 months

論文検索のベストプラクティスもまだ分かってないのですが， (copilotなし) では質問を変えても似た文献がずっとサジェストされて Google scholarに変えると掘り出しものが出たりしますね抜け漏れを防ぐには結局時間をかけてPubMedでキーワード検索が一番？

3

5

67

Yuta Nakamura🐠

@iBotamon

2 years

研究と並行して応用情報の勉強も少しずつ進めています (すぐに役に立たないことこそ社会人大学院生のうちにやっておこうという目論見)

2

66

Yuta Nakamura🐠

@iBotamon

4 years

NAIST荒牧研と株式会社ワイズ・リーディング様と合同で，「自由に使える日本語読影レポートデータセットを作る」という試みを行い，本日プレスリリースが出ました！まだ数は極めて少ないですが，今後も増やしていく予定です。私のNAIST留学中のプロジェクトの1つでした

4

12

63

Yuta Nakamura🐠

@iBotamon

7 months

2023年も色々な方に大変お世話になりました博士号と放射線診断専門医を無事に取り，業務に不可欠な資格が揃いましたジャーナル共著1本 ACL系WSのco-first 1本情報検索系WSの主著1本プレプリント主著1本/共著1本と目標より少ない業績でしたが h-indexは5にup，被引用数も去年を超えてくれました

0

1

63

Yuta Nakamura🐠

@iBotamon

6 months

これまでの医療言語処理ベンチマークは LLM用に整備されていませんでしたが Instruction tuning / Supervised fine-tuning用に作り直したデータが公開されましたさらに学習させたLLaMA2モデルも公開されていますただし性能はDistilBERTやBioBERTとさほど変わらないよう

Exploring the Effectiveness of Instruction Tuning in Biomedical...

Large Language Models (LLMs), particularly those similar to ChatGPT, have significantly influenced the field of Natural Language Processing (NLP). While these models excel in general language...

arxiv.org

0

9

62

Yuta Nakamura🐠

@iBotamon

19 days

Claude 3.5 Sonnetが急に医用画像も読めるようになったと話題ですねところで，このままClaude 5辺りで画像診断クイズにほぼ正答できるようになったとして，それで放射線科医と同等かというとまだ「？」ですこれはなぜ現行の医用画像AIが用途に応じて感度・特異度を調整しているか考えると解ります

1

3

61

Yuta Nakamura🐠

@iBotamon

1 year

応用情報の合格証書，無事届きました

2

0

59

Yuta Nakamura🐠

@iBotamon

1 year

ご報告が大変遅れましたが東大谷中研の谷中瞳先生・黒澤友哉さん・東大相澤研の知田悠生さんとの共同研究が Clinical NLP Workshop 2023に採択されました！医用画像中の病変数を扱うVTEタスクを提案しています実応用に近いぶん，画像・言語ともに医学知識がかなり必要な難度の高いタスクです

Hitomi Yanaka (谷中瞳)

@verypluming

1 year

[ClinicalNLP] Medical Visual Textual Entailment for Numerical Understanding of Vision-and-Language Models, July 14 Do current V&L models handle medical numerical reasoning? We create a VTE dataset focusing on numerical reasoning in the medical domain!

0

2

8

1

8

60

Yuta Nakamura🐠

@iBotamon

11 months

いよいよです

1

0

59

Yuta Nakamura🐠

@iBotamon

5 years

本日の資料です！ #xpaperchallenge

1

10

57

Yuta Nakamura🐠

@iBotamon

1 year

自然言語処理データ増強用ライブラリのnlpaugは日本語でも使えそうですね載っている使用例では，uncasedな多言語BERTを使っているせいで濁点が消えてしまっていますがふつうの日本語用BERTなどを使えばその問題はクリアできるかなと思います

0

9

57

Yuta Nakamura🐠

@iBotamon

2 months

Asian Bioethics Reviewになかなか挑戦的な論文がありました「医師がAIを使うのはよいが，医師をAIで置き換えるのはNG。必ず人間が入るべき」というのが今の "当たり前" ですが，ある成功事例をもとに「一定条件を満たせば医師をAIで置き換えてよい」と主張しています

When can we Kick (Some) Humans “Out of the Loop”? An Examination of the use of AI in Medical...

Asian Bioethics Review - Artificial intelligence (AI) has attracted an increasing amount of attention, both positive and negative. Its potential applications in healthcare are indeed manifold and...

link.springer.com

1

7

56

Yuta Nakamura🐠

@iBotamon

7 months

やりたい研究テーマは山ほど思いつくのですが，一定以上規模の大きな研究をするには仲間と技術と計算資源が必要で，そのためには業績と研究費と人望が必要…… 悔しいけども私は何も持ち合わせておらずまだそのフェーズにいない。地道に積み上げていくのみ……

2

3

54

Yuta Nakamura🐠

@iBotamon

2 years

2年前くらいは迂闊にも「読影レポート自動生成は当分実現しなさそう」とか口にしてしまっていましたが，あまりに凄い勢いで強力な巨大マルチモーダルモデルが爆誕しているのを見るともはやそうは言えない気がします。あとは医療データがいつ技術者の手に渡るかだけの問題かもしれない

1

4

54

Yuta Nakamura🐠

@iBotamon

5 years

GitHub公式から便利な.gitignore集が提供されていることを初めて知りました。Pythonに限らずだいたいどの言語のものも揃っている様子

1

8

52

Yuta Nakamura🐠

@iBotamon

11 months

ByteDance Researchから大規模言語モデルに求められる信頼性についてのガイドラインを意図したプレプリントが投稿されています用語や概念を整理し，実際に8つの観点からLLMの信頼性を検証 text-davinci-003に悪意あるプロンプトを自動生成させるなどの省力化も興味深い

Trustworthy LLMs: a Survey and Guideline for Evaluating Large...

Ensuring alignment, which refers to making models behave in accordance with human intentions [1,2], has become a critical task before deploying large language models (LLMs) in real-world...

arxiv.org

1

6

53

Yuta Nakamura🐠

@iBotamon

4 years

待っていました，ついに京大黒橋研から日本語Wikipedia入力誤りデータセットが公開！！

0

20

49

Yuta Nakamura🐠

@iBotamon

5 years

NLPの国際会議論文から医療言語処理に関係ありそうなタイトルのものだけ抜粋してくるコードを書きました。bs4+urllibでサクッと。人生初GitHubです。

GitHub - yutanakamura-tky/medical_ai_paper_getter: Automatically extract medical-like AI papers.

Automatically extract medical-like AI papers. Contribute to yutanakamura-tky/medical_ai_paper_getter development by creating an account on GitHub.

github.com

1

17

52

Yuta Nakamura🐠

@iBotamon

8 months

私は焦ってそんな超人を真似ようとしたら1年間で2回心身壊しましたので，ぜんぜんお勧めしません。人生は長距離走ですから…

あんりちゃん

@anriiixoxo

8 months

凡人からは想像もできない毎日3時間睡眠で風邪も引かず元気で頭もキレキレみたいな人って一定数いるんだよな。一流企業でバリバリ活躍してる人に多い。

87

434

2K

2

4

52

Yuta Nakamura🐠

@iBotamon

3 years

SentencePiece で batch_encode_plus() 出来るようにしました．tokenizers がいつの間にこんなに便利になっていたとは…

SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む - radiology-nlp’s blog

背景 PyTorchでHugging Face Transformersを使って自然言語処理を行うとき，文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません．この前処理が思ったよりもやっかいなのです．事前学習済みのモデルをTransformers公式から提供されているも…

radiology-nlp.hatenablog.com

0

8

52

Yuta Nakamura🐠

@iBotamon

2 months

雑な実験の論文が高IFのジャーナルに平気で通り，逆に誠実に実験したつもりの自著論文は通らない，みたいな経験を重ねるうちやっと「まあそんなもん」と割り切れるようになりましたね😇 臨床系のジャーナルで，レビュアーがAIの技術に詳しい/興味あることを期待するのがそもそも間違い

2

7

52

Yuta Nakamura🐠

@iBotamon

2 months

age++しました🥳

4

0

51

Yuta Nakamura🐠

@iBotamon

2 years

知識グラフを使う必要が出てきそうでGraph Neural Networkを勉強しているのですが，グラフを扱いたかったはずなのになぜかフーリエ変換を必死で勉強している…(何故？🤔) 私のような工学畑出身でない人は高確率でこうなると思います

1

2

50

Yuta Nakamura🐠

@iBotamon

1 year

こう考える方は少なくないかもしれませんが医療の全ては代替できないと思います(理由は長いので割愛)。 "考える" だけなら私達の研究しがいがあって良いですが誰かが「GPTで医療相談全部OK！」のようなサービスを作って実害を出したりすると国内での医療AIの規制強化を招き発展を阻害しかねません

あるふ

@alfredplpl

1 year

今の私はChatGPTやtext-to-image、text-to-videoにより、以下の仕事が専門家並みに可能です。・医者(特に精神科医・弁護士・弁理士・税理士・作家・写真家・イラストレーター・アニメーター・映画監督・ソフトウェアエンジニア他もちろん、想像の範囲なので試してみないとわかりませんが。

6

114

802

1

9

48

Yuta Nakamura🐠

@iBotamon

4 years

ついに20代が終わってしまいました(!) が，人生まだまだこれから楽しくなると思うので引き続き良い一年にしていきます

4

0

47

Yuta Nakamura🐠

@iBotamon

6 months

最近さまざまな診療科や疾患領域のジャーナルで大規模言語モデルへの潜在的な応用可能性をまとめたレビュー論文を目にします今もまだしっかり期待感を語るだけで論文が通りそうなので関心のある方はこの機会にぜひ眼科→ 循環器→

Artificial intelligence: revolutionizing cardiology with large language models

Abstract. Natural language processing techniques are having an increasing impact on clinical care from patient, clinician, administrator, and research pers

academic.oup.com

1

7

47

Yuta Nakamura🐠

@iBotamon

7 months

去年の今ごろは東大放射線科史上一二を争う分厚い(?)博士論文を書き審査委員の先生方をたいへん困らせていましたが総説部分を書籍化させて頂けることになるかもしれません

2

0

48

Yuta Nakamura🐠

@iBotamon

2 years

AI研究で医学博士をとるのはちょっと特殊で，大学によっては「自施設のデータを使った研究しか学位審査の業績に使えない」などのトラップが存在することもあるようなので早い時期に確認するのが吉です

2

1

48

Yuta Nakamura🐠

@iBotamon

5 years

2019 ・医学博士課程入学・AtCoder緑・基本情報合格・YANSに演題を出した・PyTorch, Torchtext, PyTorch-Lightningを覚えた・Kaggle銀メダル(※Kernel) ↓ 2020(目標) ・言語処理学会と論文1本(春まで) ・新しいテーマを2個以上つくって形に・応用情報合格, 専門医取得・Kaggleでコンペメダル

0

47

Yuta Nakamura🐠

@iBotamon

3 years

画像診断も自然言語処理もなにもわからん

3

2

43

Yuta Nakamura🐠

@iBotamon

7 months

Supervised Fine-Tuning (SFT) という用語，少し前から聞きますがこの指す範囲が未だよく分からないんですよね… 単なるFine-Tuningの言い換えとは違うんでしょうか？いやFine-Tuningって大体Supervisedやないかーい！と思ってしまう😇 LLM時代，技術はもちろん用語にも付いていくのが大変です…

1

3

45

Yuta Nakamura🐠

@iBotamon

8 months

私はリアルタイムで聞けませんでしたが，東大病院循環器内科の小寺聡先生らのAIグループの勢いがすさまじく，とても刺激になります NeurIPS 2023にも研究成果を発表されているほか，現在は医用汎用マルチモーダルモデルを開発中とのこと

LLM勉強会（LLM-jp）

@llm_jp

8 months

11月29日（水）に国立情報学研究所にて第6回 LLM 勉強会を開催しました。当日のプログラムや発表資料はこちらをご確認ください。

0

30

127

0

4

46

Yuta Nakamura🐠

@iBotamon

1 year

4日前のarXiv論文より: 大規模言語モデル29種類を読影レポートに適用した性能比較が行われています。データセットはMIMICとOpenI，タスクは自動要約

Evaluating Large Language Models for Radiology Natural Language Processing

The rise of large language models (LLMs) has marked a pivotal shift in the field of natural language processing (NLP). LLMs have revolutionized a multitude of domains, and they have made a...

arxiv.org

1

3

46

Yuta Nakamura🐠

@iBotamon

3 years

日本語キャプションデータセットが千葉工業大学STAIR Labから公開されているんですね。これまで全く知らなかった...！ MSCOCOの画像に約82万キャプションが付与されているそうで，キャプション生成やテキストベース画像検索のデモも載っています

0

7

44

Yuta Nakamura🐠

@iBotamon

7 months

ChatGPTに論文PDFを投げて英語音声で質問を繰り返してみた感想: 🙆‍♀️ ・移動時間の新たな楽しみ方 (?) ・普通に読むのとは違う頭の使い方ができる。情報系のポスターセッションに近い感覚 (→)

1

4

44

Yuta Nakamura🐠

@iBotamon

3 years

BERTを使うとICDや薬剤コードなどの table data からの疾患予測もできるらしいですが，Med-BERTという新しいモデルが今年発表されたとのこと

0

3

43

Yuta Nakamura🐠

@iBotamon

23 days

微力ながら安野たかひろ氏のポスター貼りボランティアに参加してみました (学生時代になぜか一緒に演劇やったりしたのが懐かしいです) 23区内は進んできているので私は多摩地区へ京王八王子〜府中間はすべての駅前にポスターがある状態にしました

0

43

Yuta Nakamura🐠

@iBotamon

2 years

RadImageNetは医用画像研究のあり方を大きく変えそうですねこういう巨大プラットフォームが登場すると，もう全てはやり尽くされてしまったような呆然とした心持ちになりますが，気を確かにもって自分に出来ることを探さなければ

1

4

42

Yuta Nakamura🐠

@iBotamon

2 years

RoBERTaは数ある基盤モデルの中でもよく使われている方だと思いますが実はICLR 2020 rejectになっていたと知ってちょっと意外でした

1

2

42

Yuta Nakamura🐠

@iBotamon

4 years

医療でのマルチモーダルタスクは言語×画像ももちろんですが言語×テーブルデータもかなり面白い印象がしています

MedNLP survey 👀

@MednlpS

4 years

58. TAPER: Time-Aware Patient EHR Representation (2020) カルテ文書をBERTに，非言語データ(検査，投薬，診断，年齢，人種など)をtransformerに通すことで，"入院そのもの"をベクトル化した研究. MIMIC-IIIのICU患者死亡/再入院/長期入院判定タスクでいずれも性能が向上

0

7

32

0

13

42

Yuta Nakamura🐠

@iBotamon

2 years

実はベトナム語の医療言語処理事前学習モデルはすでに2種類存在します (ViHealthBERT @LREC2022 ) (ViPubMedT5 @arXiv ) Low-source言語ながら，機械翻訳も併用して医学論文や医学書から事前学習データを賄ったよう。日本語でも負けてられないですね

Enriching Biomedical Knowledge for Low-resource Language Through...

Biomedical data and benchmarks are highly valuable yet very limited in low-resource languages other than English such as Vietnamese. In this paper, we make use of a state-of-the-art translation...

arxiv.org

1

9

41

Yuta Nakamura🐠

@iBotamon

24 days

一生懸命アノテーションガイドラインを地味に作って壊して，数百文書を頑張ってアノテーションしているときにbig techの大規模研究を眺めるとため息が出ますが，これも意味があると信じてやり切るのである

1

3

41