Naoaki Okazaki @chokkanorg Twitter profile

Last Seen Profiles

@premkum42512242

@GuyPaladin

@maellight

@bokeplokalmalam

@hlrecord

@sztchan

@RobertTenKate

@JahfrassE33523

@_ywnh

@FelipeBolsonare

@imightbevirtual

@AudiSaudiArabia

@boppleton

@nadyathinks

@bokeplokalmalam

@uchuraru

@Don_Penim

@andreas_kellner

@evligiz60125833

@HLSAPALSA

@taedayz

@lzym55155

@freshkillspod

@bokeplokalmalam

@LlandaffNews

@mariadyveke

@stw_pdg

@Adnanfrat9

@Nahuebreglia

@gmaldonado06

@dearfriends80

@hannamahiiro

@GubyWonka

@ThizzUchiha

@SBarriCabanyal

@mohmmaed2S

Naoaki Okazaki

@chokkanorg

3 years

回帰、分類、クラスタリング、主成分分析などの機械学習の理論と実装を「動く」学習帳としてまとめました。「機械学習の帳（Jupyter Notebook）」と「機械（デジタル）で実現された学習帳」の駄洒落です。東京工業大学情報理工学院の機械学習（CSC.T254）の講義ノート。

機械学習帳

機械学習帳は、機械学習を学ぶためのノート（帳）を、デジタル（機械）による新しいカタチの学習帳として実現することを目指しています。

chokkan.github.io

1

296

2K

Naoaki Okazaki

@chokkanorg

4 years

言語処理100本ノックの2020年版を公開しました。最近の自然言語処理の研究動向を反映し、深層ニューラルネットワークに関する問題を追加しました。留学生も一緒に取り組めるように多言語化を進め、その第１弾として英訳を部分公開しています（40番以降は順次公開予定）。

言語処理100本ノック 2020 (Rev 2)

言語処理100本ノックは，実用的でワクワクするような課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です．詳細

nlp100.github.io

1

493

2K

Naoaki Okazaki

@chokkanorg

2 years

2022年度AIPシンポジウム成果報告会の特別講演「大規模言語モデルの驚異と脅威」の発表資料をアップロードしました。

大規模言語モデルの驚異と脅威

2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを（Research Preview版ではあるが）無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転…

speakerdeck.com

3

409

1K

Naoaki Okazaki

@chokkanorg

10 months

📢 大規模言語モデル「Swallow」をHugging Face上で公開しました。東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームでLlama 2 7B, 13B, 70Bの日本語能力を引き上げました。13Bと70BのオープンなLLMの中で日本語の最高性能を達成しました。

Swallow – TokyoTech-LLM

Llama 2の日本語能力を強化した大規模言語モデル (7B, 13B, 70B)

tokyotech-llm.github.io

1

384

1K

Naoaki Okazaki

@chokkanorg

4 months

#JSAI2024 で「大規模言語モデルの開発」と題し、チュートリアル講演を行いました。事前学習、インストラクションチューニング、アライメント、評価の４部構成で、最近の研究動向や知見を紹介しました。

大規模言語モデルの開発

2024年度人工知能学会全国大会（第38回）チュートリアル講演１本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎…

speakerdeck.com

2

251

918

Naoaki Okazaki

@chokkanorg

5 years

情報基礎学の「無限」の講義資料．講義担当から外れることになったので，準備に一番時間がかかった資料を記念公開．

無限

無限 - Download as a PDF or view online for free

www.slideshare.net

2

200

693

Naoaki Okazaki

@chokkanorg

4 years

先端機械学習の後半の講義資料（スライドとコード）を公開しました．内容は深層学習ベースの自然言語処理で，昨年度からの変更点は以下の通りです． * CNNのスライドを追加（ #3 ） * Transformer, GPT, BERTの説明を増強（ #6 : Encoder-decoder models） * ウェブサイトを改良

Introduction to Deep Learning

Deep Neural Networks (FFNN, CNN, RNN, LSTM, GRU), Word Embeddings, Encoder-Decoder (Attention, Transformer, GPT, BERT).

chokkan.github.io

0

126

664

Naoaki Okazaki

@chokkanorg

6 years

東工大の機械学習（ART.T458）の講義資料のうち，岡崎担当部分をまとめて公開しました．内容は自然言語処理寄りの深層学習の入門です．今年は他大学・他学院を含めて約240人が受講しました．

Introduction to Deep Learning

Deep Neural Networks (FFNN, CNN, RNN, LSTM, GRU), Word Embeddings, Encoder-Decoder (Attention, Transformer, GPT, BERT).

chokkan.github.io

0

190

654

Naoaki Okazaki

@chokkanorg

4 years

言語処理100本ノックの2020年版の改訂版（Rev 1）を公開しました．大きな変更は第5章のデータの差し替えです（問題の本質に関する変更はありません）．その他，いくつかの不具合を修正しました．英語版は全ての問題が完成し，韓国語版（第4章まで）が新たに加わりました．

言語処理100本ノック 2020 (Rev 2)

言語処理100本ノックは，実用的でワクワクするような課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です．詳細

nlp100.github.io

1

133

553

Naoaki Okazaki

@chokkanorg

1 year

2023年度統計関連学会連合大会で大規模言語モデルに関するチュートリアル（3時間）を行いました。言語モデルやTransformerの基礎から最近の大規模言語モデルに至るまでの流れを整理しました。スライド: チュートリアル:

1

147

530

Naoaki Okazaki

@chokkanorg

1 year

GoogleのPaLM 2 (Bard) の論文紹介スライド。言語検定試験、質問応答、数学、コーディング、機械翻訳、自然言語生成などによる性能評価だけでなく、有害な応答やバイアスの検証、プライバシー保護への取り組みなど、LLMに関する様々な成果がまとめられていました。

【論文紹介】Google. 2023. PaLM 2 Technical Report

PaLM 2 (Bard) の技術報告の紹介スライド

speakerdeck.com

1

101

495

Naoaki Okazaki

@chokkanorg

7 years

本日より東京工業大学・情報理工学院・情報工学系・知能情報コースでお世話になることになりました．まだ居室は空っぽで，研究室の在籍メンバーは私だけですが，自然言語処理や人工知能を主要研究テーマとして，楽しい研究室を作っていきたいと思います．皆様どうぞよろしくお願いいたします．

12

148

417

Naoaki Okazaki

@chokkanorg

7 months

📢 大規模言語モデルSwallow-MS 7BとSwallow-MX 8x7Bを公開しました。東京工業大学の岡崎研究室と横田研究室、産業技術総合研究所の研究チームでMistral 7BとMixtral 8x7Bの日本語能力を引き上げました。Swallow-MS 7Bはオープンな7BのLLMの中で日本語最高性能を達成しました。

Swallow on mistral – TokyoTech-LLM

Mistral 7BおよびMixtral 8x7Bの日本語能力を強化した大規模言語モデル (Swallow-MS 7B, Swallow-MX 8x7B)

tokyotech-llm.github.io

1

128

417

Naoaki Okazaki

@chokkanorg

3 years

Pythonのプログラムと実行結果、解説をセットにした「Python早見帳」を公開しました。各ページの🚀ボタンからGoogle ColaboratoryやBinderを立ち上げると、ブラウザ上でプログラムを動かしながら、Pythonの基礎を勉強できます。 (Powered by Jupyter Book)

Python早見帳

Python早見帳は、Pythonのプログラムと実行例をさっと確認（早見）できるJupyter Notebook（帳）です。

chokkan.github.io

0

67

343

Naoaki Okazaki

@chokkanorg

10 years

言語処理100本ノックを全面的に改訂しました．実用的な題材に取り組みながら，自然言語処理や機械学習の基礎，研究力・分析力を楽しく修得できます．データの配布も開始しました． http://t.co/noA6C3usA8

2

173

309

Naoaki Okazaki

@chokkanorg

2 years

荒瀬さん @Yuki_arase 、鈴木さん @drJunSuzuki 、鶴岡さん、宮尾さんと執筆した教科書が8/24に発売されます。深層学習時代の自然言語処理向けに、TransformerやBERTを系統立てて説明してから、系列ラベリング、構文解析、意味解析、応用を解説するという構成にしました。

IT Text 自然言語処理の基礎 | Ohmsha

本書は、深層学習に基づく自然言語処理の基礎となる知識や考え方を、丁寧に展開し解説するものです。自然言語処理技術の概観から始め、機械学習の基本的枠組み、言語モデル・系列変換モデルとして非常に有用なTransformerとそれを活用した事前学習モデルの詳解、さらに自然言語処理の基本的なタスクである系列ラベリング、構文解析、意味解析と、自然言語処理を学ぶうえで必須の基礎知識や背景となる仕組みを幅広...

www.ohmsha.co.jp

1

75

243

Naoaki Okazaki

@chokkanorg

3 months

Llama 3 8B, 70Bから日本語データで継続事前学習を行ったLlama 3 Swallow 8B (base, instruct), 70B (base, instruct) を公開しました。開発チームで実施した評価実験において、8Bのモデルはこのクラスのオープンなモデルの中でトップクラスの性能でした。

Llama 3 Swallow – Swallow LLM

Llama 3の日本語能力を強化した大規模言語モデル (8B, 70B)

swallow-llm.github.io

0

72

241

Naoaki Okazaki

@chokkanorg

1 year

首相官邸で岸田首相とお会いして、人工知能の可能性やリスク・対応策について意見交換をいたしました。私からは特に、日本で大規模言語モデルの研究・開発を進めることについて、お話をしてきました。

1

53

224

Naoaki Okazaki

@chokkanorg

2 years

『IT Text 自然言語処理の基礎』が届きました！本の帯は辻井先生のご推薦です。荒瀬さん @Yuki_arase 、鈴木さん @drJunSuzuki 、鶴岡さん、宮尾さんと一緒に執筆することができて、本当に幸運でした。賑やかな本が完成し、感慨無量です！

1

50

226

Naoaki Okazaki

@chokkanorg

12 years

Ｃ言語の初心者向けに，ポインタにまつわる話をまとめてみた．明日の演習で話す予定． http://t.co/IxNDiNBj

5

162

215

Naoaki Okazaki

@chokkanorg

12 years

乾・岡崎研で開発した言語処理100本ノック（プログラミングのトレーニング問題集）を公開しました．研究室の新人研修で，楽しみながら自然言語処理研究の基礎体力をつけることを目的としています．全100本のうち40本を先行公開中． http://t.co/inBOpuuk

2

129

214

Naoaki Okazaki

@chokkanorg

6 years

講義では実装のデモと課題提出にGoogle Colaboratory (Jupyter notebook) を活用しました．私が準備したPyTorchの実装例に加え，受講生から提供して頂いたChainer, TensorFlow (Keras), MXNetの実装例もウェブサイトに掲載しました．Julia+Knetの実装も提出され感嘆しました．

Implementations for binary classifiers

Course materials for the latter half of ART.T458: “Machine Learning”

chokkan.github.io

0

46

215

Naoaki Okazaki

@chokkanorg

2 years

NAIST DSC NLP Seminar 2022 Summerの「近傍の事例を活用したニューラル言語生成」のスライドを公開しました。

okazaki_NAIST-DSC2022.pdf

近年，訓練データで系列変換（sequence-to-sequence）モデルを学習するだけでなく，与えられた入力と関連が深い事例を推論時に参照し，ニューラル言語生成モデルの性能を高めようとする研究が注目を浴びている．本講演では，対話システム，機械翻訳，データからのテキスト生成（data-to-text）…

speakerdeck.com

0

39

216

Naoaki Okazaki

@chokkanorg

26 days

日本語コーパスでLLMを事前学習すると日本に関する知識や英日翻訳が強化されることを、35種類のLLM・日英19件のタスクの評価結果から実証しました。情報公開されていないLLMに対して、日本語での学習量をざっくり見積もることにも使えます。論文はこちら →

Koshiro Saito

@koshiro_sa110

27 days

本日、NL研第261回にて「LLMに日本語テキストを学習する意義」という表題で発表をさせていただき、優秀賞に選定されました。

1

49

183

0

49

204

Naoaki Okazaki

@chokkanorg

2 years

「自然言語処理の基礎」がAmazon 人工知能の新着ランキング1位になり✨記念スクショ撮れました。みなさま、ありがとうございます！

1

18

189

Naoaki Okazaki

@chokkanorg

6 years

海外から東工大に来る方が，大岡山ではなく岡山行きの新幹線のチケットを買ってしまう事案があるらしい．Ookayamaの綴りに無理があるし，Cooooooooooooooollllllllllllll!!!!!!!!!!!!!!と同じノリに見えてしまうので，Oh! Okayamaと書いてあげる方が親切かも．

2

76

179

Naoaki Okazaki

@chokkanorg

5 months

Swallow 7B, 13B, 70B、およびSwallow-MS 7Bの新しいinstructモデル（Swallow-*-instruct-v0.1）を公開しました。あまり重視してこなかった指示追従能力やマルチターン応答の改善に取り組み、MT-Benchで過去のモデルを上回る性能を確認しました。

Swallow-MS-instruct - a tokyotech-llm Collection

huggingface.co

0

62

161

Naoaki Okazaki

@chokkanorg

8 years

ダヌシカさん ( @Bollegala ) と前原さん ( @tmaehara ) さんと書いた本が発売開始になりました．『ウェブデータの機械学習』

0

80

155

Naoaki Okazaki

@chokkanorg

8 years

ギャングのツイートを「仲間が殺られた」「ヤツを殺る」「その他」の分類する研究．日常英語からかけ離れたテキストを扱うため，ソーシャルワーカーと研究者が協力して，品詞タグ・意味ラベル付きのコーパスを構築．

1

79

148

Naoaki Okazaki

@chokkanorg

2 years

想定読者は、自然言語処理の研究室に配属された方、深層学習ベースの自然言語処理の理論面を理解したい方です。全11章278ページ（巻末も含めると320ページ）の構成で、大学の講義1～2回で1章を進めることを想定しています。みなさまの研究や講義でお役に立てると幸いです。

1

42

151

Naoaki Okazaki

@chokkanorg

1 year

#サイエンスZERO の「"ChatGPT"徹底解剖！ AIと歩む未来を探る」において、Transformerの解説を担当しました。行列を使わずに分かりやすく説明するため、ディ��クターさんと打ち合わせを重ねました。番組MCの井上咲楽さんは頭の回転が速く、的確なコメントをされていて、とても印象的でした。

東京工業大学

@tokyotech_jp

1 year

6/11（日）23:30より放送予定のNHK Eテレ「サイエンスZERO」に情報理工学院情報工学系の岡崎直観教授が出演します。世界中に浸透した"ChatGPT"をテーマに、番組MCの井上咲楽さんが言語モデル研究を行う岡崎研究室を訪れ、そのなめらかな受け答えの謎を探ります。

1

104

468

0

34

144

Naoaki Okazaki

@chokkanorg

3 months

Swallowコーパスの論文（with @ayase_lab 平井さん @HIROKIIIDA7 @stjohn2007 @okoge_kaz @Setuna7777_2 @loem_ms @rioyokota 水木さん）が言語モデルの国際会議 @COLM_conf に採択されました。国際会議論文を筆頭で書いたのは14年振り

1

27

137

Naoaki Okazaki

@chokkanorg

6 years

お手伝いをしている朝日新聞情報技術本部とメディアラボの機械学習活用事例の記事．2ページ目に900万記事を活用した自動校正，単語ベクトルの公開，自動見出し生成・自動要約のスライド．自社で研究開発をしているため，PDCAサイクルがよく回っていて，いつも感心しています．

0

33

133

Naoaki Okazaki

@chokkanorg

7 months

言語処理学会第30回年次大会（NLP2024）において、「Swallowコーパス: 日本語大規模ウェブコーパス」と「継続事前学習による日本語に強い大規模言語モデルの構築」が優秀賞を受賞しました。Swallowの開発を支援して頂いた皆さま、ユーザの皆さま、そしてチームのメンバーに感謝申し上げます。

0

19

131

Naoaki Okazaki

@chokkanorg

7 years

二分探索法をゲーム形式で教えようと思って，Jupyter notebookにコードを書いたが，受講生の手元で動かすほうが楽しいよなぁと思って探していたら，ブラウザで動くPythonのインタプリタに巡り合い，モチベがさらに上がった．

0

38

129

Naoaki Okazaki

@chokkanorg

9 years

// printfのヤバ過ぎる動作 main() { double d = 0.; int i = 1; printf("%lf %d\n", d, i); printf("%lf %d\n", i, d); } 出力 0.000000 1 0.000000 1

5

127

120

Naoaki Okazaki

@chokkanorg

3 months

Swallowの開発チームが実施したLLMの評価実験結果を棒グラフやレーダーチャート、散布図などで閲覧できるサイトを作りました。用途にあったLLMを選択するための情報としてだけでなく、日本語に強いLLMの開発のための参考情報としてお役に立てると幸いです。

日本語LLM評価 - 総合

このサイトでは、Swallowプロジェクト内で実施されたLLMの評価結果を棒グラフやレーダーチャート、散布図などで閲覧できます。用途にあったLLMを選択するための情報としてだけでなく、日本語に強いLLMの開発のための参考情報としてお役に立てると幸いです。

swallow-llm.github.io

0

51

121

Naoaki Okazaki

@chokkanorg

2 years

11/4発売の新刊をご恵贈頂きました。深層学習の基礎（2章）をベースに、画像処理（3章）、自然言語処理（4章）、音声処理（5章）、これらの3分野を繋ぐマルチモーダル情報処理（6章）を俯瞰しています。

0

22

121

Naoaki Okazaki

@chokkanorg

1 month

大人気本の続編『大規模言語モデル入門II』をご献本頂きました。Swallowの開発等で大活躍の藤井さんが著者に加わり、Swallow 7Bを使いながらLLMの評価、指示チューニング、選好チューニング、RAG、さらには分散並列学習も学べるという、LLMエンジニア必携の書だと思います。

大規模言語モデル入門Ⅱ〜生成型LLMの実装と評価

www.amazon.co.jp

0

18

120

Naoaki Okazaki

@chokkanorg

6 months

東京工業大学大岡山キャンパス西8号館6Fに自然言語処理の世界的な研究室が爆誕しました。荒瀬研究室に配属された学生もおめでとうございます！

Yuki Arase (荒瀬由紀)

@Yuki_arase

6 months

本日付けで東京工業大学情報理工学院教授に着任しました。新たに言語処理の研究室を立ち上げます。これまでの研究も深めつつ、新しいチャレンジもできればと思います。大岡山キャンパスにおりますので、東工大にお越しの際はぜひお立ち寄りください！

21

57

487

0

14

119

Naoaki Okazaki

@chokkanorg

8 years

東北大学電気情報物理工学科「プログラミング演習A」のウェブサイト今年度から学内限定アクセスではなく，一般公開することにしました．

0

51

116

Naoaki Okazaki

@chokkanorg

7 years

昨日付けで東北大学を退職しました．東北大学の6年間を振り返ると，東日本大震災からの復興，大学・研究科・研究室の温かいサポート，素晴らしい学生・スタッフ，住みやすい仙台など，濃密な日々を送ることが出来ました．本当にお世話になりました！　今後も東北を応援していきます！！

0

31

112

Naoaki Okazaki

@chokkanorg

9 years

「研究室における研究・実装ノウハウの共有」 in 言語処理学会第22回年次大会ワークショップ「論文に書かない（書けない）自然言語処理」 #nlp2016

研究室における研究・実装ノウハウの共有

研究室における研究・実装ノウハウの共有 - Download as a PDF or view online for free

www.slideshare.net

0

47

111

Naoaki Okazaki

@chokkanorg

1 year

東北大・鈴木さん @drJunSuzuki NTT・西田さん @kyoun と一緒にPAKDD 2023のチュートリアル "A Gentle Introduction to Technologies Behind Language Models and Recent Achievement in ChatGPT" を担当しました。私はPart 5"Efforts for Responsible LLMs"を担当しました。

Part 5: Efforts for Responsible LLMs, PAKDD 2023 Tutorial 2: A Gentle Introduction to Technologies...

PAKDD 2023 Tutorial 2: A Gentle Introduction to Technologies Behind Language Models and Recent Achievement in ChatGPT https://pakdd2023.org/tutorials/…

speakerdeck.com

0

24

110

Naoaki Okazaki

@chokkanorg

8 years

第71回人工知能セミナー「Deep Learning技術の仕組みと自然言語処理への応用」の発表スライド．分散表現，エンコーダ・デコーダ，アテンション，関係知識の合成，読解タスク（文脈処理），MemNN, DMN, bAbIなど．

深層ニューラルネットワークによる知識の自動獲得・推論

深層ニューラルネットワークによる知識の自動獲得・推論 - Download as a PDF or view online for free

www.slideshare.net

0

49

102

Naoaki Okazaki

@chokkanorg

7 years

（ようやく）研究室のウェブサイトができました！東京工業大学情報理工学院情報工学系知能情報コース岡崎研究室:

岡崎研究室

東京工業大学情報理工学院情報工学系知能情報コース自然言語処理，人工知能，機械学習に関する研究

www.nlp.c.titech.ac.jp

1

44

104

Naoaki Okazaki

@chokkanorg

7 years

日本語のプロがよい記事を目指して推敲するという営みが，新聞社では毎日続けられています．自然言語処理の研究としても大変貴重な文章校正履歴データを，外注ではなく自社で活用し，成果をEMNLPやIJCNLPで発表して（する予定で）います．

人工知能による文章の自動校正システムを開発、特許出願

株式会社朝日新聞社のプレスリリース（2017年9月22日 14時18分）人工知能による文章の自動校正システムを開発、特許出願

prtimes.jp

1

40

102

Naoaki Okazaki

@chokkanorg

1 month

#NVIDIA の #NIM でLlama-3-Swallow-70Bが利用可能になりました。日本語に特化したLLMがNVIDIAのNIMに載ることはこれが初めてとのことです。大変光栄ですし、これを励みに頑張りたいと思います。

NVIDIA、日本で生成 AI 向け NIM マイクロサービスを開始 | NVIDIA

文化的理解力と言語能力を備えたソブリン AI アプリケーションの展開を加速世界中の国々が、自国のコンピューティングインフラ、データ、労働力およびビジネスネットワークを使って人工知能を生み出し、ソブリン AI を追求しており、AI システムをその地域の価値観、法律および興味関心に整合するものにしています。このような取り組みを支援するために、NVIDIA は本日、開発者が高性能な生成 AI...

blogs.nvidia.co.jp

0

30

101

Naoaki Okazaki

@chokkanorg

7 months

言語処理学会第30回年次大会 #NLP2024 で『チュートリアル１：自然言語処理の基礎』(3/11 13:00-14:30) を担当します。自然言語処理研究の歴史、大規模言語モデル、Transformerアーキテクチャ、今後の自然言語処理研究について解説します。

0

17

90

Naoaki Okazaki

@chokkanorg

7 years

第9回最先端NLP勉強会に参加中．スライドは公開されているし，会場はリクルートジョブさん，PFNさん，コーヒーはNVIDIAさんご提供ということで，すごいイベントになったなぁ． #snlp2017

最先端NLP勉強会 - 2017

概要自然言語処理分野のトップジャーナル・トップカンファレンスであるTACL、ACL、NAACL、EMNLPの論文の中から、参加者の投票によって厳選した論文を各参加者が分担して紹介する論文読み会です。勉強会の参加者は各自1～2本の論文を担当し、全体で30本程度の論文の紹介をします。最新の魅力的な論文や分野の潮流について共有・議論することで今後の研究の種が生まれることを本勉強会の狙いとして...

sites.google.com

0

30

84

Naoaki Okazaki

@chokkanorg

2 months

Meta主催のLlama活用に関するアイディアソンで審査員を拝命いたしました。日本大会への応募締め切りは8月19日、ピッチイベントは9月6日（於・CIC Tokyo）です。派生モデルであるSwallow等も含めて、Llama活用のどんなアイディアが出てくるのか楽しみです。ぜひご応募を！

0

22

85

Naoaki Okazaki

@chokkanorg

10 years

中川先生 ( @hiroshnakagawa3 ) から東京大学工学教程『機械学習』をご献本頂きました．幅広い話題が簡潔にまとまっていて，機械学習の入門書としてお勧めです．まだ値段が付いていないのですね… http://t.co/UIwSyV6FuN

0

29

78

Naoaki Okazaki

@chokkanorg

1 month

だいぶ前に献本頂いていましたが、小町さんの『自然言語処理の教科書』を読みました。自然言語処理の実務を始める方にとってお薦めの本だと思いました。コラムの面白さもさることながら、５章「言語資源のつくり方」は、データが鍵を握るLLM時代だからこそ必見です。

自然言語処理の教科書

www.amazon.co.jp

0

14

71

Naoaki Okazaki

@chokkanorg

4 years

Released NLP 100 Exercise 2020 Rev 1. This release includes a full English translation of 言語処理100本ノック (gengo shori 100-pon knock).

NLP 100 Exercise 2020 (Rev 2)

NLP 100 Exercise is a bootcamp designed for learning skills for programming, data analysis, and research activities by taking practical and exciting assignments. Read more

nlp100.github.io

0

28

70

Naoaki Okazaki

@chokkanorg

13 days

NL研で発表した研究が、ITmediaさん（執筆はSeamlessの @shiropen2 さん）の記事になりました。学会発表が記事になるのは初めてのことで、喜ばしく思っています。Swallowチームでは今後も日本語に強いLLMの開発を目指しながら、そのレシピや知見を論文等できちんと共有していきたいと考えています。

ITmedia

@itmedia

13 days

［ITmedia AI＋］Innovative Tech（AI+）：なぜAIに“日本語”を学習させるのか？　35種類のLLMで実験し分析　東工大などが研究報告

0

4

10

0

19

70

Naoaki Okazaki

@chokkanorg

7 years

fasttextを日本語のコーパスに適用するとき，どうやってマルチバイトの文字境界を与えるのか調べようと思って実装を読んでいたら，1文字が1バイトで表現される世界しか想定していない模様．内部ではUTF-8やCP932の1バイト単位でn-gram（サブワード）を作っているっぽい．

1

18

67

Naoaki Okazaki

@chokkanorg

5 years

附属高校の学生さんで，この4月から東工大に入学予定の @pigiipanku さんが開発したアプリ．研究室でデモを見せてもらいましたが，深層学習のモデルを開発してプロダクトまで持っていくのは凄いです．

人工知能・機械学習ニュース [公式]

@A_I_News

5 years

AI（人工知能）が “似合う髪型”と”似ている芸能人”を診断する無料のオリジナルアプリ「AI STYLIST」をリリース - valuepress

0

13

27

0

14

65

Naoaki Okazaki

@chokkanorg

1 year

『大規模言語モデル入門』をご恵贈頂き、拝読いたしました。ChatGPTを汎用的に使うだけでなく、BERTやT5などをHuggingface Transformersでファインチューニングして、固有表現認識、要約、質問応答などの応用に特化したモデルを開発する方法が詳説されています。

大規模言語モデル入門

ChatGPTに代表される大規模言語モデルが自然言語処理の幅広いタスクで高い性能を獲得し，大きな話題となっています。大規模言語モデルは，大規模なテキストデータで訓練された大規模なパラメータで構成されるニューラルネットワークです。2020年以降，自然言語処理や機械学習の知見をもとに，パラメータ数とテキストデータの拡大により，性能が飛躍的に向上しました。 Hugging Face社の"trans...

gihyo.jp

0

10

65

Naoaki Okazaki

@chokkanorg

12 years

「研究者流コーディングの極意」言語処理学会第19回年次大会 (NLP2013) チュートリアル資料（岡崎担当部分のみ抜粋） http://t.co/iwPZ6P41PW

0

46

64

Naoaki Okazaki

@chokkanorg

1 year

📢 東京工業大学情報理工学院では准教授（任期無し）の公募を開始しました（11/30〆切）。自然言語処理、情報検索システム、知的システム、マルチモーダル処理、深層学習に関連する専門分野です。ご応募をお待ちしております。🙏 公募案内: JREC-IN:

0

35

63

Naoaki Okazaki

@chokkanorg

3 months

Excited to share that our paper on a large Japanese web corpus has been accepted at the first @COLM_conf ! Joint work with @ayase_lab Shota Hirai @HIROKIIIDA7 @stjohn2007 @okoge_kaz @Setuna7777_2 @loem_ms @rioyokota Sakae Mizuki.

1

18

61

Naoaki Okazaki

@chokkanorg

6 years

本日，高瀬翔さんが博士研究員として研究室にジョインしました．ここ２か月の間にメンバーが倍増していて，にぎやかな研究室になりそうです．

0

7

56

Naoaki Okazaki

@chokkanorg

7 years

東北大学最後の仕事はプログラミング演習A（学部講義）の採点でした．個人的に思い入れの強かった講義で，プログラミングが楽しい・出来ると思ってもらえるように様々な取り組みを行いました．受講生は大変だったかもしれませんが，今年度の期末試験の出来は上々で，嬉しくて清々しい気持ちです．

1

14

53

Naoaki Okazaki

@chokkanorg

9 years

WebDB Forum 2015 特別セッション3（Deep Learningと自然言語処理）のスライド．SVD, SGNS, Glove, CCA, RNN, LSTM, Tree LSTMなど． #webdbf2015

単語・句の分散表現の学習

単語・句の分散表現の学習 - Download as a PDF or view online for free

www.slideshare.net

0

16

48

Naoaki Okazaki

@chokkanorg

9 years

言語処理におけるNN研究の簡潔なまとめ．凄い． Yoav Goldberg. (2015) A Primer on Neural Network Models for Natural Language Processing.

1

4

46

Naoaki Okazaki

@chokkanorg

9 years

人工知能（学会誌）の３月号の特集「ニューラルネットワーク研究のフロンティア」．「深層学習」の連載記事以降の最新動向を，（私以外は）豪華な執筆陣に，できるだけテクニカルで，かつ，わかりやすく解説して頂きました．各記事のあらまし →

0

21

45

Naoaki Okazaki

@chokkanorg

6 years

#JSAI2018 OS-28 複雑化社会における意思決定・合意形成のためのAI技術「自然言語処理による議論マイニング」: 議論マイニングの現状と課題．知識の自動獲得と，それに基づく賛否分類など．

自然言語処理による議論マイニング

自然言語処理による議論マイニング - Download as a PDF or view online for free

www.slideshare.net

0

21

43

Naoaki Okazaki

@chokkanorg

12 years

昨日教えてもらった論文． K Church (2011) A Pendulum Swung Too Far http://t.co/UjSPE5e9 1990年代以降、大量データを武器にモデルを単純化し，簡単に成果を出すという経験主義が成功しすぎたが，いずれ合理主義へ回帰する．

0

16

44

Naoaki Okazaki

@chokkanorg

10 years

単語の共起行列を分解する時に階層型（正確にはforest型）Group Lassoを適用し，単語ベクトルを獲得する研究．複数のタスクでword2vecに勝利．単語の階層構造っぽいものが獲得できるようで，興味深い． http://t.co/FjqbJSHNIf

0

13

41

Naoaki Okazaki

@chokkanorg

4 years

丹羽さんのNeurIPS2019参加報告．Levenshtein Transformer, NMT with soft prototype, BERT, XLNet, UniLM, ViLBERT, XLMs, Q8BERT, DistilBERT, Eigenspace overlap score, KerBS, 社会的バイアス．動画: スライド: ※6/23までの期間限定公開

Ayana Niwa

@ayaniwa1213

4 years

NeurIPS2019🇨🇦にJSAI のレポータとして参加させていただきました。その関連で、報告会で発表予定だったスライドが公開されました。 Transformerまわりについて、NeurIPS2019の発表に沿って広くまとめたものです。😊 ↓ 他のレポータの資料も是非！

0

37

113

0

6

38

Naoaki Okazaki

@chokkanorg

9 years

JSAI2015のOS-1招待講演のスライド．分散表現，PMI+SVD，Skip-gram，Glove，構成性，(Matrix-vector) Recursive Neural (Tensor) Networkなど http://t.co/91AcNynRHr

単語の分散表現と構成性の計算モデルの発展

単語の分散表現と構成性の計算モデルの発展 - Download as a PDF or view online for free

www.slideshare.net

1

12

38

Naoaki Okazaki

@chokkanorg

1 month

#数理科学 2024年10月号の特集「生成AIのしくみと数理」で大規模言語モデルについて寄稿いたしました。錚々たる他の執筆陣が生成AIの重要トピックをカバーされていて、私も記事を読むのが楽しみです！

サイエンス社

@saiensu_sha

1 month

【近刊】次回の数理科学2024年10月号（9月20日発売）の特集テーマは「生成AIのしくみと数理」です！本特集では、さまざまな生成AIのモデルの紹介をはじめ、そのしくみや数理的研究の現状をまとめ、さらに今後の課題や展望についても迫っていきます。＃数理科学

1

185

636

0

11

39

Naoaki Okazaki

@chokkanorg

7 months

📢 東京工業大学情報理工学院では助教の公募を開始しました。自然言語処理の最先端を一緒に切り開いて頂ける方のご応募をお待ちしております。🙏 応募締切は5/31、着任は10/1以降のできるだけ早い時期です（来年4月も含みます）。公募案内: JREC-IN:

JREC-IN | 助教の公募（自然言語処理分野）

イノベーション創出を担う研究人材のためのキャリア支援ポータルサイト

jrecin.jst.go.jp

0

18

39

Naoaki Okazaki

@chokkanorg

2 years

ACLに論文を投稿中で、かつ言語処理学会年次大会で発表予定の方は、ACL 2023のFAQのAnonymity/Non-Archivalセクションの最後のQ&Aをよくご確認頂き、該当するご発表の宣伝をSNS等で行わないようにご注意ください。

Frequently Asked Questions

Official website for the 61st Annual Meeting of the Association for Computational Linguistics

2023.aclweb.org

0

14

38

Naoaki Okazaki

@chokkanorg

11 years

AAAI-14は投稿数が多すぎ（1400+）て，査読者への論文割り当てを最適化する制約充足問題（CSP）のアルゴリズムがパンクしたらしい．すべての論文と査読者とのマッチングを自動計算し，bidできる凄いシステムになってたからなぁ．

0

20

34

Naoaki Okazaki

@chokkanorg

9 years

研究室のチュートリアルで @quintia さんがApache Sparkを解説．Hadoopは簡単じゃなかった / HDFSのtips / Sparkで100本ノックを解く例 / スケールアウトするPMIの実装 http://t.co/x6UMoQxJpt

0

10

34

Naoaki Okazaki

@chokkanorg

8 years

講義準備や毎年の引き継ぎを円滑に進めるため，GitHub Educationを申請し，お認め頂きました．講義のウェブサイト，自動採点システムのソースコード，Issues（課題内容の議論など），WikiがGitHubのプライベート・レポジトリで一元管理できるので，すごく便利です．

0

29

32

Naoaki Okazaki

@chokkanorg

12 years

nbsくんに教えてもらった論文．照会時の回答書の書き方など，先輩等から伝承されてきた内容がまとめられていて素晴らしい．　朝香卓也．論文の書き方術（番外編）～査読報告書の書き方，条件付き採録時の回答文の書き方～ http://t.co/rPGwUt1e

0

9

33

Naoaki Okazaki

@chokkanorg

11 years

番組の中で特定のツイートが本人の許可なく取り上げられたようで，それが番組で利用された感じで出てしまったのは，本当に残念に思っています．正確なデータで健全な議論をしようというあの方の姿勢・努力は，ずっと一貫しています．

0

61

31

Naoaki Okazaki

@chokkanorg

8 years

今日はSmartNewsで第8回最先端NLP勉強会（明日の会場は東大）．発表スライドは公開されるようです．

0

12

30

Naoaki Okazaki

@chokkanorg

9 years

関連論文を見つけたら、「担当者」に学生を指名してIssueを作成し、論文を読んだらクローズしてもらうような、宿題的な使い方も可能。これはやり過ぎかもしれないが、チケット駆動開発ならぬチケット駆動研究を考えてみるのも楽しいかも。

0

19

27

Naoaki Okazaki

@chokkanorg

9 years

日本語の文法のチートシートすごい。他にも9個の有料のシートがあって、ものすごい情報量だが、これ使いこなせるのか？

0

7

27

Naoaki Okazaki

@chokkanorg

5 years

国会会議録を自然言語処理で分析し、議員の発言からキーワード（名詞）を抽出し、各議員が特徴的に発言したキーワード上位20件のランキングを作成するお手伝いをしました。 #ポリティペディアアントニオ猪木氏に分析結果を見て頂いた記事。

ポリティペディア（政治家データ分析）-2019参議院選挙（参院選）：朝日新聞デジタル

朝日新聞｜2019参議院選挙（参院選）｜政治家は国会で何を語り、どこからお金を集めているのか――。朝日新聞は7月の参院選を前に、改選を迎える参院議員118人（定数121、欠員3）の国会会議録と政治資金収支報告書を分析し、「見える化」しました。

www.asahi.com

0

12

27

Naoaki Okazaki

@chokkanorg

1 year

@tonets モノの見方が違います。言語モデル: 単語列や文字列に対して確率を計算するためのモデル基盤モデル: 様々な下流タスクで汎用的に用いられるモデル（Stanford HAIが使い始めた用語）実際はほぼ同じであるケースが多いですが、言語モデルでも基盤モデルとして使え（われ）ないものもあります。

1

3

27

Naoaki Okazaki

@chokkanorg

12 years

明日の情報伝達学の講義資料をアップしました．スパムフィルタを題材として，分類器に関する基礎理論と実装を紹介します．今回の講義資料はパスワード無しで閲覧できます． http://t.co/EmHF95wl #nlptohoku

0

6

25

Naoaki Okazaki

@chokkanorg

12 years

情報伝達学の第３回講義: 品詞タグ付け，アノテーション，隠れマルコフモデル，ビタビ・アルゴリズム．講義資料はパスワード無しで閲覧可．隠れマルコフモデルの学習とタグ付けのサンプルコード（各50行程度）も付属． http://t.co/EmHF95wl #nlptohoku

0

8

26

Naoaki Okazaki

@chokkanorg

9 years

単語から文書ベクトルを作ったり，加法構成ベクトルがすぐ書けるかな（GPUコンピューティング最新情報～ CUDA 7.5とMaxwellアーキテクチャ～ http://t.co/7dxx0BcEri より） #gtcjapan http://t.co/7P1onybnMb

0

7

25

Naoaki Okazaki

@chokkanorg

8 years

明日，高校で授業をすることになっていて，RNNの話でもしようかと思って準備していたら，高校数学で行列を習わなくなっていることを知り，途方に暮れている．

0

9

25

Naoaki Okazaki

@chokkanorg

8 years

第230回NL研（3/5・東工大蔵前会館）では「自然言語処理の中長期研究構想を論じる会」と題して，6名の豪華な先生方にご講演を頂くことになりました．事前登録不要，動画配信無しですので，ぜひ会場までお越しください！ #signl

0

17

24

Naoaki Okazaki

@chokkanorg

9 years

研究ノート（週報）をIssue Trackerで共有することにした。本当はQiitaとかJIRAとか使ってみたいが、まだ試行段階なのでbitbucketのプライベートレポジトリ（アカデミックライセンスで無料）を活用。今のところかなりいい感じ。

1

16

24

Naoaki Okazaki

@chokkanorg

10 years

IPythonやIPython notebook上で分散並列処理のジョブ管理を行うモジュールBakaparaを作りました． IPython clusterによるバカパラ（分散並列処理） on @Qiita http://t.co/umCwRW5DdZ

IPython clusterによるバカパラ（分散並列処理） - Qiita

分散並列処理の基本かつ強力なアプローチとして，Single Program Multiple Data (SPMD) があります．これは，複数のプロセッサが同一のプログラムを実行し，その際に各プロセ…

qiita.com

0

11

25

Naoaki Okazaki

@chokkanorg

10 years

乾・岡崎研究室ではツイートの収集，関連語抽出，ポジネガ分析を担当（ @quintia さん， @conditional さん， @pawjun くん，お疲れ様です！）日本戦ツイート分析｜2014ワールドカップ（ブラジル大会）：朝日新聞デジタル http://t.co/VUmcnW6ufM

0

33

24

Naoaki Okazaki

@chokkanorg

7 years

少し前のことになりますが，研究室で送別会を開いて頂きました．最高の学生・スタッフの皆様に恵まれ，幸せな6年間でした．乾さんにも大変お世話になりました．一生の思い出になる会・贈り物，ありがとうございました！

0

2

24

Naoaki Okazaki

@chokkanorg

2 months

I'm glad to see three students/alums of our laboratory ( @ayase_lab @ayaniwa1213 & @loem_ms ) give the talks at this great event. Thank you for giving us this opportunity! @tokyoaijp

Kai Arulkumaran

@kaixhin

2 months

Successful @tokyoaijp session on NLP wrapped up! 4 great local speakers, @lhl @ayase_lab @ayaniwa1213 & @loem_ms , and around 100 attendees engaging with research on Japanese LLMs, interactive feedback and prompt engineering 📖 Look forward to more AI events in Tokyo! 🎌