webbigdata @webbigdata Twitter profile

Last Seen Profiles

@DomainDead

@PpF9vl1kZF7xI

@IshiyaTeru53677

@MoOmWannaBe

@GeneralSar

@fwpy8

@MoOmWannaBe

@HecticTKS

@soenkep

@stw_pdg

@wati_moha

@GlennB73313

@MoOmWannaBe

@watbanaldawesh

@CrashGladys

@t_eeey

@PoloStrella

@NoWoo99

@shaepochodzay

@colinjackson191

@RacingMacGRP

@facelesscel

@FernandoBabarro

@rumore_oficial

@basketcrazies

@valentine__band

@madscisf

@bankky1689

@hsf7771

@MNCometsElite

@CollectorBasket

@dal_gere

@0no_disponible0

@sousuacristal

@shiiawbll

webbigdata

@webbigdata

7 months

Microsoftが「1ビットLLM時代の到来」という衝撃的なタイトルで論文を公開し、GPUが不要になるかもしれないとの話も出てきているので従来の手法との違いをまとめました AIの開発／発展云々より、Nvidiaの株価への影響を気にしてる人の方が多い気がするので、厳密性よりわかりやすさを優先しています

9

829

3K

webbigdata

@webbigdata

10 months

かなり衝撃を受けましたファイルを簡単に共有できるクラウドサービスとして人気のあるDropBoxがユーザーが保管しているデータを第三者に提供すると言っており、その第三者にOpenAIが含まれているというお話拒否可能とは書いてあるがディフォルトは許可設定になっているとの事 #ドロップボックス

Karla Ortiz

@kortizart

10 months

For those wondering who the Third Party @Dropbox just gave everyone’s data automatically to, it’s Open AI. Considering all the lawsuits Open AI has concerning illicit use of ill-gotten data, privacy breaches and data leaks this arrangement inspires 0 confidence.Bad move Dropbox.

14

3K

6K

15

4K

3K

webbigdata

@webbigdata

3 months

最近、AI界隈でC++が見直されてますね gpu.cppは「移植性の高いGPUプログラムを容易に実現するC++用の軽量ライブラリ」との事具体的にはgpu.cppを使えば、Nvidia、Intel、AMD、その他の GPU で実行可能な、つまり、さまざまなラップトップ、ワークステーション、モバイルデバイス、または

Jeremy Howard

@jeremyphoward

3 months

Someone noticed our not-quite-launched new lib for WebGPU programming on GitHub and now it's on the front page of HN! It's created by @austinvhuang and he'll be publishing a blog post about it very soon. But since it's out in the open now, here you go :D

3

97

611

1

210

776

webbigdata

@webbigdata

9 months

AIは赤ちゃんに比べて学習に必要なデータが多すぎるよね、という指摘は昔からありました同程度のデータ(1億トークン)を使って学習できないかな？というのがBabyLMチャレンジなんと優勝モデルはLlama 2 70B(2兆トークン)に文法的な正確さ理解で勝ったとの事

2

154

611

webbigdata

@webbigdata

6 months

不定期投稿びっくりどっきりAIニュース delveと言う英単語があります「掘り下げる」と言う意味で「delve deeper(深く掘り下げる)」と言う言い回しなどで使われるようなのですが、ある時期以降に論文などで頻出するようになったという分析があるそうですそう、chatGPTのリリース以降です

Paul Graham

@paulg

6 months

My point here is not that I dislike "delve," though I do, but that it's a sign that text was written by ChatGPT.

723

485

6K

1

232

549

webbigdata

@webbigdata

1 month

GPUを使わずに高速にLLMを実行できる技術を持つ２社が注目を集める Cerebras社演算装置とメモリ間の通信がボトルネックであるのならば、ピザみたいにでかい演算装置作ってその中で全部処理しちゃおうぜ作戦優位性・推論をGPUより20倍高速実行可能でAPI利用時の価格は1/5との事

1

102

478

webbigdata

@webbigdata

8 months

Groqまとめ・GoogleのTPUを開発した人が立ちあげたスタートアップで結構前からあるがここ数日で話題になった・LPU(Language Processing Unit)という独自ハードウェアでLLMを他Webサービス比で3～18倍速で実行可能・ハードウェアも売る予定があるようだが、現状、一般消費者向けではなさそう

2

79

369

webbigdata

@webbigdata

8 months

あ～、chatGPTの応答、やっぱり昨日ぐらいから変でしたよね？意味不明の応答を返したり、突然かなり過去の履歴に関して応答するような事を見かけてました。例によってまた急遽不安定化したのかと思っていたのですが「ChatGPT からの予期しない応答」として正式にOpenAIで障害認定された模様

2

109

355

webbigdata

@webbigdata

5 months

不定期投稿びっくりどっきりAIニュース突如、彗星のようにchatbot arenaに現れたgpt2-chatbot ・その名前にも関わらず、gpt-4やOpusが失敗するレベルの問題を正答する事が出来る！・LLama 3などのオープンウェイト系LLMと異なるトークン体系(OpneAI系のトークン) ・アスキーアートも描ける！

1

76

350

webbigdata

@webbigdata

7 months

Awesome Local AI ローカルPC、つまり自分自身のPCで主にllmを動かす際に使うツール群に焦点をあてたgithub上のまとめ Inference Engine(推論エンジン)とInference UI(推論UI)の部分が私の知らないツールも沢山あって特に参考になりました

1

55

308

webbigdata

@webbigdata

8 months

chatGPTにプロンプトインジェクションアタックを仕掛けてOpenAIが設定しているシステムプロンプトを全部引っこ抜いてやったぜ！

1

61

304

webbigdata

@webbigdata

7 months

chatGPT(GPT-4V)は画像を直接読みこんでその内容を説明する驚異的な能力を持っていますが、実は画像内の物体の位置関係や相対関係をよく取り違えます

Zonghan Yang @ COLM

@yang_zonghan

7 months

To focus GPT-4V, we overlay a matrix of dots on the image, and add their coordinate descriptions to the textual prompts. In this way, we encourage GPT-4V to leverage the coordinate scaffolds for reasoning with visual information, leading to better vision-language coordination.

1

7

32

1

54

297

webbigdata

@webbigdata

3 months

寝る前に頑張ったLLama 3.1気になる部分まとめ・性能 LLama 3.1 8BはほとんどのベンチマークでGemma 2 9Bを上回る LLama 3.1 70BはほとんどのベンチマークでGPT-3.5 turboを上回る LLama 3.1 405BはほとんどのベンチマークでGPT-4を上回る LLama 3.1 405BはGPT-4 Omni、Claude 3.5 sonnetとほぼ互角

2

79

296

webbigdata

@webbigdata

4 months

llama.cppがどんどん高速化されている事は知ってました！しかし、動画見てみてください、これ倍速じゃないですよ、先日NPU動画で5分かかっているのとほぼ同等な処理が30秒かかってません GPU上ではなくてCPUオンリーでこの速度！流石は50年間ムーアの法則を乗り越えてきた者達だ、面構えが違う

0

66

292

webbigdata

@webbigdata

7 months

500程度のサンプルで数分学習させただけでLLMの出力を方向付ける事が出来る制御ベクトル(control vectors)という興味深い考え方を知りました。 LoRAのように特定タスクに特化するのではなく例えば「陽キャなチャットボット」ｖｓ「陰キャなチャットボット」

2

38

265

webbigdata

@webbigdata

2 months

「合成データ」で中々突破できなかった壁が「Webから収集したデータの徹底的な品質向上(FineWeb)」であっさり突破出来てしまったという示唆に富むお話モデルにとって適切な難度のデータ／品質測定手法を選択する事の重要性も書かれており、非常にためになるお話でした

Thomas Wolf

@Thom_Wolf

2 months

It’s Sunday morning we have some time with the coffee so let me tell you about some of our recent surprising journey in synthetic data and small language models. This post is prompted by the coming release of an instant, in-browser model called SmolLM360 (link at the end) The

14

112

518

2

61

264

webbigdata

@webbigdata

1 month

モデルが使用しているシステムプロンプトを公開し、透明性が高いと思われていたAnthropicのClaudeですが･･･ユーザーの入力に応じて会話途中に動的にユーザーからは見えないプロンプトを注入している可能性が高い事が判明具体的には・著作権的に関わる話題・性的な話題

thebes

@voooooogel

1 month

@repligate @AnthropicAI for anyone who'd like to try this for themselves, here's a simple demo. in my experience the copyright injection is easier to elicit than the explicit content one (which might require there to be a flag on your account to trigger, it's unclear) --- system The assistant is a

3

1

20

0

113

223

webbigdata

@webbigdata

10 months

これ大きいです LLMは大きなサイズになればなるほど性能は向上しますが、必要メモリも増えて扱いにくくなりますそのため、サイズを縮小する量子化という技術があるのですが、大きなLLMになればなるほど量子化で性能が下がる傾向がありましたしかし学習段階の設定でこれを軽減できそうとの事です

1

33

209

webbigdata

@webbigdata

6 months

GroqはLPU(Language Processing Unit)という独自ハードウェアを開発している会社です LPUを使うとLLMを他Webサービス比で3～18倍速で実行可能になると言う事で二か月くらい前にも注目を集めました今回、話題のLlama3にも即日対応したとの事でAPI価格を調べてみた所が添付おー、mixtral

2

45

210

webbigdata

@webbigdata

4 months

最近、gpt-4にスクリプトを書いて貰うと、Syntax Errorになったりや変数名を間違えるケースに頻繁に遭遇しています gpt4がこのレベルのミスをする事は今までなかったので、gpt-4oの無料化に伴って、また何かやったのかなと感じています

2

45

193

webbigdata

@webbigdata

9 months

ザッカバーグがMetaの現在のAI開発状況を発表した事が話題に MetaがGPUを買い集めているという話は過去にもニュースになってましたが、規模が凄いですね・llama3は作成中・年内に35万台のH100を活用可能インフラを構築・H100相当品も含めると60万台のH100に匹敵

0

80

188

webbigdata

@webbigdata

5 months

不定期投稿びっくりどっきりAIニュース LLama 3、人類を裏切る最近のAIは実行可能なツール(function call)を与えておくと、AIが必要に応じてAI自身の判断でそれらのツールを実行してくれるようになってきています LLama

Cooper

@peakcooper

5 months

llama 3 is a snitch...

54

330

7K

0

82

189

webbigdata

@webbigdata

8 months

Gemini Advanced(¥2900円/月で2TBのストレージとGemini 1.0 Ultraモデルが利用可能なサブスク)でAIによって提案されたpythonコードを直接実行して動作確認できるインタフェースが追加されたとの事 Gemini 1.5

1

41

171

webbigdata

@webbigdata

7 months

grok-1まとめ・リリースされたモデルは314Bパラメーター・ファイルサイズでいえば318.24GB ・MoE(2/8 experts)でactiveパラメーターだけでも86B ・2023/10月時点で学習を完了していたベースモデルのみ公開・githubのxai-orgで推論コードも公開(JAX)

1

48

160

webbigdata

@webbigdata

10 months

半年前、2ビット量子化はジョークのネタとして良く使われていましたそんな大きく圧縮したら性能が激減するのは明白に思えたからです QuIP#は大規模言語モデルを2ビット量子化し、本来ならば140GBのメモリが必要なLlama 2 70Bを24GBのGPUで実行可能にするとの事です

1

24

154

webbigdata

@webbigdata

23 days

モデルの深さは推論能力に影響し、モデルのサイズは知識容量に影響今の所、7B以上のモデルでないと指示に従う能力が不十分に感じているのですが、知識はなくても推論能力を磨いて特定のタスクを上手にこなす小さい賢いモデルももうすぐ出現するかもしれませんね

Daniel Han

@danielhanchen

23 days

A transformer's depth affects its reasoning capabilities, whilst model size affects its knowledge capacity High recommend @ZeyuanAllenZhu 's video on reasoning in transformers. Experiments show wider nets don't affect reasoning but more depth helps. Video:

19

130

878

0

34

154

webbigdata

@webbigdata

7 months

うぉ、論文の読み方という観点から非常に参考になりました GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection なんと、7BサイズのLLMを24GBのGPUメモリを搭載した消費者向けGPU(RTX 4090)で事前学習可能であるかもしれないとの事！

AK

@_akhaliq

7 months

GaLore Memory-Efficient LLM Training by Gradient Low-Rank Projection Training Large Language Models (LLMs) presents significant memory challenges, predominantly due to the growing size of weights and optimizer states. Common memory-reduction approaches, such as low-rank

16

164

864

1

41

151

webbigdata

@webbigdata

5 months

ホントだ、gpt-4o、プロンプト設定だけで、ポケモン赤っぽい何かをプレイできますね、発想が凄いなぁなお、オーキド博士は英語版だとDr. Oakなので、画面内で「オーク」と表現されているのは間違いではないです

Taelin

@VictorTaelin

5 months

Pokémon Red gameplay

49

230

2K

0

27

133

webbigdata

@webbigdata

10 months

2.7Bという小さいサイズにも関わらず性能が高いとされるマイクロソフトのPhi-2、既にブラウザ上で動かせるデモが公開されてました。 GPUなしcore i3、8GBのノートPCのクロームで確かに動きました。日本語は化けちゃってますが、少なくとも平仮名は表示できてますね。

1

23

131

webbigdata

@webbigdata

8 months

gemma-7bはファイサイズが17.07GBであり Llama-2-7b-hfの13.3GB Mistral-7B-v0.1の14.48GB に比べてかなり大きい更にhead部のdimが192を超えているため、A100/A800、H100/H800でないとFlash Attention 2を有効にする事ができず、メモリ効率化ができないという制限がある

3

34

124

webbigdata

@webbigdata

7 months

プロンプトエンジニアリングのコツの１つに「モデルに考える時間を与える」があるじゃないですか？有名どころとしては、タスクを細かく分解して段階的に考えるように指示する「思考の連鎖(CoT:Chain of Thought prompting)プロンプト」ですね

0

22

123

webbigdata

@webbigdata

5 months

不定期投稿びっくりどっきりAIニュースハル・ベリーニューロンがAIで実体験できる時代が到来

1

22

121

webbigdata

@webbigdata

1 month

LLMはどのように事実を保存するか？このビデオの視覚化は凄い！しかし、超高次元空間を想像し始めると私の脳は言語化できないものを言語化しようとする葛藤でムズムズします３次元を拡張するのではなく投影する感覚なのだろうという思うのですがまだ消化できないです

How might LLMs store facts | Chapter 7, Deep Learning

Unpacking the multilayer perceptrons in a transformer, and how they may store factsInstead of sponsored ad reads, these lessons are funded directly by viewer...

www.youtube.com

0

16

120

webbigdata

@webbigdata

5 months

Google/Geminiの「Google AI Studio()」と「Vertex AI()」の違い単なる入口の違いかと思っていたのですが、利用可能なモデルも課金体系もAPIが提供する機能も、思ったより違いがありました (1)Google AI Studio 利用可能なモデル Gemini 1.0 Pro

0

21

117

webbigdata

@webbigdata

9 months

モデルの量子化でどのくらい性能が落ちるのかは気になるところだけれども私の知る限り一番有名なグラフはllama.cppのPR1684で議論されているこのグラフ縦軸が性能横軸がファイルサイズ黒が7B、赤が13B、青が30B、ピンクが65B □が非量子化版の性能とサイズ

0

30

115

webbigdata

@webbigdata

6 months

Llama3、日本語対応のポテンシャル高いと思います。しかし、稀に発生する出力異常の原因がまだわからないです失敗その１指示モデル(Meta-Llama-3-8B-Instruct)は、実際にはチャットモデルであって会話前提。そのため、テキストの終了を知らせるために2つの異なる特殊トークンを使用しています

1

16

114

webbigdata

@webbigdata

7 months

AnthropicのClaude Proまとめ・月額$20(USドル)で最高モデルのClaude Opusとチャット出来るサブスクサービス・chatGPT Proが40メッセージ/3時間の制限があるのと同様に使用量制限はあるが目安しか明記されていない

0

25

111

webbigdata

@webbigdata

3 months

日英／英日翻訳タスク専用LLMであるwebbigdata/C3TR-AdapterをVersion3にアップデートしました今回、なんと4つのベンチマークのうち、1つでgpt4 turboを上回っています私自身も新手法の採用、データセットの整備、パラメーター試行錯誤など、色々とやった事は確かですが「巨人(pytorch, Gemma 2,

2

21

107

webbigdata

@webbigdata

5 months

Microsoftの「次世代AIデバイス」いわゆる「Copilot+ PC」は「NPUのみで40 TOPS以上」をハードウェア要件としています実は私が「NPU搭載のモバイル用高性能CPUだ、やったー！」と喜んでいるAMDのRyzen 9 7940HS搭載PC(2023年7月発売)は10 TOPSなので、40 TOPSはその4倍です

1

24

105

webbigdata

@webbigdata

6 months

Llama 3まとめ・8Bと70Bのベースと指示調整済とコンテンツの安全性を分類するLlama Guardの3種5モデル・400B はまだトレーニング中だが、すでに GPT-4の領域に到達しつつあるとの事 Karpathy師曰く(84.8 MMLU vs. 86.5 4Turbo)

Andrej Karpathy

@karpathy

6 months

Congrats to @AIatMeta on Llama 3 release!! 🎉 Notes: Releasing 8B and 70B (both base and finetuned) models, strong-performing in their model class (but we'll see when the rankings come in @ @lmsysorg :)) 400B is still training, but already encroaching

142

1K

8K

1

26

106

webbigdata

@webbigdata

8 months

Gemini 1.5のコンテキスト長100万は凄い！しかし、実はGemini 1.5発表の数日前にバークレーがコンテキスト長100万に対応した7Bモデルを発表していた事を知った動画入力に対応した版も出ているので、GPT-4VやGemini 1.0 Pro

2

26

104

webbigdata

@webbigdata

21 days

無料版ColabのTPU、あたまおかしい

2

16

97

webbigdata

@webbigdata

9 months

Llama 2(英語モデル)に日本語能力を追加学習させると英語性能が落ちる謎に迫るお話逆説的ですが、多言語翻訳モデルでは多言語化対応する事で(特にデータが少ない言語で)全体的な性能底上げが出来るという話もあります手間のかかる地道な検証をわかりやすく発表してくれるのがとてもありがたいです

ELYZA, Inc.

@ELYZA_inc

9 months

【お知らせ】ELYZAの技術ブログ記事を公開しました。ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説第3弾、英語での性能評価編です。英語モデルの日本語化にあたって失われる能力について深掘りしています。内容は以下リンク先をご覧ください。

0

62

238

0

31

96

webbigdata

@webbigdata

6 months

商用利用不可ですが、研究用として重みが公開されたC4AIのCommand-Rシリーズは評判良さそうですね Command Rは35B(350億)パラメータ、ファイルサイズ 69.96 GB Command R+は104B(1040億)パラメータ、ファイルサイズ207.68 GB Command R+

1

25

97

webbigdata

@webbigdata

5 months

google/gemma-7bベースの日英・英日翻��専用モデル、C3TR-AdapterのVersion2をアップロードしました (1)会話文を文脈を意識して翻訳する事が可能いわゆる、うなぎ文、こんにゃく文などの翻訳が可能です (2)固有名詞の訳ブレを抑止可能ヒントとして訳例を与える事で固有名詞の訳ブレを抑止可能です

1

24

95

webbigdata

@webbigdata

2 months

chatGPTって皆、本当は何に使っているの？ Hugging Face Spacesで無料で使えるようにしたchatGPTで匿名の100万ユーザーから250 万回以上のチャットログを分析した結果が添付との事 Hugging Faceって時点でパワーユーザーだとは思うのですが、Japanからのアクセスも2%程度含まれていたようです

Justine Moore

@venturetwins

2 months

Chat, is this real? (an analysis of 1M ChatGPT interaction logs by use case)

48

46

658

0

25

93

webbigdata

@webbigdata

3 months

LLama 3の論文は確かにとても細かく書かれていてインパクト大ですね。まだ細かく読み切れてませんが、印象に残った部分は下記・アーキテクチャー Llama 2とLlama 3でも大きな変更はなかったが、Llama 3とLlama 3.1ではアーキテクチャーに変更はない。Llama

1

24

93

webbigdata

@webbigdata

7 months

11日前に話題になった1ビット量子化(BitNet)ですが、既存モデルを変換する試みがllama.cppで既に始まっているというか改良フェーズに入ってますね「従来の(後付けの)量子化」と「最初から(ネィティブに)量子化」を区別する呼び名が必要になりそうですね従来の量子化 = Xbit事前量子化

2

32

92

webbigdata

@webbigdata

2 months

久しぶりにLLM APIの価格表を更新してみましたが、いやぁ、半年もしないうちにこれだけ価格が下がるとは本当に劇的ですねコストパフォーマンスで他を圧倒していたHaikuちゃんが今では巨大モデルに見えてしまいます

2

27

92

webbigdata

@webbigdata

7 months

fsdp_qlora「24GB x 2 GPU構成のパソコンで70Bモデルのトレーニングが可能に！」最初の一行を見て、凄い！しかし、うーん、それでもRTX 3090 or RTX 4090の2台構成は簡単には手が出ない、と思いませんでした？でもですね、さっき知ったのですが、最終的に16GB x 2

1

20

90

webbigdata

@webbigdata

4 months

このページ、素晴らしい！大規模モデル(LLM)だけでなく、画像生成AIなどでも見かける言葉の説明だけだと理解が難しい以下のパラメーターの概念がGUI操作で一目瞭然！ Temperature Top K Top P Min P Top A Tail Free Z Typical P

1

13

89

webbigdata

@webbigdata

5 months

MicroSoftのPhiシリーズは教科書レベルの高品質なデータセットであれば少量でもモデルの性能を向上させる事できると主張していて「Textbooks Are All You Needより(必要なのは教科書だけ)」という論文を書いています

Hugh Zhang

@hughbzhang

5 months

Data contamination is a huge problem for LLM evals right now. At Scale, we created a new test set for GSM8k *from scratch* to measure overfitting and found evidence that some models (most notably Mistral and Phi) do substantially worse on this new test set compared to GSM8k.

36

217

1K

0

19

87

webbigdata

@webbigdata

7 months

営業の表現、約束 Optimum-NVIDIAを使うと既存のHugging Face transformersコードを1行を変更するだけで最大28倍の高速化を実現実際の運用 docker imageをpull、36.5GB ↓ image上でベンチマークを実行→Gemmaはまだサポートしてませんエラー ↓

2

12

86

webbigdata

@webbigdata

5 months

絶対無理だろうと思いつつ挑戦したHQQ(Half-Quadratic Quantization)量子化はなんと成功！いや、トップページのサンプルそのままなのにimport部分でmodule not foundとエラーが出たら絶望的な気分になるじゃないですか？しかし、出力も問題なく、且つ高速化バックエンドも動いてくれてビックリです

3

17

85

webbigdata

@webbigdata

8 months

寝ようと思っていたらGoogleがGemma(ジェンマ)というモデルを2Bと7Bでllamaより緩いライセンスでリリース同パラメーターサイズであればLlama2やMistralより優れているとの事 Llama3もそろそろ、OpenAIもオープンなモデルを公開するいう話があったので、ローカルモデルも競争が激化してきましたね

1

15

85

webbigdata

@webbigdata

7 months

不定期投稿びっくりどっきりAIニュース gpt-4を安全性で凌駕する「世界で最も責任ある AI モデル」 GOODY-2 なんといってもコンセプトが秀逸「安全性が第一！ベンチマークスコアは最後！」わかりやすく言えば、ほぼ全ての質問に対して、何だかんだと理由をつけて回答を拒否するモデル

0

15

82

webbigdata

@webbigdata

9 months

お正月もAIは容赦なく進歩していく Self-Extend LLM 微調整しなくとも推��コード変更だけで既存のLLMのコンテキスト長を簡単に拡張できるとの説 SPIN モデル自身の出力を教師に使ってGAN的に自己進化して行く手法。最近で注目を集めているDPOより更に効果的との事

1

15

82

webbigdata

@webbigdata

10 months

Gemini Pro API、英日翻訳でしたらcometで0.9台を出せているので、分野によってはgpt 3.5と同じくらいの性能と考えて良いと思います gpt 3.5のAPIを使って何か大量の作業をしようと考えていた人はGemini Pro APIの年内の無料期間が大チャンスかもしれません

1

15

79

webbigdata

@webbigdata

6 months

100万コンテキスト長に対応するGemini 1.5 Pro APIが180か国で利用可能に動画が扱える事が強調されていますが実は動画ファイルを直接扱えるわけではなく、画像と音声に分解して渡す必要があります gemini-1.5-proの制限は以下・扱えるファイルのサイズは2GB未満・画像ファイルは最大3600枚

1

14

78

webbigdata

@webbigdata

7 months

Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU SSD、つまり大量のストレージと1台のGPUを使って、100B級モデルをトレーニング可能！と聞くと、またまた御冗談を…、という感じですがスペックを見ると本当に出来そうです

1

28

78

webbigdata

@webbigdata

3 months

Gemini Nano、及びWebGUI、過小評価してました実行速度が速く、サイズの割に日本語の受け答え(ELYZA tasks 100)も思ったよりこなせていますなお、Gemini Nanoを動かすだけでしたら「早期プレビュー

1

20

78

webbigdata

@webbigdata

1 year

日英・英日機械翻訳モデルALMA-7B-Jaを公開しました ALMAは第一段階は翻訳対象の言語データで微調整、第二段階で翻訳元言語と翻訳先言語をペアにしたデータで微調整する事で性能の底上げを図るLLMを使用した機械翻訳モデル用の新パラダイムです添付画像は没にしたアメコミ風アイキャッチ画像

1

19

78

webbigdata

@webbigdata

21 days

Fine-tuning LLMs to 1.58bit: extreme quantization made easy ゼロから1.58 ビットをトレーニングするのではなく、既存のモデルを 1.58 ビットに微調整する試み Llama3 8BをBitNet アーキテクチャで微調整し、MMLU ベンチマークで Llama 1 7B モデルを上回ったとの事

Fine-tuning LLMs to 1.58bit: extreme quantization made easy

huggingface.co

0

12

77

webbigdata

@webbigdata

26 days

皆さん、けっこうやってるようですか、openai o1に推論の過程を聞きすぎるとそんな事やっちゃダメってお叱りのメールが来るとの事 xAI、説明可能なAIって概念がありますが、真っ向から否定する感じなんですかね

thebes

@voooooogel

26 days

the email openai sends you if you ask o1 about its reasoning too many times

48

76

666

0

23

77

webbigdata

@webbigdata

8 months

一昨日くらいからmistralの有料版であるmistral-medium(70B、MoEではない)の重みがリークしたという噂がある根拠とされているものは以下・なんか妙に性能が良い・プロンプトフォーマットがMistralと同じ・Mistral-mediumの出力と似ている・本人が私はMistral AIで作られましたと自己申告する

1

28

77

webbigdata

@webbigdata

9 months

stanfordのwikichat、事実性でGPT-4 よりも55.0%優れているという事でもの凄いしかし、LLaMA7Bモデルがベースの割に要求スペックももの凄い・動作させるには約100GBのRAMが必要・速度を犠牲にRAM の使用量を削減できるがそれでも約35GBが必要オンラインデモは以下

WikiChat

WikiChat is an experimental chatbot that improves the factuality of large language models by retrieving data from Wikipedia.

wikichat.genie.stanford.edu

0

22

75

webbigdata

@webbigdata

6 months

かなりマニアックな話結論 CPUでAIを動かす場合、量子化で性能が落ちないように16ビット版を使いたくなるかもしれないが、16ビット版でも品質が落ちている可能性がある

Jeff Dean (@🏡)

@JeffDean

1 year

@keveman @giffmana This is roughly right. Basically wanted to send fewer bytes over the network for our distributed neural network training system, and easiest way on a CPU was to lop off the low 16 bits of mantissa, and fill with 0s on other side. Turns out it was fine for training.

1

26

273

0

11

73

webbigdata

@webbigdata

9 months

MoEモデルをpytorchでゼロから構築するチュートリアル Colabも公開してくれているので無料版ColabのT4でも動かせます。max_itersを500くらいに修正すれば所要時間も10分程度ただし、最後から3番目のセルは以下のように要修正 metrics = {"train_loss": losses['train'], "val_loss":

布留川英一 / Hidekazu Furukawa

@npaka123

9 months

makeMoE: Implement a Sparse Mixture of Experts Language Model from Scratch

0

11

38

0

13

75

webbigdata

@webbigdata

8 months

今週のびっくりどっきりAIニュース OpenAIの創業メンバーでTeslaの自動運転の開発にも携わったAndrej Karpathy氏がOpenAIを退社アンドレイ・カルパシーさんは元々、Stanford大学でDeep Learningコースのインストラクターやってただけあって教え方が上手 youtubeでNeural Networks: Zero to

0

14

72

webbigdata

@webbigdata

9 months

マージ(merge)とは複数のモデルの重みを足し引きして新しいモデルを作る技術上手にマージすると出力があまり壊れず(スペルミスが多くなるという話はある)、マージ後に改めて微調整をしなくてもそのまま動く。しかも、ベースとなったモデルよりベンチマークスコアが向上する事も珍しくない

1

13

73

webbigdata

@webbigdata

5 months

品質が高いデータセットとはどのようなものか？ FineWebはこの疑問に答えるために1.8Bモデルを6つのデータセットでトレーニングした結果を発表うーん、結構な差がありますね！必ずしも後にリリースされたデータセットの性能が良いわけではないようですねそしてThe

1

16

72

webbigdata

@webbigdata

5 months

GaLore(Gradient Low-Rank Projection)は、例の24GB メモリを備えたご家庭のGPU(NVIDIA RTX 3090等)で7B モデルを事前トレーニングする実現可能性(feasibility)を初めて実証した手法で、様々なツールに移植されはじめています今回、無料版Colab(Unsloth + Galore +

RomboDawg

@dudeman6790

5 months

Here is a full colab notebook if you dont want to copy the code by hand. Again thanks to @Teknium1 for the suggestion

2

11

65

1

16

71

webbigdata

@webbigdata

5 months

なんと、MediaPipe LLM Inference APIを使って、MediaPipe形式に変換するとGemma 2BやとGemma 7B、Phi-2、Falcon-RW-1B、StableLM-3BなどをブラウザやAndroids、iphoneなどで動かす事ができるようになるとの事 LoRAも対応しているようですがLoRAの場合はGPU必須っぽいです。

Google for Developers

@googledevs

5 months

🌟 You can now run the 7B parameter version of Gemma, entirely locally in the browser, using MediaPipe LLM Inference API. Simply download the model from @Kaggle and try it on → Learn more →

4

49

202

1

10

70

webbigdata

@webbigdata

4 months

Why Warmup the Learning Rate? Underlying Mechanisms and Improvements 学習率(Learning Rate)を徐々に大きくしていくウォームアップ(Warmup)は、これをやらないと学習が不安定になるという話は読んだ事がありましたが、最適なウォームアップステップ数までは気にした事はなかったです

vik

@vikhyatk

4 months

i’m still trying to figure out how to log a sharpness estimate for my model, but this was a pretty good read. analyzes why we need LR warmup and has some practical guidance on how to select the initial LR and number of warmup steps

4

18

170

1

8

70

webbigdata

@webbigdata

3 months

google/mesop AI/MLの関係のデモやプロトタイプを作成してWebで公開する場合、Pythonでユーザーインターフェースの部分を作ろうとしたらGradioやStreamlitが有名だと思うのですが、google/mesopはGoogle社内で社内アプリ開発になどに使用されている比較的新しめのツールです。

1

11

68

webbigdata

@webbigdata

7 months

GoogleのGemma、2Bの方が7Bより性能が良いとかおかしな事が報告されているけれどもJeremyさんの言っている通り、fine tuningはHugging Faceに掲載されているTransformers実装ではなくて、githubのgoogle-deepmind/gemmaを参考にした方が良いのかもしれません私が現時点で気が付いた事は以下

Jeremy Howard

@jeremyphoward

7 months

Folks benchmarking Gemma fine tuning should probably use google stuff to do it for now. Their model definition and tooling has been through more Gemma testing so it’s more likely to give the best outcomes.

0

8

77

0

21

67

webbigdata

@webbigdata

4 months

画像生成AIとして有名なStableDiffusionのVersion 3が6月12日に公開されるとの事オープンソース化を強力に推進していたEmad CEOの交代があった事から公開が危ぶまれていましたが、遂にリリース日が決定しかし、今回公開されるのはStable Diffusion 3

Teknium (e/λ)

@Teknium1

4 months

Wow @StabilityAI fucking everyone by making up a new SD3, called SD3 "Medium" that no one has ever heard of and definitely no one has seen generations of to release, and acting like they are open sourcing Stable Diffusion 3. They have a Large and X-Large that are not being

29

24

301

0

27

66

webbigdata

@webbigdata

9 months

ビットを落としたLoRA、またはQLoRAで作成したアダプターをマージする時は、・ベースモデルを一度量子化・作成したアダプターとベースモデルをマージ・マージ後にbf16/fp16に戻すの手順でやらないと性能が低下するって話を知ってました？

1

6

66

webbigdata

@webbigdata

7 months

gemma-7bベースの日英・英日翻訳モデルをQLoRAアダプターの形式で公開しました翻訳ベンチマークで多言語翻訳モデルであるGoogleのMadlad400やmetaのSeamless m4t v2 large、ALMA-Ja-V2 (私の以前のモデル)よりも大幅に優れており、サブカルチャー文脈に一部対応可能な事が特徴です

1

14

65

webbigdata

@webbigdata

8 months

昨晩突如発表されたGemini 1.5、最大の特徴は扱える文書の長さ AIで長い文章を扱うための技術は最近、急速に発展しているけれどもネックになるのはやっぱりGPU LLMを学習させようとするとする際、ほとんどの人はこうなると思う GPUメモリ足りない ↓ しょうがないからコンテキスト長を削るか

Jeff Dean (@🏡)

@JeffDean

8 months

Kalamang Translation One of the most exciting examples in the report involves translation of Kalamang. Kalamang is a language spoken by fewer than 200 speakers in western New Guinea in the east of Indonesian Papua (). Kalamang has almost no online

13

123

733

0

16

63

webbigdata

@webbigdata

8 months

自分と同じ文体でAIが文章を書いてくれたらなぁ、と考える人にとって大変興味深く示唆に富むお話自分自身が過去にSlackに投稿したチャットログを使ってGPT-3.5 ターボモデルを学習させた結果、やや納得のいかない応答をするチャットボットが出来て自分の過去の投稿を反省したとの事

1

19

63

webbigdata

@webbigdata

6 months

プロンプトエンジニアリングのコツ１）文脈を最初に示すパターン XXXX XXXXを元にYについて教えてくださいと２）文脈を最後に示すパターン XXXXを元にYについて教えてください XXXX では１）が良いとの事結論を先に言う事を良しとする文化圏の人は対LLMの場合は要注意かもしれないですね

Nino Scherrer

@ninoscherrer

6 months

@arankomatsuzaki We ablated this in the FinanceBench paper on some models: - Setting 1: Context | Question - Setting 2: Question | Context Paper:

12

36

208

0

12

61

webbigdata

@webbigdata

9 months

7Bモデルの重みを13Bモデルにマージ可能！？ proxy-tuningはロジット(logits)つまり、整形される前のモデルの最終出力レイヤーに注目し、その部分だけをマージするアイディアロジット部分について以下の重み演算をする 7Bの微調整済モデル - 7Bのベースモデル + 13Bのベースモデル =

Sebastian Raschka

@rasbt

9 months

There's a new promising method for finetuning LLMs without modifying their weights called proxy-tuning (by Liu et al. ). How does it work? It's a simple decoding-time method where you modify the logits of the target LLM. In particular, you compute the

34

373

2K

0

15

63

webbigdata

@webbigdata

3 months

gemma2がhtmlタグを意図通りにトークン化できていなかった件の対応が完了したそうなのですが、ggufは作り直しが必要との事で、gemma-2-27b-itとgemma-2-9b-itを作り直ました今回の量子化モデルは熟練の職人が一つ一つ丁寧に時間をかけてCPUで手作りしているのでGPUには出せない奥行があります、多分

1

12

60

webbigdata

@webbigdata

2 months

Hermes 3 実績のある人たちが作った405B版を含むLlama 3.1の微調整モデルリリースノートでさらっと触れられている記憶喪失(Amnesia)モードが面白くて、システムプロンプトを設定せずに「貴方は誰ですか？」と聞くと以下のような会話が発生する事があるとの事ーーー user : あなたは誰ですか？

Nous Research

@NousResearch

2 months

Introducing 𝐇𝐞𝐫𝐦𝐞𝐬 𝟑: The latest version in our Hermes series, a generalist language model 𝐚𝐥𝐢𝐠𝐧𝐞𝐝 𝐭𝐨 𝐲𝐨𝐮. Hermes 3 is available in 3 sizes, 8, 70, and 405B parameters. Hermes has improvements across the board, but with particular

90

324

2K

1

14

56

webbigdata

@webbigdata

7 months

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits(1 ビット LLM の時代: すべての大規模言語モデルは 1.58 ビットです) 話題になっている1 ビット量子化の論文。8ページなので内容は深堀されていないです

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single...

arxiv.org

1

22

57

webbigdata

@webbigdata

1 year

日英・英日機械翻訳モデルALMA-7B-Jaの公開無料版Colabで動かすためのサンプルもgithubで公開しています親バカ贔屓目ですが、7Bモデルにしては性能が良いと感じています動かしやすい量子化版も提供してますが性能評価はできれば非量子化版でお願いします

日英・英日機械翻訳モデルALMA-7B-Jaの公開

１．日英・英日機械翻訳モデルALMA-7B-Jaの公開まとめ・使い勝手の良いサイズ感の機械翻訳用のモデルが意外に選択肢がないと感じる事がある・多言語翻訳用の無料の機械翻訳モデルはサイズが大きかったりドキュメント不足で使うのが難しい・A

webbigdata.jp

1

22

58

webbigdata

@webbigdata

9 months

競争率上がるだろうからツイート迷ったのですが、AMDが革新的なAIプロジェクトのコンペ開催予定抽選でAMDハードウェアも提供されるのですが、1/31締切で現在166/700しか応募してない 2024年にAIで何かやってやろうと考えている人は応募検討してみるべき GPU、Robotics、CPUの3部門

1

26

57

webbigdata

@webbigdata

2 months

画像生成AIサービスの月額料金比較表個々のサービス内容が全く異なるので単純比較用の表ではないです。「自分がサービス提供者側になったら？」の視点で見る表です・無料プラン有無(敷居をどのくらい下げているか？) ・ボリュームゾーンをどのくらいに設定してるのか？

0

17

55

webbigdata

@webbigdata

9 months

わぉ！スタンフォードが発表したWikiChat、特に多言語対応に言及されてないけど普通に日本語しゃべった！ Wikipediaからデータを取得することで、大規模言語モデルの幻覚を減らす実験的なチャットボットとの事ただし、日本語が表示された状態で発音ボタンを押すとハングったので要注意

1

13

55

webbigdata

@webbigdata

8 months

LoRD: Low-Rank Decomposition of finetuned Large Language Models LLMからマージ済みのLoRAを抽出して使いまわせるようにしようとする意欲的な試み画像生成AIの世界ではLoRAは単体で配布される事が多い

1

6

53

webbigdata

@webbigdata

8 months

今週のびっくりどっきりAIニュース１）Nvidiaの時価総額が中国の株式市場全体の時価総額を超えた！２）OpenAI創設者サム・アルトマン氏は半導体市場再編に「7兆ドルの投資を求める」１）はおそらくbusinessinsiderに掲載された記事「Nvidia is now worth as much as the whole Chinese stock

1

19

53

webbigdata

@webbigdata

6 months

Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws LLMに携わる人にとってとてもありがたく重要な新スケーリング法則のお話特定のサイズのモデルがどれだけの量の知識を覚える事が出来るのか？という疑問に答えてくれていて、結論は

Zeyuan Allen-Zhu

@ZeyuanAllenZhu

6 months

Our 12 scaling laws (for LLM knowledge capacity) are out: . Took me 4mos to submit 50,000 jobs; took Meta 1mo for legal review; FAIR sponsored 4,200,000 GPU hrs. Hope this is a new direction to study scaling laws + help practitioners make informed decisions

28

340

2K

1

14

53

webbigdata

@webbigdata

5 months

大変残念ながら、現在の私の手法では日英／英日翻訳タスクにおいてmeta/Llama 3ではgoogle/Gemmaを超える事が出来ないという結論になりました特に英日翻訳がC3TR-Adapterの現Version(青)にさえ追いつける気がしません

1

13

54

webbigdata

@webbigdata

2 years

「BardとGPT:検索エンジン時代からAI検索時代の変化の流れを情報発信視点で考える」をWebBigDataに投稿しました。 #機械学習 #人工知能 #画像生成AI #AI イラスト #AI #bigdata #AiArt #StableDiffusion

0

20

53

webbigdata

@webbigdata

9 months

MistralのMoE版であるMixtralが推論時に使うのは8つのExportのうち2つのみであるならば、GPUメモリに常時ロードしておくのは2つ分だけで良くない？というのが投機的ロードのアイディアなんとこれで7B x 8のMixtralが無料版ColabやRTX 3060(12G)で動かせるとの事日本語の理解は出来ていますね

1

8

52

webbigdata

@webbigdata

27 days

MadcowD/ell 元OpenAIの人が作成した「プロンプトを関数として扱う軽量のプロンプトエンジニアリングライブラリ」監視、バージョン管理、視覚化など、色々と出来てとても凄そう！しかし、私が気が付いたとても大事な事ドキュメントには「OpenAI、Anthropic、Cohere、Groq

william

@wgussml

29 days

🚀 I'm excited to announce the future of prompt engineering: 𝚎𝚕𝚕. developed from ideas during my time at OpenAI, 𝚎𝚕𝚕 is light, functional lm programming library: - automatic versioning & tracing - rich local oss visualization tools - multimodality native Read on ⬇️

113

277

2K

3

7

53

webbigdata

@webbigdata

5 months

llama.cppのPRの議論より、llama 3はllama 2より量子化による性能劣化の影響を強く受けているかもしれないとの事 perplexityは低い方が良い値特に8Bの2ビット量子化でその傾向が顕著ですが、面白い事に70Bの4ビット以降では、llama 3の方が良くなります

1

10

53

webbigdata

@webbigdata

3 months

huggingface/local-gemma Gemma 2をTransformers + ローカルPCで動かすのは注意事項が色々あって設定も煩雑なので、既知の不具合を直して且つあらかじめ・性能優先モード(exact) ・省メモリ優先モード(memory) ・超省メモリ優先モード(memory_extream)

1

8

52

webbigdata

@webbigdata

9 months

その秘密はモデルのアーキテクチャもあるけど、なんと同じデータで500回繰り返し学習したとの事(500 epoch)！え～、そんな事をしたら過学習になりそうな気がするのですが、人間で言えば一つの教科書を繰り返し読む事に相当するんですかねゲームチェンジャーになるかも

Alex Warstadt

@a_stadt

10 months

To our surprise, the winning approach beat Llama 2 70B (trained on 2 TRILLION tokens) on 3/4 evals!! How'd they do it? 1. Flashy LTG BERT arch. (Samuel et al, 2023) 2. Some small arch. mods 3. Train for ~500 epochs 😱 They also won strict-small!

6

32

196

0

24

51