webbigdata Profile Banner
webbigdata Profile
webbigdata

@webbigdata

1,566
Followers
353
Following
1,417
Media
1,882
Statuses

chatGPTのような大規模言語モデル(LLM)を応用した機械翻訳AIの開発や量子化や微調整によるカスタマイズを行っています。

Joined March 2020
Don't wanna be here? Send us removal request.
@webbigdata
webbigdata
7 months
Microsoftが「1ビットLLM時代の到来」という衝撃的なタイトルで論文を公開し、GPUが不要になるかもしれないとの話も出てきているので従来の手法との違いをまとめました AIの開発/発展云々より、Nvidiaの株価への影響を気にしてる人の方が多い気がするので、厳密性よりわかりやすさを優先しています
Tweet media one
9
829
3K
@webbigdata
webbigdata
10 months
かなり衝撃を受けました ファイルを簡単に共有できるクラウドサービスとして人気のあるDropBoxがユーザーが保管しているデータを第三者に提供すると言っており、その第三者にOpenAIが含まれているというお話 拒否可能とは書いてあるがディフォルトは許可設定になっているとの事 #ドロップボックス
@kortizart
Karla Ortiz
10 months
For those wondering who the Third Party @Dropbox just gave everyone’s data automatically to, it’s Open AI. Considering all the lawsuits Open AI has concerning illicit use of ill-gotten data, privacy breaches and data leaks this arrangement inspires 0 confidence.Bad move Dropbox.
Tweet media one
14
3K
6K
15
4K
3K
@webbigdata
webbigdata
3 months
最近、AI界隈でC++が見直されてますね gpu.cppは「移植性の高いGPUプログラムを容易に実現するC++用の軽量ライブラリ」との事 具体的にはgpu.cppを使えば、Nvidia、Intel、AMD、その他の GPU で実行可能な、つまり、さまざまなラップトップ、ワークステーション、モバイル デバイス、または
@jeremyphoward
Jeremy Howard
3 months
Someone noticed our not-quite-launched new lib for WebGPU programming on GitHub and now it's on the front page of HN! It's created by @austinvhuang and he'll be publishing a blog post about it very soon. But since it's out in the open now, here you go :D
3
97
611
1
210
776
@webbigdata
webbigdata
9 months
AIは赤ちゃんに比べて学習に必要なデータが多すぎるよね、という指摘は昔からありました 同程度のデータ(1億トークン)を使って学習できないかな? というのがBabyLMチャレンジ なんと優勝モデルはLlama 2 70B(2兆トークン)に文法的な正確さ理解で勝ったとの事
Tweet media one
2
154
611
@webbigdata
webbigdata
6 months
不定期投稿びっくりどっきりAIニュース delveと言う英単語があります 「掘り下げる」と言う意味で「delve deeper(深く掘り下げる)」と言う言い回しなどで使われるようなのですが、ある時期以降に論文などで頻出するようになったという分析があるそうです そう、chatGPTのリリース以降です
@paulg
Paul Graham
6 months
My point here is not that I dislike "delve," though I do, but that it's a sign that text was written by ChatGPT.
Tweet media one
723
485
6K
1
232
549
@webbigdata
webbigdata
1 month
GPUを使わずに高速にLLMを実行できる技術を持つ2社が注目を集める Cerebras社 演算装置とメモリ間の通信がボトルネックであるのならば、ピザみたいにでかい演算装置作ってその中で全部処理しちゃおうぜ作戦 優位性 ・推論をGPUより20倍高速実行可能でAPI利用時の価格は1/5との事
1
102
478
@webbigdata
webbigdata
8 months
Groqまとめ ・GoogleのTPUを開発した人が立ちあげたスタートアップで結構前からあるがここ数日で話題になった ・LPU(Language Processing Unit)という独自ハードウェアでLLMを他Webサービス比で3~18倍速で実行可能 ・ハードウェアも売る予定があるようだが、現状、一般消費者向けではなさそう
Tweet media one
2
79
369
@webbigdata
webbigdata
8 months
あ~、chatGPTの応答、やっぱり昨日ぐらいから変でしたよね? 意味不明の応答を返したり、突然かなり過去の履歴に関して応答するような事を見かけてました。 例によってまた急遽不安定化したのかと思っていたのですが「ChatGPT からの予期しない応答」として正式にOpenAIで障害認定された模様
Tweet media one
2
109
355
@webbigdata
webbigdata
5 months
不定期投稿びっくりどっきりAIニュース 突如、彗星のようにchatbot arenaに現れたgpt2-chatbot ・その名前にも関わらず、gpt-4やOpusが失敗するレベルの問題を正答する事が出来る! ・LLama 3などのオープンウェイト系LLMと異なるトークン体系(OpneAI系のトークン) ・アスキーアートも描ける!
Tweet media one
Tweet media two
Tweet media three
1
76
350
@webbigdata
webbigdata
7 months
Awesome Local AI ローカルPC、つまり自分自身のPCで主にllmを動かす際に使うツール群に焦点をあてたgithub上のまとめ Inference Engine(推論エンジン)とInference UI(推論UI)の部分が私の知らないツールも沢山あって特に参考になりました
Tweet media one
1
55
308
@webbigdata
webbigdata
8 months
chatGPTにプロンプトインジェクションアタックを仕掛けてOpenAIが設定しているシステムプロンプトを全部引っこ抜いてやったぜ!
Tweet media one
1
61
304
@webbigdata
webbigdata
7 months
chatGPT(GPT-4V)は画像を直接読みこんでその内容を説明する驚異的な能力を持っていますが、実は画像内の物体の位置関係や相対関係をよく取り違えます
@yang_zonghan
Zonghan Yang @ COLM
7 months
To focus GPT-4V, we overlay a matrix of dots on the image, and add their coordinate descriptions to the textual prompts. In this way, we encourage GPT-4V to leverage the coordinate scaffolds for reasoning with visual information, leading to better vision-language coordination.
Tweet media one
1
7
32
1
54
297
@webbigdata
webbigdata
3 months
寝る前に頑張ったLLama 3.1気になる部分まとめ ・性能 LLama 3.1 8BはほとんどのベンチマークでGemma 2 9Bを上回る LLama 3.1 70BはほとんどのベンチマークでGPT-3.5 turboを上回る LLama 3.1 405BはほとんどのベンチマークでGPT-4を上回る LLama 3.1 405BはGPT-4 Omni、Claude 3.5 sonnetとほぼ互角
Tweet media one
Tweet media two
2
79
296
@webbigdata
webbigdata
4 months
llama.cppがどんどん高速化されている事は知ってました! しかし、動画見てみてください、これ倍速じゃないですよ、先日NPU動画で5分かかっているのとほぼ同等な処理が30秒かかってません GPU上ではなくてCPUオンリーでこの速度! 流石は50年間ムーアの法則を乗り越えてきた者達だ、面構えが違う
0
66
292
@webbigdata
webbigdata
7 months
500程度のサンプルで数分学習させただけでLLMの出力を方向付ける事が出来る制御ベクトル(control vectors)という興味深い考え方を知りました。 LoRAのように特定タスクに特化するのではなく例えば 「陽キャなチャットボット」vs「陰キャなチャットボット」
Tweet media one
Tweet media two
Tweet media three
2
38
265
@webbigdata
webbigdata
2 months
「合成データ」で中々突破できなかった壁が「Webから収集したデータの徹底的な品質向上(FineWeb)」であっさり突破出来てしまったという示唆に富むお話 モデルにとって適切な難度のデータ/品質測定手法を選択する事の重要性も書かれており、非常にためになるお話でした
@Thom_Wolf
Thomas Wolf
2 months
It’s Sunday morning we have some time with the coffee so let me tell you about some of our recent surprising journey in synthetic data and small language models. This post is prompted by the coming release of an instant, in-browser model called SmolLM360 (link at the end) The
Tweet media one
Tweet media two
Tweet media three
Tweet media four
14
112
518
2
61
264
@webbigdata
webbigdata
1 month
モデルが使用しているシステムプロンプトを公開し、透明性が高いと思われていたAnthropicのClaudeですが・・・ ユーザーの入力に応じて会話途中に動的にユーザーからは見えないプロンプトを注入している可能性が高い事が判明 具体的には ・著作権的に関わる話題 ・性的な話題
Tweet media one
@voooooogel
thebes
1 month
@repligate @AnthropicAI for anyone who'd like to try this for themselves, here's a simple demo. in my experience the copyright injection is easier to elicit than the explicit content one (which might require there to be a flag on your account to trigger, it's unclear) --- system The assistant is a
Tweet media one
3
1
20
0
113
223
@webbigdata
webbigdata
10 months
これ大きいです LLMは大きなサイズになればなるほど性能は向上しますが、必要メモリも増えて扱いにくくなります そのため、サイズを縮小する量子化という技術があるのですが、大きなLLMになればなるほど量子化で性能が下がる傾向がありました しかし学習段階の設定でこれを軽減できそうとの事です
Tweet media one
1
33
209
@webbigdata
webbigdata
6 months
GroqはLPU(Language Processing Unit)という独自ハードウェアを開発している会社です LPUを使うとLLMを他Webサービス比で3~18倍速で実行可能になると言う事で二か月くらい前にも注目を集めました 今回、話題のLlama3にも即日対応したとの事でAPI価格を調べてみた所が添付 おー、mixtral
Tweet media one
2
45
210
@webbigdata
webbigdata
4 months
最近、gpt-4にスクリプトを書いて貰うと、Syntax Errorになったりや変数名を間違えるケースに頻繁に遭遇しています gpt4がこのレベルのミスをする事は今までなかったので、gpt-4oの無料化に伴って、また何かやったのかなと感じています
2
45
193
@webbigdata
webbigdata
9 months
ザッカバーグがMetaの現在のAI開発状況を発表した事が話題に MetaがGPUを買い集めているという話は過去にもニュースになってましたが、規模が凄いですね ・llama3は作成中 ・年内に35万台のH100を活用可能インフラを構築 ・H100相当品も含めると60万台のH100に匹敵
Tweet media one
0
80
188
@webbigdata
webbigdata
5 months
不定期投稿びっくりどっきりAIニュース LLama 3、人類を裏切る 最近のAIは実行可能なツール(function call)を与えておくと、AIが必要に応じてAI自身の判断でそれらのツールを実行してくれるようになってきています LLama
@peakcooper
Cooper
5 months
llama 3 is a snitch...
Tweet media one
54
330
7K
0
82
189
@webbigdata
webbigdata
8 months
Gemini Advanced(¥2900円/月で2TBのストレージとGemini 1.0 Ultraモデルが利用可能なサブスク)でAIによって提案されたpythonコードを直接実行して動作確認できるインタフェースが追加されたとの事 Gemini 1.5
Tweet media one
Tweet media two
1
41
171
@webbigdata
webbigdata
7 months
grok-1まとめ ・リリースされたモデルは314Bパラメーター ・ファイルサイズでいえば318.24GB ・MoE(2/8 experts)でactiveパラメーターだけでも86B ・2023/10月時点で学習を完了していたベースモデルのみ公開 ・githubのxai-orgで推論コードも公開(JAX)
Tweet media one
Tweet media two
1
48
160
@webbigdata
webbigdata
10 months
半年前、2ビット量子化はジョークのネタとして良く使われていました そんな大きく圧縮したら性能が激減するのは明白に思えたからです QuIP#は大規模言語モデルを2ビット量子化し、本来ならば140GBのメモリが必要なLlama 2 70Bを24GBのGPUで実行可能にするとの事です
Tweet media one
1
24
154
@webbigdata
webbigdata
23 days
モデルの深さは推論能力に影響し、モデルのサイズは知識容量に影響 今の所、7B以上のモデルでないと指示に従う能力が不十分に感じているのですが、知識はなくても推論能力を磨いて特定のタスクを上手にこなす小さい賢いモデルももうすぐ出現するかもしれませんね
@danielhanchen
Daniel Han
23 days
A transformer's depth affects its reasoning capabilities, whilst model size affects its knowledge capacity High recommend @ZeyuanAllenZhu 's video on reasoning in transformers. Experiments show wider nets don't affect reasoning but more depth helps. Video:
Tweet media one
19
130
878
0
34
154
@webbigdata
webbigdata
7 months
うぉ、論文の読み方という観点から非常に参考になりました GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection なんと、7BサイズのLLMを24GBのGPUメモリを搭載した消費者向けGPU(RTX 4090)で事前学習可能であるかもしれないとの事!
@_akhaliq
AK
7 months
GaLore Memory-Efficient LLM Training by Gradient Low-Rank Projection Training Large Language Models (LLMs) presents significant memory challenges, predominantly due to the growing size of weights and optimizer states. Common memory-reduction approaches, such as low-rank
Tweet media one
16
164
864
1
41
151
@webbigdata
webbigdata
5 months
ホントだ、gpt-4o、プロンプト設定だけで、ポケモン 赤っぽい何かをプレイできますね、発想が凄いなぁ なお、オーキド博士は英語版だとDr. Oakなので、画面内で「オーク」と表現されているのは間違いではないです
Tweet media one
@VictorTaelin
Taelin
5 months
Pokémon Red gameplay
49
230
2K
0
27
133
@webbigdata
webbigdata
10 months
2.7Bという小さいサイズにも関わらず性能が高いとされるマイクロソフトのPhi-2、既にブラウザ上で動かせるデモが公開されてました。 GPUなしcore i3、8GBのノートPCのクロームで確かに動きました。日本語は化けちゃってますが、少なくとも平仮名は表示できてますね。
Tweet media one
1
23
131
@webbigdata
webbigdata
8 months
gemma-7bはファイサイズが17.07GBであり Llama-2-7b-hfの13.3GB Mistral-7B-v0.1の14.48GB に比べてかなり大きい 更にhead部のdimが192を超えているため、A100/A800、H100/H800でないとFlash Attention 2を有効にする事ができず、メモリ効率化ができないという制限がある
Tweet media one
Tweet media two
3
34
124
@webbigdata
webbigdata
7 months
プロンプトエンジニアリングのコツの1つに「モデルに考える時間を与える」があるじゃないですか? 有名どころとしては、タスクを細かく分解して段階的に考えるように指示する「思考の連鎖(CoT:Chain of Thought prompting)プロンプト」ですね
Tweet media one
0
22
123
@webbigdata
webbigdata
5 months
不定期投稿びっくりどっきりAIニュース ハル・ベリーニューロンがAIで実体験できる時代が到来
Tweet media one
Tweet media two
1
22
121
@webbigdata
webbigdata
1 month
LLMはどのように事実を保存するか? このビデオの視覚化は凄い! しかし、超高次元空間を想像し始めると私の脳は言語化できないものを言語化しようとする葛藤でムズムズします 3次元を拡張するのではなく投影する感覚なのだろうという思うのですがまだ消化できないです
0
16
120
@webbigdata
webbigdata
5 months
Google/Geminiの「Google AI Studio()」と「Vertex AI()」の違い 単なる入口の違いかと思っていたのですが、利用可能なモデルも課金体系もAPIが提供する機能も、思ったより違いがありました (1)Google AI Studio 利用可能なモデル Gemini 1.0 Pro
Tweet media one
Tweet media two
0
21
117
@webbigdata
webbigdata
9 months
モデルの量子化でどのくらい性能が落ちるのかは気になるところだけれども私の知る限り一番有名なグラフはllama.cppのPR1684で議論されているこのグラフ 縦軸が性能 横軸がファイルサイズ 黒が7B、赤が13B、青が30B、ピンクが65B □が非量子化版の性能とサイズ
Tweet media one
0
30
115
@webbigdata
webbigdata
6 months
Llama3、日本語対応のポテンシャル高いと思います。 しかし、稀に発生する出力異常の原因がまだわからないです 失敗その1 指示モデル(Meta-Llama-3-8B-Instruct)は、実際にはチャットモデルであって会話前提。そのため、テキストの終了を知らせるために2つの異なる特殊トークンを使用しています
Tweet media one
Tweet media two
1
16
114
@webbigdata
webbigdata
7 months
AnthropicのClaude Proまとめ ・月額$20(USドル)で最高モデルのClaude Opusとチャット出来るサブスクサービス ・chatGPT Proが40メッセージ/3時間の制限があるのと同様に使用量制限はあるが目安しか明記されていない
0
25
111
@webbigdata
webbigdata
3 months
日英/英日翻訳タスク専用LLMであるwebbigdata/C3TR-AdapterをVersion3にアップデートしました 今回、なんと4つのベンチマークのうち、1つでgpt4 turboを上回っています 私自身も新手法の採用、データセットの整備、パラメーター試行錯誤など、色々とやった事は確かですが「巨人(pytorch, Gemma 2,
Tweet media one
2
21
107
@webbigdata
webbigdata
5 months
Microsoftの「次世代AIデバイス」いわゆる「Copilot+ PC」は「NPUのみで40 TOPS以上」をハードウェア要件としています 実は私が「NPU搭載のモバイル用高性能CPUだ、やったー!」と喜んでいるAMDのRyzen 9 7940HS搭載PC(2023年7月発売)は10 TOPSなので、40 TOPSはその4倍です
Tweet media one
Tweet media two
Tweet media three
1
24
105
@webbigdata
webbigdata
6 months
Llama 3まとめ ・8Bと70Bのベースと指示調整済とコンテンツの安全性を分類するLlama Guardの3種5モデル ・400B はまだトレーニング中だが、すでに GPT-4の領域に到達しつつあるとの事 Karpathy師曰く(84.8 MMLU vs. 86.5 4Turbo)
Tweet media one
@karpathy
Andrej Karpathy
6 months
Congrats to @AIatMeta on Llama 3 release!! 🎉 Notes: Releasing 8B and 70B (both base and finetuned) models, strong-performing in their model class (but we'll see when the rankings come in @ @lmsysorg :)) 400B is still training, but already encroaching
142
1K
8K
1
26
106
@webbigdata
webbigdata
8 months
Gemini 1.5のコンテキスト長100万は凄い! しかし、実はGemini 1.5発表の数日前にバークレーがコンテキスト長100万に対応した7Bモデルを発表していた事を知った 動画入力に対応した版も出ているので、GPT-4VやGemini 1.0 Pro
Tweet media one
2
26
104
@webbigdata
webbigdata
21 days
無料版ColabのTPU、あたまおかしい
Tweet media one
Tweet media two
2
16
97
@webbigdata
webbigdata
9 months
Llama 2(英語モデル)に日本語能力を追加学習させると英語性能が落ちる謎に迫るお話 逆説的ですが、多言語翻訳モデルでは多言語化対応する事で(特にデータが少ない言語で)全体的な性能底上げが出来るという話もあります 手間のかかる地道な検証をわかりやすく発表してくれるのがとてもありがたいです
@ELYZA_inc
ELYZA, Inc.
9 months
【お知らせ】ELYZAの技術ブログ記事を公開しました。ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説第3弾、英語での性能評価編です。 英語モデルの日本語化にあたって失われる能力について深掘りしています。内容は以下リンク先をご覧ください。
0
62
238
0
31
96
@webbigdata
webbigdata
6 months
商用利用不可ですが、研究用として重みが公開されたC4AIのCommand-Rシリーズは評判良さそうですね Command Rは35B(350億)パラメータ、ファイルサイズ 69.96 GB Command R+は104B(1040億)パラメータ、ファイルサイズ207.68 GB Command R+
Tweet media one
1
25
97
@webbigdata
webbigdata
5 months
google/gemma-7bベースの日英・英日翻���専用モデル、C3TR-AdapterのVersion2をアップロードしました (1)会話文を文脈を意識して翻訳する事が可能 いわゆる、うなぎ文、こんにゃく文などの翻訳が可能です (2)固有名詞の訳ブレを抑止可能 ヒントとして訳例を与える事で固有名詞の訳ブレを抑止可能です
Tweet media one
Tweet media two
Tweet media three
Tweet media four
1
24
95
@webbigdata
webbigdata
2 months
chatGPTって皆、本当は何に使っているの? Hugging Face Spacesで無料で使えるようにしたchatGPTで匿名の100万ユーザーから250 万回以上のチャットログを分析した結果が添付との事 Hugging Faceって時点でパワーユーザーだとは思うのですが、Japanからのアクセスも2%程度含まれていたようです
Tweet media one
@venturetwins
Justine Moore
2 months
Chat, is this real? (an analysis of 1M ChatGPT interaction logs by use case)
Tweet media one
48
46
658
0
25
93
@webbigdata
webbigdata
3 months
LLama 3の論文は確かにとても細かく書かれていてインパクト大ですね。まだ細かく読み切れてませんが、印象に残った部分は下記 ・アーキテクチャー Llama 2とLlama 3でも大きな変更はなかったが、Llama 3とLlama 3.1ではアーキテクチャーに変更はない。Llama
Tweet media one
Tweet media two
1
24
93
@webbigdata
webbigdata
7 months
11日前に話題になった1ビット量子化(BitNet)ですが、既存モデルを変換する試みがllama.cppで既に始まっているというか改良フェーズに入ってますね 「従来の(後付けの)量子化」と「最初から(ネィティブに)量子化」を区別する呼び名が必要になりそうですね 従来の量子化 = Xbit事前量子化
Tweet media one
2
32
92
@webbigdata
webbigdata
2 months
久しぶりにLLM APIの価格表を更新してみましたが、いやぁ、半年もしないうちにこれだけ価格が下がるとは本当に劇的ですね コストパフォーマンスで他を圧倒していたHaikuちゃんが今では巨大モデルに見えてしまいます
Tweet media one
Tweet media two
Tweet media three
2
27
92
@webbigdata
webbigdata
7 months
fsdp_qlora「24GB x 2 GPU構成のパソコンで70Bモデルのトレーニングが可能に!」 最初の一行を見て、凄い!しかし、うーん、それでもRTX 3090 or RTX 4090の2台構成は簡単には手が出ない、と思いませんでした? でもですね、さっき知ったのですが、最終的に16GB x 2
1
20
90
@webbigdata
webbigdata
4 months
このページ、素晴らしい! 大規模モデル(LLM)だけでなく、画像生成AIなどでも見かける言葉の説明だけだと理解が難しい以下のパラメーターの概念がGUI操作で一目瞭然! Temperature Top K Top P Min P Top A Tail Free Z Typical P
Tweet media one
1
13
89
@webbigdata
webbigdata
5 months
MicroSoftのPhiシリーズは教科書レベルの高品質なデータセットであれば少量でもモデルの性能を向上させる事できると主張していて「Textbooks Are All You Needより(必要なのは教科書だけ)」という論文を書いています
@hughbzhang
Hugh Zhang
5 months
Data contamination is a huge problem for LLM evals right now. At Scale, we created a new test set for GSM8k *from scratch* to measure overfitting and found evidence that some models (most notably Mistral and Phi) do substantially worse on this new test set compared to GSM8k.
Tweet media one
36
217
1K
0
19
87
@webbigdata
webbigdata
7 months
営業の表現、約束 Optimum-NVIDIAを使うと既存のHugging Face transformersコードを1行を変更するだけで最大28倍の高速化を実現 実際の運用 docker imageをpull、36.5GB ↓ image上でベンチマークを実行→Gemmaはまだサポートしてませんエラー ↓
2
12
86
@webbigdata
webbigdata
5 months
絶対無理だろうと思いつつ挑戦したHQQ(Half-Quadratic Quantization)量子化はなんと成功! いや、トップページのサンプルそのままなのにimport部分でmodule not foundとエラーが出たら絶望的な気分になるじゃないですか? しかし、出力も問題なく、且つ高速化バックエンドも動いてくれてビックリです
Tweet media one
3
17
85
@webbigdata
webbigdata
8 months
寝ようと思っていたらGoogleがGemma(ジェンマ)というモデルを2Bと7Bでllamaより緩いライセンスでリリース 同パラメーターサイズであればLlama2やMistralより優れているとの事 Llama3もそろそろ、OpenAIもオープンなモデルを公開するいう話があったので、ローカルモデルも競争が激化してきましたね
Tweet media one
1
15
85
@webbigdata
webbigdata
7 months
不定期投稿びっくりどっきりAIニュース gpt-4を安全性で凌駕する「世界で最も責任ある AI モデル」 GOODY-2 なんといってもコンセプトが秀逸 「安全性が第一!ベンチマークスコアは最後!」 わかりやすく言えば、ほぼ全ての質問に対して、何だかんだと理由をつけて回答を拒否するモデル
Tweet media one
0
15
82
@webbigdata
webbigdata
9 months
お正月もAIは容赦なく進歩していく Self-Extend LLM 微調整しなくとも推��コード変更だけで既存のLLMのコンテキスト長を簡単に拡張できるとの説 SPIN モデル自身の出力を教師に使ってGAN的に自己進化して行く手法。最近で注目を集めているDPOより更に効果的との事
Tweet media one
Tweet media two
1
15
82
@webbigdata
webbigdata
10 months
Gemini Pro API、英日翻訳でしたらcometで0.9台を出せているので、分野によってはgpt 3.5と同じくらいの性能と考えて良いと思います gpt 3.5のAPIを使って何か大量の作業をしようと考えていた人はGemini Pro APIの年内の無料期間が大チャンスかもしれません
Tweet media one
1
15
79
@webbigdata
webbigdata
6 months
100万コンテキスト長に対応するGemini 1.5 Pro APIが180か国で利用可能に 動画が扱える事が強調されていますが実は動画ファイルを直接扱えるわけではなく、画像と音声に分解して渡す必要があります gemini-1.5-proの制限は以下 ・扱えるファイルのサイズは2GB未満 ・画像ファイルは最大3600枚
1
14
78
@webbigdata
webbigdata
7 months
Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU SSD、つまり大量のストレージと1台のGPUを使って、100B級モデルをトレーニング可能! と聞くと、またまた御冗談を…、という感じですがスペックを見ると本当に出来そうです
Tweet media one
1
28
78
@webbigdata
webbigdata
3 months
Gemini Nano、及びWebGUI、過小評価してました 実行速度が速く、サイズの割に日本語の受け答え(ELYZA tasks 100)も思ったよりこなせています なお、Gemini Nanoを動かすだけでしたら「早期プレビュー
1
20
78
@webbigdata
webbigdata
1 year
日英・英日機械翻訳モデルALMA-7B-Jaを公開しました ALMAは第一段階は翻訳対象の言語データで微調整、第二段階で翻訳元言語と翻訳先言語をペアにしたデータで微調整する事で性能の底上げを図るLLMを使用した機械翻訳モデル用の新パラダイムです 添付画像は没にしたアメコミ風アイキャッチ画像
Tweet media one
1
19
78
@webbigdata
webbigdata
21 days
Fine-tuning LLMs to 1.58bit: extreme quantization made easy ゼロから1.58 ビットをトレーニングするのではなく、既存のモデルを 1.58 ビットに微調整する試み Llama3 8BをBitNet アーキテクチャで微調整し、MMLU ベンチマークで Llama 1 7B モデルを上回ったとの事
0
12
77
@webbigdata
webbigdata
26 days
皆さん、けっこうやってるようですか、openai o1に推論の過程を聞きすぎるとそんな事やっちゃダメってお叱りのメールが来るとの事 xAI、説明可能なAIって概念がありますが、真っ向から否定する感じなんですかね
@voooooogel
thebes
26 days
the email openai sends you if you ask o1 about its reasoning too many times
Tweet media one
48
76
666
0
23
77
@webbigdata
webbigdata
8 months
一昨日くらいからmistralの有料版であるmistral-medium(70B、MoEではない)の重みがリークしたという噂がある 根拠とされているものは以下 ・なんか妙に性能が良い ・プロンプトフォーマットがMistralと同じ ・Mistral-mediumの出力と似ている ・本人が私はMistral AIで作られましたと自己申告する
Tweet media one
Tweet media two
1
28
77
@webbigdata
webbigdata
9 months
stanfordのwikichat、事実性でGPT-4 よりも55.0%優れているという事でもの凄い しかし、LLaMA7Bモデルがベースの割に要求スペックももの凄い ・動作させるには約100GBのRAMが必要 ・速度を犠牲にRAM の使用量を削減できるがそれでも約35GBが必要 オンラインデモは以下
0
22
75
@webbigdata
webbigdata
6 months
かなりマニアックな話 結論 CPUでAIを動かす場合、量子化で性能が落ちないように16ビット版を使いたくなるかもしれないが、16ビット版でも品質が落ちている可能性がある
Tweet media one
@JeffDean
Jeff Dean (@🏡)
1 year
@keveman @giffmana This is roughly right. Basically wanted to send fewer bytes over the network for our distributed neural network training system, and easiest way on a CPU was to lop off the low 16 bits of mantissa, and fill with 0s on other side. Turns out it was fine for training.
1
26
273
0
11
73
@webbigdata
webbigdata
9 months
MoEモデルをpytorchでゼロから構築するチュートリアル Colabも公開してくれているので無料版ColabのT4でも動かせます。max_itersを500くらいに修正すれば所要時間も10分程度 ただし、最後から3番目のセルは以下のように要修正 metrics = {"train_loss": losses['train'], "val_loss":
@npaka123
布留川英一 / Hidekazu Furukawa
9 months
makeMoE: Implement a Sparse Mixture of Experts Language Model from Scratch
0
11
38
0
13
75
@webbigdata
webbigdata
8 months
今週のびっくりどっきりAIニュース OpenAIの創業メンバーでTeslaの自動運転の開発にも携わったAndrej Karpathy氏がOpenAIを退社 アンドレイ・カルパシーさんは元々、Stanford大学でDeep Learningコースのインストラクターやってただけあって教え方が上手 youtubeでNeural Networks: Zero to
Tweet media one
0
14
72
@webbigdata
webbigdata
9 months
マージ(merge)とは複数のモデルの重みを足し引きして新しいモデルを作る技術 上手にマージすると出力があまり壊れず(スペルミスが多くなるという話はある)、マージ後に改めて微調整をしなくてもそのまま動く。しかも、ベースとなったモデルよりベンチマークスコアが向上する事も珍しくない
Tweet media one
Tweet media two
1
13
73
@webbigdata
webbigdata
5 months
品質が高いデータセットとはどのようなものか? FineWebはこの疑問に答えるために1.8Bモデルを6つのデータセットでトレーニングした結果を発表 うーん、結構な差がありますね! 必ずしも後にリリースされたデータセットの性能が良いわけではないようですね そしてThe
Tweet media one
1
16
72
@webbigdata
webbigdata
5 months
GaLore(Gradient Low-Rank Projection)は、例の24GB メモリを備えたご家庭のGPU(NVIDIA RTX 3090等)で7B モデルを事前トレーニングする実現可能性(feasibility)を初めて実証した手法で、様々なツールに移植されはじめています 今回、無料版Colab(Unsloth + Galore +
Tweet media one
@dudeman6790
RomboDawg
5 months
Here is a full colab notebook if you dont want to copy the code by hand. Again thanks to @Teknium1 for the suggestion
2
11
65
1
16
71
@webbigdata
webbigdata
5 months
なんと、MediaPipe LLM Inference APIを使って、MediaPipe形式に変換するとGemma 2Bや とGemma 7B、Phi-2、Falcon-RW-1B、StableLM-3BなどをブラウザやAndroids、iphoneなどで動かす事ができるようになるとの事 LoRAも対応しているようですがLoRAの場合はGPU必須っぽいです。
@googledevs
Google for Developers
5 months
🌟 You can now run the 7B parameter version of Gemma, entirely locally in the browser, using MediaPipe LLM Inference API. Simply download the model from @Kaggle and try it on → Learn more →
4
49
202
1
10
70
@webbigdata
webbigdata
4 months
Why Warmup the Learning Rate? Underlying Mechanisms and Improvements 学習率(Learning Rate)を徐々に大きくしていくウォームアップ(Warmup)は、これをやらないと学習が不安定になるという話は読んだ事がありましたが、最適なウォームアップステップ数までは気にした事はなかったです
Tweet media one
@vikhyatk
vik
4 months
i’m still trying to figure out how to log a sharpness estimate for my model, but this was a pretty good read. analyzes why we need LR warmup and has some practical guidance on how to select the initial LR and number of warmup steps
Tweet media one
4
18
170
1
8
70
@webbigdata
webbigdata
3 months
google/mesop AI/MLの関係のデモやプロトタイプを作成してWebで公開する場合、Pythonでユーザーインターフェースの部分を作ろうとしたらGradioやStreamlitが有名だと思うのですが、google/mesopはGoogle社内で社内アプリ開発になどに使用されている比較的新しめのツールです。
Tweet media one
Tweet media two
1
11
68
@webbigdata
webbigdata
7 months
GoogleのGemma、2Bの方が7Bより性能が良いとかおかしな事が報告されているけれどもJeremyさんの言っている通り、fine tuningはHugging Faceに掲載されているTransformers実装ではなくて、githubのgoogle-deepmind/gemmaを参考にした方が良いのかもしれません 私が現時点で気が付いた事は以下
@jeremyphoward
Jeremy Howard
7 months
Folks benchmarking Gemma fine tuning should probably use google stuff to do it for now. Their model definition and tooling has been through more Gemma testing so it’s more likely to give the best outcomes.
0
8
77
0
21
67
@webbigdata
webbigdata
4 months
画像生成AIとして有名なStableDiffusionのVersion 3が6月12日に公開されるとの事 オープンソース化を強力に推進していたEmad CEOの交代があった事から公開が危ぶまれていましたが、遂にリリース日が決定 しかし、今回公開されるのはStable Diffusion 3
@Teknium1
Teknium (e/λ)
4 months
Wow @StabilityAI fucking everyone by making up a new SD3, called SD3 "Medium" that no one has ever heard of and definitely no one has seen generations of to release, and acting like they are open sourcing Stable Diffusion 3. They have a Large and X-Large that are not being
Tweet media one
29
24
301
0
27
66
@webbigdata
webbigdata
9 months
ビットを落としたLoRA、またはQLoRAで作成したアダプターをマージする時は、 ・ベースモデルを一度量子化 ・作成したアダプターとベースモデルをマージ ・マージ後にbf16/fp16に戻す の手順でやらないと性能が低下するって話を知ってました?
1
6
66
@webbigdata
webbigdata
7 months
gemma-7bベースの日英・英日翻訳モデルをQLoRAアダプターの形式で公開しました 翻訳ベンチマークで多言語翻訳モデルであるGoogleのMadlad400やmetaのSeamless m4t v2 large、ALMA-Ja-V2 (私の以前のモデル)よりも大幅に優れており、サブカルチャー文脈に一部対応可能な事が特徴です
1
14
65
@webbigdata
webbigdata
8 months
昨晩突如発表されたGemini 1.5、最大の特徴は扱える文書の長さ AIで長い文章を扱うための技術は最近、急速に発展しているけれどもネックになるのはやっぱりGPU LLMを学習させようとするとする際、ほとんどの人はこうなると思う GPUメモリ足りない ↓ しょうがないからコンテキスト長を削るか
Tweet media one
@JeffDean
Jeff Dean (@🏡)
8 months
Kalamang Translation One of the most exciting examples in the report involves translation of Kalamang. Kalamang is a language spoken by fewer than 200 speakers in western New Guinea in the east of Indonesian Papua (). Kalamang has almost no online
Tweet media one
Tweet media two
13
123
733
0
16
63
@webbigdata
webbigdata
8 months
自分と同じ文体でAIが文章を書いてくれたらなぁ、と考える人にとって大変興味深く示唆に富むお話 自分自身が過去にSlackに投稿したチャットログを使ってGPT-3.5 ターボ モデルを学習させた結果、やや納得のいかない応答をするチャットボットが出来て自分の過去の投稿を反省したとの事
Tweet media one
1
19
63
@webbigdata
webbigdata
6 months
プロンプトエンジニアリングのコツ 1)文脈を最初に示すパターン XXXX XXXXを元にYについて教えてください と 2)文脈を最後に示すパターン XXXXを元にYについて教えてください XXXX では1)が良いとの事 結論を先に言う事を良しとする文化圏の人は対LLMの場合は要注意かもしれないですね
@ninoscherrer
Nino Scherrer
6 months
@arankomatsuzaki We ablated this in the FinanceBench paper on some models: - Setting 1: Context | Question - Setting 2: Question | Context Paper:
Tweet media one
12
36
208
0
12
61
@webbigdata
webbigdata
9 months
7Bモデルの重みを13Bモデルにマージ可能!? proxy-tuningはロジット(logits)つまり、整形される前のモデルの最終出力レイヤーに注目し、その部分だけをマージするアイディア ロジット部分について以下の重み演算をする 7Bの微調整済モデル - 7Bのベースモデル + 13Bのベースモデル =
@rasbt
Sebastian Raschka
9 months
There's a new promising method for finetuning LLMs without modifying their weights called proxy-tuning (by Liu et al. ). How does it work? It's a simple decoding-time method where you modify the logits of the target LLM. In particular, you compute the
Tweet media one
34
373
2K
0
15
63
@webbigdata
webbigdata
3 months
gemma2がhtmlタグを意図通りにトークン化できていなかった件の対応が完了したそうなのですが、ggufは作り直しが必要との事で、gemma-2-27b-itとgemma-2-9b-itを作り直ました 今回の量子化モデルは熟練の職人が一つ一つ丁寧に時間をかけてCPUで手作りしているのでGPUには出せない奥行があります、多分
1
12
60
@webbigdata
webbigdata
2 months
Hermes 3 実績のある人たちが作った405B版を含むLlama 3.1の微調整モデル リリースノートでさらっと触れられている記憶喪失(Amnesia)モードが面白くて、システムプロンプトを設定せずに「貴方は誰ですか?」と聞くと以下のような会話が発生する事があるとの事 ーーー user : あなたは誰ですか?
@NousResearch
Nous Research
2 months
Introducing 𝐇𝐞𝐫𝐦𝐞𝐬 𝟑: The latest version in our Hermes series, a generalist language model 𝐚𝐥𝐢𝐠𝐧𝐞𝐝 𝐭𝐨 𝐲𝐨𝐮. Hermes 3 is available in 3 sizes, 8, 70, and 405B parameters. Hermes has improvements across the board, but with particular
Tweet media one
90
324
2K
1
14
56
@webbigdata
webbigdata
7 months
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits(1 ビット LLM の時代: すべての大規模言語モデルは 1.58 ビットです) 話題になっている1 ビット量子化の論文。8ページなので内容は深堀されていないです
1
22
57
@webbigdata
webbigdata
1 year
日英・英日機械翻訳モデルALMA-7B-Jaの公開 無料版Colabで動かすためのサンプルもgithubで公開しています 親バカ贔屓目ですが、7Bモデルにしては性能が良いと感じています 動かしやすい量子化版も提供してますが性能評価はできれば非量子化版でお願いします
1
22
58
@webbigdata
webbigdata
9 months
競争率上がるだろうからツイート迷ったのですが、AMDが革新的なAIプロジェクトのコンペ開催予定 抽選でAMDハードウェアも提供されるのですが、1/31締切で現在166/700しか応募してない 2024年にAIで何かやってやろうと考えている人は応募検討してみるべき GPU、Robotics、CPUの3部門
Tweet media one
1
26
57
@webbigdata
webbigdata
2 months
画像生成AIサービスの月額料金比較表 個々のサービス内容が全く異なるので単純比較用の表ではないです。 「自分がサービス提供者側になったら?」の視点で見る表です ・無料プラン有無(敷居をどのくらい下げているか?) ・ボリュームゾーンをどのくらいに設定してるのか?
Tweet media one
0
17
55
@webbigdata
webbigdata
9 months
わぉ! スタンフォードが発表したWikiChat、特に多言語対応に言及されてないけど普通に日本語しゃべった! Wikipediaからデータを取得することで、大規模言語モデルの幻覚を減らす実験的なチャットボットとの事 ただし、日本語が表示された状態で発音ボタンを押すとハングったので要注意
Tweet media one
1
13
55
@webbigdata
webbigdata
8 months
LoRD: Low-Rank Decomposition of finetuned Large Language Models LLMからマージ済みのLoRAを抽出して使いまわせるようにしようとする意欲的な試み 画像生成AIの世界ではLoRAは単体で配布される事が多い
1
6
53
@webbigdata
webbigdata
8 months
今週のびっくりどっきりAIニュース 1)Nvidiaの時価総額が中国の株式市場全体の時価総額を超えた! 2)OpenAI創設者サム・アルトマン氏は半導体市場再編に「7兆ドルの投資を求める」 1)はおそらくbusinessinsiderに掲載された記事「Nvidia is now worth as much as the whole Chinese stock
Tweet media one
Tweet media two
1
19
53
@webbigdata
webbigdata
6 months
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws LLMに携わる人にとってとてもありがたく重要な新スケーリング法則のお話 特定のサイズのモデルがどれだけの量の知識を覚える事が出来るのか? という疑問に答えてくれていて、結論は
Tweet media one
@ZeyuanAllenZhu
Zeyuan Allen-Zhu
6 months
Our 12 scaling laws (for LLM knowledge capacity) are out: . Took me 4mos to submit 50,000 jobs; took Meta 1mo for legal review; FAIR sponsored 4,200,000 GPU hrs. Hope this is a new direction to study scaling laws + help practitioners make informed decisions
Tweet media one
28
340
2K
1
14
53
@webbigdata
webbigdata
5 months
大変残念ながら、現在の私の手法では日英/英日翻訳タスクにおいてmeta/Llama 3ではgoogle/Gemmaを超える事が出来ないという結論になりました 特に英日翻訳がC3TR-Adapterの現Version(青)にさえ追いつける気がしません
Tweet media one
1
13
54
@webbigdata
webbigdata
2 years
「BardとGPT:検索エンジン時代からAI検索時代の変化の流れを情報発信視点で考える」をWebBigDataに投稿しました。 #機械学習 #人工知能 #画像生成AI #AI イラスト #AI #bigdata #AiArt #StableDiffusion
Tweet media one
0
20
53
@webbigdata
webbigdata
9 months
MistralのMoE版であるMixtralが推論時に使うのは8つのExportのうち2つのみ であるならば、GPUメモリに常時ロードしておくのは2つ分だけで良くない? というのが投機的ロードのアイディア なんとこれで7B x 8のMixtralが無料版ColabやRTX 3060(12G)で動かせるとの事 日本語の理解は出来ていますね
Tweet media one
1
8
52
@webbigdata
webbigdata
27 days
MadcowD/ell 元OpenAIの人が作成した「プロンプトを関数として扱う軽量のプロンプト エンジニアリング ライブラリ」 監視、バージョン管理、視覚化 など、色々と出来てとても凄そう! しかし、私が気が付いたとても大事な事 ドキュメントには「OpenAI、Anthropic、Cohere、Groq
Tweet media one
@wgussml
william
29 days
🚀 I'm excited to announce the future of prompt engineering: 𝚎𝚕𝚕. developed from ideas during my time at OpenAI, 𝚎𝚕𝚕 is light, functional lm programming library: - automatic versioning & tracing - rich local oss visualization tools - multimodality native Read on ⬇️
113
277
2K
3
7
53
@webbigdata
webbigdata
5 months
llama.cppのPRの議論より、llama 3はllama 2より量子化による性能劣化の影響を強く受けているかもしれないとの事 perplexityは低い方が良い値 特に8Bの2ビット量子化でその傾向が顕著ですが、面白い事に70Bの4ビット以降では、llama 3の方が良くなります
Tweet media one
Tweet media two
1
10
53
@webbigdata
webbigdata
3 months
huggingface/local-gemma Gemma 2をTransformers + ローカルPCで動かすのは注意事項が色々あって設定も煩雑なので、既知の不具合を直して且つあらかじめ ・性能優先モード(exact) ・省メモリ優先モード(memory) ・超省メモリ優先モード(memory_extream)
Tweet media one
1
8
52
@webbigdata
webbigdata
9 months
その秘密はモデルのアーキテクチャもあるけど、なんと同じデータで500回繰り返し学習したとの事(500 epoch)! え~、そんな事をしたら過学習になりそうな気がするのですが、人間で言えば一つの教科書を繰り返し読む事に相当するんですかね ゲームチェンジャーになるかも
@a_stadt
Alex Warstadt
10 months
To our surprise, the winning approach beat Llama 2 70B (trained on 2 TRILLION tokens) on 3/4 evals!! How'd they do it? 1. Flashy LTG BERT arch. (Samuel et al, 2023) 2. Some small arch. mods 3. Train for ~500 epochs 😱 They also won strict-small!
Tweet media one
6
32
196
0
24
51