はち @CurveWeb Twitter profile | Pikagi

Pikagi

はち

@CurveWeb

904

Followers

778

Following

249

Media

2,922

Statuses

IT企業勤務。犬とコーヒーが好き。20代。 HuggingFace → Note → LLM, Synthetic data(合成データ), Agent Systemについて発言します

Joined March 2021

Don't wanna be here? Send us removal request.

Pinned Tweet

@CurveWeb

はち

1 month

論文やXの投稿、OpenAI公式のブログやドキュメントの内容からOpenAI o1の作られ方をざっくりまとめました。キーワードは、PRM(プロセス報酬モデル)、Chain of Thought (CoT)、強化学習あたりだと思われます。 OpenAI o1はどう作るのか｜はち @CurveWeb #note

Tweet card media

OpenAI o1はどう作るのか(概要編)｜はち

1. はじめに OpenAIから久しぶりに新しいモデルが出ました。 OpenAI o1: 強力な推論能力と幅広い世界知識 OpenAI o1-mini: コーディングタスクに特化モデルについての細かい説明はここではしませんが、OpenAIの公式報告によれば競技プログラミング問題 (Codeforces) で 89 パーセンタイルにランクインし、米国数学オリンピック (AIME)...

1

35

194

Last Seen Profiles

@nnn_5206

@torost_56

@saturnplaneth

@LMK_Wloclawek

@bokeplokalmalam

@binor

@moooojh909

@actualNathew

@bokeplokalmalam

@cukienaknikmati

@LoreeSendy94020

@G59hwmbled

@melaniehueties

@sabin_gamers

@ariel_kabi49018

@CaseySaida49293

@ShadayaK44412

@RossFoxHusky

@awxy6hdrQ5T5akT

@yunikure__

@DEVYFMMD

@penyukastw21

@torost_56

@I04Um

@realJeffLaRe

@BeverlySmi24884

@GarettWeld47535

@blobofmeh

@Jerame41hem

@hugmetight_1987

@WareinLili

@CHOWH1_

@_Isadrogaa

@HSheilah12899

@crot_ayo

@AvidVester68766

@CurveWeb

はち

5 months

本当だ。 gpt-4o、論文要約してPowerPoint吐いてくれる。前からできたのかな。発表スライドっぽ��してくれました。 (右の添付はPowerPointをGIF化したものです。)

Tweet media one

Tweet media two

4

271

1K

@CurveWeb

はち

8 months

既存日本語LLMをBitNetで置き換えて実行してみた｜はち #note

Tweet card media

既存日本語LLMをBitNetで置き換えて実行してみた｜はち

はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。簡単な概要としては、既存のLLMが１パラメータをFP16やBF16などのfloat型で扱っているものを、１パラメータで{-1, 0, 1}しか扱わない様にした。計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。 3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る...

1

42

238

@CurveWeb

はち

8 months

BitNet 1.58b（{-1,0,1}版BitNet）の実装追加されたみたいです。

Tweet card media

GitHub - kyegomez/BitNet: Implementation of "BitNet: Scaling 1-bit Transformers for Large Language...

Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch - kyegomez/BitNet

0

47

221

@CurveWeb

はち

4 months

マルチモーダルモデルって、言語とか音声、画像、みたいに人が直接認知できるものに縛られる必要はないと思ってる

0

36

199

@CurveWeb

はち

5 months

>RP 時系列予測モデル最近流行ってる。先週もApache2.0のモデルが出てた。今まで時系列は、個別にモデル作ってたけど、時系列もデータあるだけ入れたら言語モデルみたいにある程度あらゆる状況に対応する事前学習モデルが作れたって流れだと思う。

Tweet card media

ibm-granite/granite-timeseries-ttm-r1 · Hugging Face

0

20

192

@CurveWeb

はち

1 year

llama2-hfを日本語dollyで2epockほどqlora微調整したモデルを公開しました。 JGLUEスコア平均値 67.23(rinna ppoは59.48)でだいぶ良かったです。なんとなく感じてましたがllama2強い💪

Tweet card media

HachiML/Llama-2-13b-hf-qlora-dolly-ja-2ep · Hugging Face

3

44

185

@CurveWeb

はち

5 months

4つの時系列基盤モデル・Google Timesfm: 単変量予測・AutonLab Moment: 多変量予測・IBM Granite: 多変量予測・Amazon Chronos-T5: 単変量予測みたい。Timesfmに関してはアーキテクチャ的にはできるみたいだけど事前学習してないよう。株価予測とかに使うなら多変量の方が良いな。

0

20

179

@CurveWeb

はち

5 months

元々ある時系列予測ライブラリのProphetでは予測できていないので、やはり時系列基盤モデルはすごい。

Tweet media one

0

19

170

@CurveWeb

はち

7 months

BitNet b158の検証まで行いました。 BitNetの実装完了しました。 BitNet&BitNet b158の実装④｜はち #note

Tweet card media

BitNet&BitNet b158の実装④｜はち

はじめに前回、BitLinear b158の実装を行いました。前回までの内容は以下をご参照ください。 4. BitNet b158の検証 BitNetの検証と同様、 BitLlamaでBitLinear158bを利用できる様に修正事前学習ができるか（Lossが下がるか）確認を行います。 4-1. BitLlamaの修正 modeling_bit_llama.pyにおいて、BitLine...

0

31

158

@CurveWeb

はち

1 month

Reflectionを使ったSNS投稿コンテンツを提案するAgentを試しに作ってみました。批評を繰り返すことで、コンテンツが良いものになっていくのを確認できます。 LangGraphを使ったReflection Agent： SNS投稿コンテンツ提案Agent｜はち @CurveWeb #note

Tweet card media

LangGraphを使ったReflection Agent： SNS投稿コンテンツ提案Agent｜はち

はじめに Sakana AIさんのThe AI Scientistを筆頭に、LLM-Based Agentの社会活用は今後拡大してくと考えています。また、Agentで推論→結果を合成データとしてTuningに利用みたいな流れで、LLM自体の発展にもAgentは活用されていくと考えます。これらをモチベーションに最近LLM-Based Agentの勉強をしており、試しに作ったものを一部Note...

0

36

154

@CurveWeb

はち

5 months

時系列基盤モデルを使って、・多変量の時系列データEmbedding作成・時系列データ同士の類似度を算出というのを試してみました。時系列基盤モデルによる株価データ(多変量)の類似度算出と検索｜はち #note

Tweet card media

時系列基盤モデルによる株価データ(多変量)の類似度算出と検索｜はち

1. はじめに今回は時系列基盤モデルを使って、多変量の時系列データのEmbeddingを作成し、そこから時系列データ同士の類似度を算出するというのを試していきたいと思います。元々、時系列データの類似度を算出する方法としては以下の２つがあったと思います。（時系列を専門にやってきたわけではないので間違っていたらご指摘お願いします。）動的時間伸縮法（DTW: Dynamic Time...

0

26

144

@CurveWeb

はち

6 months

予想はしてたけど、もうLlama3のMoEができてる

Tweet card media

Crystalcareai/llama-3-4x8b · Hugging Face

0

24

137

@CurveWeb

はち

19 days

AnthoropicによるRAG/Contexual Retrievalの紹介 RAG（Embedding/TF-IDFを検索に併用）を拡張したコンテキスト検索という手法が紹介されている。コンテキスト検索とは、RAGの各チャンクにコンテキスト（文書内でのそのチャンクの役割）を追加する手法。

Tweet card media

Introducing Contextual Retrieval

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

1

17

136

@CurveWeb

はち

8 months

BitNet&BitNet b158の実装について｜はち #note

Tweet card media

BitNet&BitNet b158の実装①｜はち

はじめに先週発表された論文『The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits』は多くの人に衝撃を与えたと思います。それまで量子化とは、有り体に言えば性能を犠牲にメモリ等のコストを抑える手法でした。しかし、BitNet b158(*)では量子化手法としては初めてオリジナルを超える性能を出す可能性を魅せてくれま...

1

11

129

@CurveWeb

はち

5 months

時系列の基盤モデルの1つであるGoogleのTimesFMを試しました。Chronosよりも小さいながらある程度予測することができました。 Google Colabで時系列基盤モデルを試す①：Google timesfm｜はち #note

Tweet card media

Google Colabで時系列基盤モデルを試す①：Google timesfm｜はち

はじめに Transformerアーキテクチャにテキストデータを大量に読み込ませたらある程度あらゆる場面で使えるモデルができたというのがGPTやBERTなどの言語のFoundation Model(基盤モデル)です。それと同じ発想で、あらゆる時系列データを読み込ませたら、あらゆる場面で使える時系列モデルが作れるのではないかという発想で作ったのが時系列の基盤モデルになります。 Hugging...

1

18

121

@CurveWeb

はち

5 months

ChatVectorで7BモデルのFineTuning結果を70Bに転移させるみたいな話、事前学習では既に小さいモデルで事前学習→セルフマージで大モデル化っていうのができているのでなんとなくできて然るべき感ある。

Tweet media one

1

20

112

@CurveWeb

はち

5 months

LLMによる合成データ生成について試すor調べてみた範囲で、合成データ生成にはどういう方向性があるのかみたいなのをまとめてみました。 LLMによる合成データ(Synthetic Data)生成のテクニック｜はち #note

Tweet card media

LLMによる合成データ(Synthetic Data)生成のテクニック｜はち

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。概要 LLMによる合成データ生成には、その使い道から以下の2つの種...

0

24

111

@CurveWeb

はち

1 month

最高のオープンモデルと謳われているReflection-70Bは ① <thinking>タグでまず推論 ② 推論後の自己反省を<reflection>タグ内でして修正 ③ <output>タグで最終的な回答という流れで推論するらしい。なるほど、学習データはReflection Agentで作っているのかな。 > RP

0

17

109

@CurveWeb

はち

2 months

LangGraph：書類要約のワークフロー｜はち #note

Tweet card media

LangGraph：書類要約��ークフローの構築｜はち

最近は、以下の点からLLMの進化が遅くなってきているように感じます。 GPT-4oがClaude 3.5 SonnetやGeminiにChatbot Arenaで負け始めている GPT-4oをはじめとしたClosedモデルに、Llama 3.1のようなOpenモデルのベンチマークスコアが追いついてきている一方で、Sakana AIさんのThe AI ScientistのようなLLM-Based...

0

14

105

@CurveWeb

はち

5 months

東工大の「大規模言語モデルの開発」、包括的にLLM開発についての情報がまとまってて読みやすいし、とても面白い。ただ、合成データによる指示チューニングに関してネガティブなのが気になった。この工程での賢くなるというのは知識の獲得ではなく、命令への従い方の獲得なのだと思うのだけれど。

Tweet media one

Tweet media two

Tweet media three

1

15

104

@CurveWeb

はち

7 months

Chat Vector 面白すぎるこれ、チャットだけじゃなくて数学とかcodeとかにも使えるのでは

Tweet card media

Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita

はじめにChat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in…

0

12

100

@CurveWeb

はち

5 months

時系列基盤モデル ③ です。他のモデルの1/1000~1/250くらいのサイズでもある程度予測ができました。また、Fine Tuningで性能を上げれることも確認しました。 Google Colabで時系列基盤モデルを試す③：IBM granite｜はち #note

Tweet card media

Google Colabで時系列基盤モデルを試す③：IBM granite｜はち

はじめに前々回のGoogle Timesfm、前回のMomentに引き続き、HuggingFaceにある商用可能なライセンスの時系列基盤モデルを4つ試し、比較していきたいと思います。利用するデータはETTh1という電力変圧器温度に関する多変量時系列データセットです。事前学習にこのデータが含まれる可能性があるため、モデルの絶対的な評価に繋がらないことに注意してください。 google/ti...

0

17

99

@CurveWeb

はち

6 months

Mistral AI、真のOpen AI Companyでは。モデル利用の出力の所有権がユーザーにあるらしい。これで合成データ作ってみよう。

Tweet media one

0

24

97

@CurveWeb

はち

1 month

Reflection Agentとは、 ① LLMによってタスクの結果を推論 ② 別のモデル（もしくは同じモデル）により推論結果を批評させ、推論結果の修正指示を書かせる ③ 最初に結果を生成したモデルが、その結果を修正というのを複数回繰り返して最終的な結果を生成するAgent Workflowです。

0

16

96

@CurveWeb

はち

5 months

Googleが先週出したLLMの自己改善手法であるReSTEMについて、メモを書きました。合成データ生成手法としてどうかという視点で書いています。論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models｜はち #note

論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models｜はち

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。また、内容には私、GPT、Claudeの見解を含みます。 1. 今回の論文今回は以下の...

1

21

94

@CurveWeb

はち

3 years

ついに完成しました🙌 株価取引時の判断記録を簡単に残していけるようなアプリを作ってます。RT、フォローしていただければ嬉しいです。 #投資家さんと繋がりたい #個人開発 #Curve

Tweet card media

Curve | 株取引、その時の判断を記録しよう。振り返ろう。

1

3

87

@CurveWeb

はち

3 months

MistralAIの新しいコードモデル、22BもさることながらCodestal Mamba 7B強すぎますね。 7-9B帯のこれまでのHumanEvalは50-60%くらいだったのが一気に75%まで押しあがった。

Tweet media one

1

17

89

@CurveWeb

はち

5 months

時系列基盤モデル ④(最終) です。最もサイズが大きく、最も精度良く予測ができました。また、点予測ではなく確率予測を行う点で他モデルと比較してユニークでした。 Google Colabで時系列基盤モデルを試す④：amazon chronos-t5｜はち #note

Tweet card media

Google Colabで時系列基盤モデルを試す④：amazon chronos-t5｜はち

はじめに Google Timesfm、Moment、IBM Graniteに引き続き、HuggingFaceにある商用可能なライセンスの時系列基盤モデルを4つ試し、比較していきたいと思います。利用するデータはETTh1という電力変圧器温度に関する多変量時系列データセットです。事前学習にこのデータが含まれる可能性があるため、モデルの絶対的な評価に繋がらないことに注意してください。...

0

19

89

@CurveWeb

はち

15 days

LLMベースのAgent Systemを自動設計/改善を行う手法でコード生成用のエージェントを設計させてみました。設計の改善過程が確認できつつも、複雑さに上限があるなど課題も見えました。 AIによるエージェントシステムの自動設計：ADASを試してみた｜はち @CurveWeb #note

Tweet card media

AIによるエージェントシステムの自動設計：ADASを試してみた｜はち

はじめに OpenAI o1の登場で、OpenAIの掲げるAGIへの5ステップのうちの2ステップ目まで到達したということが話題になりました。 OpenAIのAGIまでの5ステップというのは、以下のように定義されているようです。CEOのサム・アルトマン氏は、10 年以内にレベル 5 に到達すると予測しています。 conversational AI：ChatGPT reasoning...

1

16

83

@CurveWeb

はち

1 month

Reflaction Agentの実装例（LangGraph） ↓

Tweet card media

Reflection Agents

Reflection is a prompting strategy used to improve the quality and success rate of agents and similar AI systems. This post outlines how to build 3 reflection techniques using LangGraph, including...

blog.langchain.dev

0

7

83

@CurveWeb

はち

7 months

続きを書きました。・BitNetの稼働確認・The S−shape Loss Curveの確認ができました。 BitNet&BitNet b158の実装②｜はち #note

Tweet card media

BitNet&BitNet b158の実装②｜はち

はじめに少し間が空いてしまいましたが、BitNetおよびBitNet b158の実装を続けていこうと思います。ボリュームが大きくなってきたため、ページを分けることとしました。前回までの内容は以下をご参照ください。 2. BitNetの検証今回は、前回作ったBitNetの検証を進めていこうと思います。検証内容としては、 BitLlamaの構築事前学習ができるか（Lossが下がるか）確認...

0

16

78

@CurveWeb

はち

5 months

日本語 x pythonの合成データセットを作成しました。 Mixtral 8x22Bによって作成したのでライセンスはApache2.0です。コード生成だけではなく、修正、説明など幅広いタスクを含みます。今後追加していき、10k recordsほどを目指す予定です。

Tweet card media

HachiML/alpaca_jp_python · Datasets at Hugging Face

0

10

76

@CurveWeb

はち

6 months

うみゆきさん( @umiyuki_ai )、npakaさん( @npaka123 )のコード参照して、Elyza Task 100用のmergekit-evolve構成を使いまわしやすいようGithubにまとめました。

Tweet card media

GitHub - Hajime-Y/mergekit-evolve-elyzatask100: mergekit-evolve for elyza task 100

mergekit-evolve for elyza task 100. Contribute to Hajime-Y/mergekit-evolve-elyzatask100 development by creating an account on GitHub.

0

19

77

@CurveWeb

はち

5 months

試した4つの(商用可能な)時系列基盤モデル・Google Timesfm ・AutonLab Moment ・IBM Granite ・Amazon Chronos-T5 どれもTransformerアーキテクチャだったけれど、時系列なら状態空間モデルのMambaの方が相性良さそう。LLMと違ってRAGとかしないわけだし。

0

5

77

@CurveWeb

はち

6 months

>RP LLMに評価をさせる際に、GPT-4単体よりも、GPT-3.5+Claude Haiku+CohereRの連合に評価させる方が精度面でもコスト面でも良いらしい

0

9

77

@CurveWeb

はち

9 months

軽量なMoE！マージしたExpertsをlow-rankに分解することで、推論時のメモリを80%削減

@prateeky2806

Prateek Yadav

1 year

🚀Struggling with Memory issues in MoE models?😭 Introducing...✨MC-SMoE✨ We merge experts THEN compress/decompose merged experts➡️low-rank. Up to 80% mem reduction! 🎉 w/ @pingzli @KyriectionZhang @yilin_sung @YuCheng3 @mohitban47 @TianlongChen4 🧵👇

Tweet media one

4

74

256

0

15

76

@CurveWeb

はち

5 months

Starling-7b、ゴリゴリにChatGPT, Claude, Llama使ってるのにデータセットもモデルもApache2.0で公開してるの罠過ぎる。

Tweet media one

1

19

74

@CurveWeb

はち

5 months

Phi-3-small, mediumともに商用可のMITライセンスで公開してくれたのがすごい。 Technical report見るとベンチマークによってはsmall > mediumの能力もあるもよう。HumanEval(Coding)はSmallの方が良いのか。数学能力がどれも特に高い（GSM8K）

Tweet media one

1

12

64

@CurveWeb

はち

5 months

Metaが今年1月に出したLLMの自己改善手法であるSelf-Rewardingについて、メモを書きました。 Llama2 70BをGPT-4のような先端モデルや人手なしにPreference-tuningしていく手法になります。論文メモ: Self-Rewarding Language Models｜はち #note

論文メモ: Self-Rewarding Language Models｜はち

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。また、内容には私、GPT、Claudeの見解を含みます。 1. 今回の論文今回は以下の...

0

14

64

@CurveWeb

はち

1 month

多くの場合、推論結果はより良いものになると言われています。【参考】 Self-Reflection： Reflexion：

0

14

62

@CurveWeb

はち

1 month

【Reflection Agentの使い所】 Reflectionは単体で使うと効果が感じられにくいです。（Reflectionなし）80%の精度で3秒（Reflectionあり）95%の精度で1分だと上が選ばれることが多い気がします。一方で、SakanaAIのThe AI Scientistのような複雑な(複数stepsの)ワークフローの場合、1

0

16

57

@CurveWeb

はち

9 months

日本語MoEモデル、jaqket-v2以降のベンチマークも実施。 JGLUEの結果と同様、いいとこ取りができてる。しかも、9つ中5つのベンチマーク(半分以上👀)で元の２つのモデルを上回るスコアに。 Mixture of Experts強力すぎる。軽い気持ちで試してたけど、ちゃんと勉強しよ。

Tweet media one

1

13

57

@CurveWeb

はち

5 months

Googleが一昨日出した新しいオフライン強化学習手法DRO、この間DPOは実はPPOよりもだいぶ性能低い？みたいな論文出した後の論文だから期待したい。 >rp

Tweet card media

Offline Regularised Reinforcement Learning for Large Language...

The dominant framework for alignment of large language models (LLM), whether through reinforcement learning from human feedback or direct preference optimisation, is to learn from preference data....

0

5

56

@CurveWeb

はち

5 months

0-shotでこれはすごいな。モデルサイズが他より大きいのと、事前学習データに含まれていたっていう可能性はあるけど。

Tweet media one

1

5

56

@CurveWeb

はち

5 months

Mixtral 8x22B Instructを用いた日本語pythonデータセットを作成しました。データセットはMixtralによる精査済みで10.9k recordsあります。次はMathデータセットを作れたらと思っています。

Tweet card media

HachiML/alpaca_jp_python · Datasets at Hugging Face

0

10

55

@CurveWeb

はち

5 months

Stockmarkさんの100bモデル、商用利用しやすいMITライセンス！モデルタイプはLlamaで、Vocab sizeは60416。

Tweet media one

0

15

54

@CurveWeb

はち

7 months

論文の報告通り、BitNetよりBitNet b158の方が学習が早かったです。どちらも綺麗にLossが下がりました。（1 epochだったからというのはあるかもしれない。）

Tweet media one

0

8

53

@CurveWeb

はち

4 months

役に立てられるか不明ですが、時系列データに対するInstruction Tuningデータを作成しました。 Timeseries-PILE、Phi-3-mini-4k-instructを使っているのでMITライセンスです。とりあえずsingle turnで160K recordsあります。multi turnも作成中です。

Tweet card media

HachiML/Timeseries-QA · Datasets at Hugging Face

1

8

53

@CurveWeb

はち

1 year

llama-2-13bのJGLUE、反響がそこそこあったのでとりあえずJGLUEのベンチマーク実行したGoogle Colabの内容をHFに置きました。ご参照ください。

Tweet card media

benchmark_jglue/JGLUE_Llama-2-13b-hf-qlora-dolly-ja-2ep.ipynb · HachiML/Llama-2-13b-hf-qlora-doll...

1

10

52

@CurveWeb

はち

7 months

BitNet&BitNet b158の実装：参照まとめ｜はち #note

Tweet card media

BitNet&BitNet b158の実装：参照まとめ｜はち

各ページに都度参照を書いていくと冗長なためここに参考にした資料を置いていきます。参照 BitNet: Scaling 1-bit Transformers for Large Language Models The increasing size of large language models has posed challe arxiv.org The Era of 1-bit LLMs:...

0

8

51

@CurveWeb

はち

18 days

RLHF with Mixture of Judges（Meta） ��答の良し悪しを複数のモデル・ルールで決めさせることで、より正確できめ細かいPreference Tuningが可能になるという手法: Constrained Generative Policy Optimization (CGPO) これによってMATH、Human Eval、ARC、AlpacaEval

Tweet media one

1

7

49

@CurveWeb

はち

6 months

ChatVectorを使って新しいApache2.0のChatモデルを作りました。 ChatVector抽出元のモデルもMixtral-8x7B-Instructによる人工データ(Synthetic Data)で学習されたものなので、隠れたライセンス汚染の心配はありません。

Tweet card media

HachiML/Swallow-MS-7b-v0.1-ChatSkill-LAB · Hugging Face

0

16

50

@CurveWeb

はち

4 months

時系列マルチモーダル、とりあえず学習完了したけど微妙。 Projectorだけの学習でもLossが下がるから可能性はあると思うけど、もう少し簡単なQAで試してみるべきだったかもしれない。

Tweet media one

Tweet media two

0

4

48

@CurveWeb

はち

8 months

Google Colabでの日本語Mambaの事前学習｜はち #note

Tweet card media

Google Colabでの日本語Mambaの事前学習｜はち

はじめに昨年(2023年)末にMambaアーキテクチャが公開されました。 MambaはS4などと同様の状態空間モデルというもので、Transformerと比べて、高速な推論シーケンス長が伸びた際のメモリ効率の良さ単純なモデル性能の良さで優れている様です。日本語モデルがないので、日本語Mambaの事前学習のコードを作成しました。Google colabで動くことは確認したもののA1...

0

16

47

@CurveWeb

はち

6 months

テキストの毒性を分類するllama3モデルも出てる。 OpenAIのModeration APIにあたるやつかな

Tweet card media

meta-llama/Meta-Llama-Guard-2-8B · Hugging Face

0

11

46

@CurveWeb

はち

6 months

Mixtral 8x22B Instructによる日本語合成データ、28.9kで一旦完了にしました。v1.0_cleanedが精査済みです。それと合わせてデータセット名を短いものに修正しました。

Tweet card media

HachiML/Hachi-Alpaca · Datasets at Hugging Face

0

8

46

@CurveWeb

はち

6 months

進化的アルゴリズムをもちいたChatVector加算の最適化｜はち #note

Tweet card media

進化的アルゴリズムをもちいたChatVector加算の最適化｜はち

はじめにこれまで何度かChatVectorやそれに類することを施行してきましたが、元のモデル+ChatVectorの加算はいつも1:1で実施してきました。それでもある程度上手くいっていましたが、この加算比率をSakanaAIのEvoLLMのように最適化するということができるらしいです。ただ、調べた限りコードが落ちていなかったので自分なりに調べて試してみたというのが本記事の内容になります。...

1

15

46

@CurveWeb

はち

7 months

数学的推論能力でもChatVectorと同じような理論が成り立つのか検証しました。結果、上手くいくといって良さそうです。モデルが壊れることもなく計算が可能になりました。 Chat VectorならぬMath Vectorは作れるのか｜はち #note

Tweet card media

Chat VectorならぬMath Vectorは作れるのか｜はち

はじめにこの記事は以下記事の続きになります。 Chat Vectorと呼ばれる、重みの足し引きでFine TuningなしにChat能力を事前学習モデルに付与できるという技術あります。この発想から、Chat能力以外にも能力の切り貼りはできるのかという検証が本記事の趣旨となります。今回は以下の能力について試したいと思います。数学的推論能力結論だけ書くとある程度うまくいきました。検証記...

0

16

44

@CurveWeb

はち

1 month

詳細編を書きました。前回の強化学習の部分を深掘りしました。結論として、 ① 1ステップ毎の即時報酬を計算してサンプリング ② PPOで学習という方策ベースの強化学習が有力だと考えます。 OpenAI o1はどう作るのか（詳細編）｜はち @CurveWeb #note

Tweet card media

OpenAI o1はどう作るのか（詳細編）｜はち

1. はじめに前回、OpenAI o1をどう作るかについて概要レベルで議論しました。 OpenAI o1が新しい強化学習手法を用いて強化されたモデルであることは確実であり、具体的にどういうロジックで学習されているか考えていきたいと思います。強化学習について間違った理解があればご指摘ください。（一応学習はしたものの普段使いしているわけではないので忘れているところもあると思います。） 2....

1

8

45

@CurveWeb

はち

5 months

時系列のFoundation Model試してみてます。 0-shot、Fine Tuningなしでもなんとか予想しようとしている感が伝わってきます。

Tweet media one

0

5

43

@CurveWeb

はち

4 months

時系列データ+TextのMultiModalモデル、とりあえず形だけ作りました。Adapterが未学習&まだちょっとバグありなのでまだ使えません。リファクタリングしつつ、・Momentライブラリに依存してる箇所の修正・学習データ作成をしていきます。

Tweet card media

HachiML/Mists-7B-v0.1-not-trained-test · Hugging Face

0

6

43

@CurveWeb

はち

3 months

WizardLM-2のAuto Evol-Instructについてまとめました。 Evol-Instructのデータ進化のためのプロンプトの調整（プロンプトエンジニアリング）をLLMに任せてしまおうという合成データ生成手法でした。もはやプロンプトを人間が作ることがボトルネックになってきていますね。

Tweet card media

WizardLM-2の開発方法: Auto Evol-Instruct｜はち

はじめに 2024年4月に高い性能を叩き出し、オープンライセンスで公開されたにも関わらずすぐにHugging Faceから消されたWizardLM-2というモデルがあります。（現在、HuggingFace上には非公式のモデルのみ公開されています。短期間公開されていたタイミングにダウンロードされていたのでしょうか。）以下のように高い性能を叩き出したことでWizardLM-2は注目を集めました...

0

13

42

@CurveWeb

はち

7 months

自作BitNet、問題なくLossは下がった。以下にモデル置きました。1epochしか学習してないからちゃんと動かないけども。

Tweet media one

1

8

42

@CurveWeb

はち

6 months

Rho-1 学習するトークンを選別することで事前学習の速度を5-10倍にしたモデル 1bと7bがHuggingFaceにありました。MITライセンス。

microsoft/rho-math-7b-v0.1 · Hugging Face

0

10

40

@CurveWeb

はち

9 months

昨日の日本語MoEモデル、JGLUEスコア調べてみました。完全に元のモデルのいいとこ取りできてる。JNLI（商品レビューのネガポジ判定）に至っては元のどちらのモデルのよりもスコア高くなっているし🤔 Mixture of Expertsの強力さがうかがえますね。

Tweet media one

1

7

40

@CurveWeb

はち

6 months

mergekit-evolveは、Swallow-MSなど語彙拡張しているモデルをmodelsに設定するとエラーを吐きますが、tokenizer_sourceを設定すると対処できます。（通常のmergekitと同様）ちなみにsakanaAIさんのEvoLLMのmerge_methodはdare_tiesっぽいのでこれで試してみてます。

Tweet media one

1

8

40

@CurveWeb

はち

7 months

Chat VectorにならぬCode Vectorは作れるのか｜はち #note

Tweet card media

Chat VectorにならぬCode Vectorは作れるのか｜はち

はじめに Chat Vectorと呼ばれる、重みの足し引きでFine TuningなしにChat能力を事前学習モデルに付与できるという技術あります。事前に訓練されたベースモデル（例えばLLaMA2）の重みから、対応するチャットモデル（例えばLLaMA2-chat）の重みを引くことで得られる。継続的に事前訓練されたモデルの重みにChat Vectorを追加するだけで、さらなる訓練を必要とせず...

0

5

38

@CurveWeb

はち

8 months

1-7. 他要素(STE) を追加しました。今後はBitNetの事前学習を試していこうと思います。 BitNet&BitNet b158の実装について｜はち #note

Tweet card media

BitNet&BitNet b158の実装①｜はち

はじめに先週発表された論文『The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits』は多くの人に衝撃を与えたと思います。それまで量子化とは、有り体に言えば性能を犠牲にメモリ等のコストを抑える手法でした。しかし、BitNet b158(*)では量子化手法としては初めてオリジナルを超える性能を出す可能性を魅せてくれま...

0

5

39

@CurveWeb

はち

6 months

Phi3、miniだけとは言え・128kのコンテキスト長・3.8Bサイズでllama3と同等程度のベンチマークスコア・商用可のMITライセンスなのすごい。

Tweet card media

microsoft/Phi-3-mini-128k-instruct · Hugging Face

0

6

38

@CurveWeb

はち

6 months

Mistral 8x22BはCommand R+と同等くらいか

Tweet media one

0

6

37

@CurveWeb

はち

4 months

先週試してみたTinyな時系列基盤モデル、1週間でDL数が10k→400kになってる。このサイズのモデル選択はBotterの方々かな。時系列基盤モデルは使い道まだ定まっていない気がするから、精度とサイズのバランスがどのあたりが一番有用かわからない。

Tweet card media

ibm-granite/granite-timeseries-ttm-r1 · Hugging Face

0

2

36

@CurveWeb

はち

4 months

今は時系列モデル触ってますが、そのうち言語モデルに戻ってきます。というか時系列+言語のマルチモーダルモデルが作れないか考えてます。 LLMがPython経由で時系列モデル使ってという形でも良いんですけど、マルチモーダルだと人間には読み取れないけどLLMにはわかるって領域になりそう。

0

2

36

@CurveWeb

はち

5 months

Mistral-7B-v0.3を元に、Self-Rewardingを試しました① 結果・ある程度JMT-Benchの総合スコアは上がった・2周(M3まで)で英語バイアスをほぼ除去できた（JMT-Bench80問中英語回答数：25→7→7→2）・強化できる領域が偏った図中の緑が元のモデル → 紫 → オレンジ → 黄色の順番です。（続く）

Tweet media one

2

8

35

@CurveWeb

はち

9 months

Google Colab：Mergekitによる日本語モデルMoEの作成｜はち @TqibXJoFXF5rLRP #note

Tweet card media

Google Colab：Mergekitによる日本語モデルMoEの作成｜はち

0. はじめに Mistral AIによるMixtral -8x7bモデルの成功により、最近MoE（Mixture of Experts）モデルが流行ってきている気がします。他にもPhi-2のMoEであるPhixtual-2x2bとかありましたね。それに倣って、日本語モデルのMoEも作ってみたくなって試してみました。以下が作ってみたモデルです。 HachiML/youri-2x7b_dev...

0

13

36

@CurveWeb

はち

6 months

Mixtral-8x22B-Instruct-v0.1を使って作ったAlpacaデータセット、HuggingFaceに置きました。とりあえず実験的に作ったものなので1000データほどです。より綺麗で多いものに変えていくつもりです。

Tweet card media

HachiML/Hachi-Alpaca · Datasets at Hugging Face

0

7

35

@CurveWeb

はち

5 months

>rp 追加のトレーニングをほとんど(もしくは全く)行わずに、任意のモデルを任意のトークナイザーで使用できるようにする手法ZeTT。 ChatVector やモデルマージのTokenizerによる制限を避けるのに使えそう

0

8

34

@CurveWeb

はち

6 months

- 日本語Baseモデル - 英語Chatモデルで進化的マージして日本語Chatモデル作れるか試してるけど100evalsじゃ全然Chatできるようにならなそう。 EvoLLMで数学できる様になりましたって何だったんだと思ったけど、最適化1000回まわしてるみたい。ここでもコストの問題あるなあ。

Tweet media one

0

11

34

@CurveWeb

はち

9 months

mergekitを使ってMoEモデルを作ってみました。・rinna/youri-7b-instruction ・rinna/youri-7b-chat chatモデルとinstructionモデルを繋げる効果がどのくらいあるかわからないけれど、動くところまで確認できた。時間があればJGLUE試してみる。

Tweet card media

HachiML/youri-2x7b_dev · Hugging Face

0

7

33

@CurveWeb

はち

7 months

bitnetのコード、公式から一部出たとはいえ結局大事なところはgemm_lowbit_kernel(x_quant, w)で隠されてました。それ以外は大体、みんなが作成していた通りになっていそうです。

Tweet card media

unilm/bitnet/The-Era-of-1-bit-LLMs__Training_Tips_Code_FAQ.pdf at master · microsoft/unilm

Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities - microsoft/unilm

0

6

31

@CurveWeb

はち

5 months

モデルサイズが違うので比べるのはどうかとも思うのですが、Phi-3-mediumの日本語性能めちゃめちゃ高いですね。（いくつか英語で返している問題もあったので、盛られてるスコアもあると思います。）

Tweet media one

0

4

32

@CurveWeb

はち

6 months

IBM granite codeの事前学習面白いですね。 20Bを1.6T tokens事前学習したのちに、Self Mergeして34Bにして学習を続けたみたいです。

Tweet media one

0

5

32

@CurveWeb

はち

7 months

自作アーキテクチャのモデルをHuggingFaceにプッシュする方法｜はち #note

Tweet card media

自作アーキテクチャのモデルをHuggingFaceにプッシュする方法｜はち

はじめに現在、私は以下のような試みをしています。その中で、自作アーキテクチャ（Transformersに実装されていない）モデルをHuggingFaceにpushすると、当たり前ではありますがそのアーキテクチャでは重みをloadできないことに気づきました。なので、自作アーキテクチャ（Transformersに実装されていない）モデルをHuggingFaceにpush できる限り簡単に...

0

6

31

@CurveWeb

はち

1 month

WizardLM2の手法をオープンソース化したEvolKitだって。あとで試してみよう。

Tweet card media

GitHub - arcee-ai/EvolKit: EvolKit is an innovative framework designed to automatically enhance the...

EvolKit is an innovative framework designed to automatically enhance the complexity of instructions used for fine-tuning Large Language Models (LLMs). - GitHub - arcee-ai/EvolKit: EvolKit is an in...

0

6

31

@CurveWeb

はち

7 months

BitNetにおけるSTE(Straight-Through Estimator)の実装｜はち #note

Tweet card media

BitNetにおけるSTE(Straight-Through Estimator)の実装｜はち

はじめに現在、私は以下のような試みをしています。 BitNetとは BitNetとはweightとactivationを量子化する手法の1つで、特にweightを{-1, 0, 1}の3値に量子化するBitNet b158はベースとしているLlama2の性能を上回ることを示し、注目を浴びました。その実装の中で、量子化（つまりFloat16や32ではなくより離散的な値を扱う様にする処理）を...

0

10

30

@CurveWeb

はち

1 month

OpenAI o1はo1-miniの完全上位互換というわけでもないのか。 - コード生成能力では、o1-mini > Claude 3.5 sonnet >> o1 - コード補完能力では、o1 = Claude 3.5 sonnet >> o1-mini らしい。 > rp これだとo1-miniで生成→Claude 3.5 sonnetで補完と修正がよさそう。

0

8

29

@CurveWeb

はち

5 months

Mixtralによる合成データ(Stanford Alpaca)作成に使ったコードを少し整形してGithubに置いておきました。何かあればご参照いただけますと幸いです。

0

14

30

@CurveWeb

はち

6 months

Mixtral-8x22Bに作らせたInstructionデータセットを、Mixtral-8x22Bに精査させようとしています。大体これで上手く動きそう。

Tweet media one

Tweet media two

Tweet media three

0

7

30

@CurveWeb

はち

3 years

株価取引時に考えたとこや、売買に至った判断などを簡単に残していけるようなアプリを作ってます。できれば応援、フォローよろしくお願いします🙌 #投資家さんと繋がりたい

Tweet media one

1

1

27

@CurveWeb

はち

1 year

既存日本語ベンチマークについての調査結果｜はち @TqibXJoFXF5rLRP #note

Tweet card media

既存日本語ベンチマークについての調査結果｜はち

LLMの日本語性能を確認するためのベンチマークとして、・現状使われているもの・使えそうなものについて調べてみました。 1. 課題感近年、ChatGPTを筆頭としたLLMの成功・活躍から、多くのLLMが発表されています。英語のモデルに遅れてではありますが、そうした流れを受けて日本語に強いモデルも出てきてはいます。英語モデルは多様な観点でその能力を測るベンチマークが多く整備されています...

0

8

29

@CurveWeb

はち

3 months

社内で使えるllm chat、知らぬ間にllama 3.1 405B InstructもMistral Large 2も追加されてる控えめに言って神です

0

1

29

@CurveWeb

はち

7 months

体感Claude3 Opus、GPT4より性能下がってる。昨日から。

1

8

29

@CurveWeb

はち

8 months

とりあえずbitnet使って120MくらいのBit-Llama2を、TransformersのTrainer使って事前学習できないか試しています。 Lossは下がるよう。

Tweet media one

Tweet media two

0

6

29

@CurveWeb

はち

5 months

Mistral v0.3が出ましたね！今回はBaseモデルとInstructionモデルの両方が公開されてます。vocab sizeが32,000→32,768に地味に増え、Fanction Callingに対応したみたいです。 Baseモデルが出たのはChat Vector勢には嬉しいですね。Fanction Calling Vectorとかできそう。

Tweet card media

mistralai/Mistral-7B-Instruct-v0.3 · Hugging Face

0

9

29

@CurveWeb

はち

5 months

Mixtral 8x22B Instructを用いた日本語Mathデータセット、10.3k recordsのv1.0_cleanedを公開しました。全てPythonを用いて解くようにしています。また、Pythonは全て動くことを確認し、Mixtralの回答と一致することも確認済みです。

Tweet card media

HachiML/alpaca_jp_math · Datasets at Hugging Face

0

8

27

@CurveWeb

はち

5 months

Phi-3はAzureのAPI使ってもMITライセンスで使えるようです。

Tweet media one

0

5

28

@CurveWeb

はち

1 month

Agentで合成データ生成→Tuningに利用という流れは今後もっと増えてきそう。 ReflectionもAgentワークフローの基礎的な手法だし、もっと複雑でタスク毎に特化したものとかも出てきそう。

0

1

28

@CurveWeb

はち

4 years

大学のときに読んだけど、す��いわかりやすかった。

@Pythonist19

おばあちゃんのプログラミング教室（ばあプロ）As A Service

4 years

さて、やるか。

Tweet media one

7

4

194

1

2

27

@CurveWeb

はち

4 months

昨日に引き続き、時系列データに対するInstruction Tuningデータを作成しました。 Timeseries-PILE、Phi-3-medium-4k-instructを使っているのでMITライセンスです。 multi turn含めて320k recoreds。multi turnは2-13 turnsまであります。

Tweet card media

HachiML/Timeseries-QA · Datasets at Hugging Face

0

5

27