はち Profile Banner
はち Profile
はち

@CurveWeb

904
Followers
778
Following
249
Media
2,922
Statuses

IT企業勤務。犬とコーヒーが好き。20代 。 HuggingFace → Note → LLM, Synthetic data(合成データ), Agent Systemについて発言します

Joined March 2021
Don't wanna be here? Send us removal request.
@CurveWeb
はち
5 months
本当だ。 gpt-4o、論文要約してPowerPoint吐いてくれる。前からできたのかな。発表スライドっぽ���してくれました。 (右の添付はPowerPointをGIF化したものです。)
Tweet media one
Tweet media two
4
271
1K
@CurveWeb
はち
4 months
マルチモーダルモデルって、言語とか音声、画像、みたいに人が直接認知できるものに縛られる必要はないと思ってる
0
36
199
@CurveWeb
はち
5 months
>RP 時系列予測モデル最近流行ってる。 先週もApache2.0のモデルが出てた。 今まで時系列は、個別にモデル作ってたけど、時系列もデータあるだけ入れたら言語モデルみたいにある程度あらゆる状況に対応する事前学習モデルが作れたって流れだと思う。
0
20
192
@CurveWeb
はち
1 year
llama2-hfを日本語dollyで2epockほどqlora微調整したモデルを公開しました。 JGLUEスコア平均値 67.23(rinna ppoは59.48)でだいぶ良かったです。 なんとなく感じてましたがllama2強い💪
3
44
185
@CurveWeb
はち
5 months
4つの時系列基盤モデル ・Google Timesfm: 単変量予測 ・AutonLab Moment: 多変量予測 ・IBM Granite: 多変量予測 ・Amazon Chronos-T5: 単変量予測 みたい。Timesfmに関してはアーキテクチャ的にはできるみたいだけど事前学習してないよう。株価予測とかに使うなら多変量の方が良いな。
0
20
179
@CurveWeb
はち
5 months
元々ある時系列予測ライブラリのProphetでは予測できていないので、やはり時系列基盤モデルはすごい。
Tweet media one
0
19
170
@CurveWeb
はち
6 months
予想はしてたけど、もうLlama3のMoEができてる
0
24
137
@CurveWeb
はち
19 days
AnthoropicによるRAG/Contexual Retrievalの紹介 RAG(Embedding/TF-IDFを検索に併用)を拡張したコンテキスト検索という手法が紹介されている。 コンテキスト検索とは、RAGの各チャンクにコンテキスト(文書内でのそのチャンクの役割)を追加する手法。
1
17
136
@CurveWeb
はち
5 months
ChatVectorで7BモデルのFineTuning結果を70Bに転移させるみたいな話、事前学習では既に小さいモデルで事前学習→セルフマージで大モデル化っていうのができているのでなんとなくできて然るべき感ある。
Tweet media one
1
20
112
@CurveWeb
はち
1 month
最高のオープンモデルと謳われているReflection-70Bは ① <thinking>タグでまず推論 ② 推論後の自己反省を<reflection>タグ内でして修正 ③ <output>タグで最終的な回答 という流れで推論するらしい。 なるほど、学習データはReflection Agentで作っているのかな。 > RP
0
17
109
@CurveWeb
はち
5 months
東工大の「大規模言語モデルの開発」、包括的にLLM開発についての情報がまとまってて読みやすいし、とても面白い。 ただ、合成データによる指示チューニングに関してネガティブなのが気になった。この工程での賢くなるというのは知識の獲得ではなく、命令への従い方の獲得なのだと思うのだけれど。
Tweet media one
Tweet media two
Tweet media three
1
15
104
@CurveWeb
はち
6 months
Mistral AI、真のOpen AI Companyでは。 モデル利用の出力の所有権がユーザーにあるらしい。これで合成データ作ってみよう。
Tweet media one
0
24
97
@CurveWeb
はち
1 month
Reflection Agentとは、 ① LLMによってタスクの結果を推論 ② 別のモデル(もしくは同じモデル)により推論結果を批評させ、推論結果の修正指示を書かせる ③ 最初に結果を生成したモデルが、その結果を修正 というのを複数回繰り返して最終的な結果を生成するAgent Workflowです。
0
16
96
@CurveWeb
はち
3 years
ついに完成しました🙌 株価取引時の判断記録を簡単に残していけるようなアプリを作ってます。RT、フォローしていただければ嬉しいです。 #投資家さんと繋がりたい #個人開発 #Curve
1
3
87
@CurveWeb
はち
3 months
MistralAIの新しいコードモデル、22BもさることながらCodestal Mamba 7B強すぎますね。 7-9B帯のこれまでのHumanEvalは50-60%くらいだったのが一気に75%まで押しあがった。
Tweet media one
1
17
89
@CurveWeb
はち
5 months
日本語 x pythonの合成データセットを作成しました。 Mixtral 8x22Bによって作成したのでライセンスはApache2.0です。 コード生成だけではなく、修正、説明など幅広いタスクを含みます。 今後追加していき、10k recordsほどを目指す予定です。
0
10
76
@CurveWeb
はち
6 months
うみゆきさん( @umiyuki_ai )、npakaさん( @npaka123 )のコード参照して、Elyza Task 100用のmergekit-evolve構成を使いまわしやすいようGithubにまとめました。
0
19
77
@CurveWeb
はち
5 months
試した4つの(商用可能な)時系列基盤モデル ・Google Timesfm ・AutonLab Moment ・IBM Granite ・Amazon Chronos-T5 どれもTransformerアーキテクチャだったけれど、時系列なら状態空間モデルのMambaの方が相性良さそう。LLMと違ってRAGとかしないわけだし。
0
5
77
@CurveWeb
はち
6 months
>RP LLMに評価をさせる際に、GPT-4単体よりも、GPT-3.5+Claude Haiku+CohereRの連合に評価させる方が精度面でもコスト面でも良いらしい
0
9
77
@CurveWeb
はち
9 months
軽量なMoE! マージしたExpertsをlow-rankに分解することで、推論時のメモリを80%削減
@prateeky2806
Prateek Yadav
1 year
🚀Struggling with Memory issues in MoE models?😭 Introducing...✨MC-SMoE✨ We merge experts THEN compress/decompose merged experts➡️low-rank. Up to 80% mem reduction! 🎉 w/ @pingzli @KyriectionZhang @yilin_sung @YuCheng3 @mohitban47 @TianlongChen4 🧵👇
Tweet media one
4
74
256
0
15
76
@CurveWeb
はち
5 months
Starling-7b、ゴリゴリにChatGPT, Claude, Llama使ってるのにデータセットもモデルもApache2.0で公開してるの罠過ぎる。
Tweet media one
1
19
74
@CurveWeb
はち
5 months
Phi-3-small, mediumともに商用可のMITライセンスで公開してくれたのがすごい。 Technical report見るとベンチマークによってはsmall > mediumの能力もあるもよう。HumanEval(Coding)はSmallの方が良いのか。 数学能力がどれも特に高い(GSM8K)
Tweet media one
1
12
64
@CurveWeb
はち
1 month
多くの場合、推論結果はより良いものになると言われています。 【参考】 Self-Reflection: Reflexion:
0
14
62
@CurveWeb
はち
1 month
【Reflection Agentの使い所】 Reflectionは単体で使うと効果が感じられにくいです。 (Reflectionなし)80%の精度で3秒 (Reflectionあり)95%の精度で1分 だと上が選ばれることが多い気がします。 一方で、SakanaAIのThe AI Scientistのような複雑な(複数stepsの)ワークフローの場合、1
0
16
57
@CurveWeb
はち
9 months
日本語MoEモデル、jaqket-v2以降のベンチマークも実施。 JGLUEの結果と同様、いいとこ取りができてる。 しかも、9つ中5つのベンチマーク(半分以上👀)で元の2つのモデルを上回るスコアに。 Mixture of Experts強力すぎる。軽い気持ちで試してたけど、ちゃんと勉強しよ。
Tweet media one
1
13
57
@CurveWeb
はち
5 months
Googleが一昨日出した新しいオフライン強化学習手法DRO、この間DPOは実はPPOよりもだいぶ性能低い?みたいな論文出した後の論文だから期待したい。 >rp
0
5
56
@CurveWeb
はち
5 months
0-shotでこれはすごいな。 モデルサイズが他より大きいのと、事前学習データに含まれていたっていう可能性はあるけど。
Tweet media one
1
5
56
@CurveWeb
はち
5 months
Mixtral 8x22B Instructを用いた日本語pythonデータセットを作成しました。 データセットはMixtralによる精査済みで10.9k recordsあります。次はMathデータセットを作れたらと思っています。
0
10
55
@CurveWeb
はち
5 months
Stockmarkさんの100bモデル、商用利用しやすいMITライセンス! モデルタイプはLlamaで、Vocab sizeは60416。
Tweet media one
0
15
54
@CurveWeb
はち
7 months
論文の報告通り、BitNetよりBitNet b158の方が学習が早かったです。どちらも綺麗にLossが下がりました。 (1 epochだったからというのはあるかもしれない。)
Tweet media one
0
8
53
@CurveWeb
はち
4 months
役に立てられるか不明ですが、時系列データに対するInstruction Tuningデータを作成しました。 Timeseries-PILE、Phi-3-mini-4k-instructを使っているのでMITライセンスです。 とりあえずsingle turnで160K recordsあります。multi turnも作成中です。
1
8
53
@CurveWeb
はち
1 year
llama-2-13bのJGLUE、反響がそこそこあったのでとりあえずJGLUEのベンチマーク実行したGoogle Colabの内容をHFに置きました。 ご参照ください。
1
10
52
@CurveWeb
はち
18 days
RLHF with Mixture of Judges(Meta) ��答の良し悪しを複数のモデル・ルールで決めさせることで、より正確できめ細かいPreference Tuningが可能になるという手法: Constrained Generative Policy Optimization (CGPO) これによってMATH、Human Eval、ARC、AlpacaEval
Tweet media one
1
7
49
@CurveWeb
はち
6 months
ChatVectorを使って新しいApache2.0のChatモデルを作りました。 ChatVector抽出元のモデルもMixtral-8x7B-Instructによる人工データ(Synthetic Data)で学習されたものなので、隠れたライセンス汚染の心配はありません。
0
16
50
@CurveWeb
はち
4 months
時系列マルチモーダル、とりあえず学習完了したけど微妙。 Projectorだけの学習でもLossが下がるから可能性はあると思うけど、もう少し簡単なQAで試してみるべきだったかもしれない。
Tweet media one
Tweet media two
0
4
48
@CurveWeb
はち
6 months
テキストの毒性を分類するllama3モデルも出てる。 OpenAIのModeration APIにあたるやつかな
0
11
46
@CurveWeb
はち
6 months
Mixtral 8x22B Instructによる日本語合成データ、28.9kで一旦完了にしました。v1.0_cleanedが精査済みです。 それと合わせてデータセット名を短いものに修正しました。
0
8
46
@CurveWeb
はち
5 months
時系列のFoundation Model試してみてます。 0-shot、Fine Tuningなしでもなんとか予想しようとしている感が伝わってきます。
Tweet media one
0
5
43
@CurveWeb
はち
4 months
時系列データ+TextのMultiModalモデル、とりあえず形だけ作りました。Adapterが未学習&まだちょっとバグありなのでまだ使えません。 リファクタリングしつつ、 ・Momentライブラリに依存してる箇所の修正 ・学習データ作成 をしていきます。
0
6
43
@CurveWeb
はち
7 months
自作BitNet、問題なくLossは下がった。 以下にモデル置きました。1epochしか学習してないからちゃんと動かないけども。
Tweet media one
1
8
42
@CurveWeb
はち
6 months
Rho-1 学習するトークンを選別することで事前学習の速度を5-10倍にしたモデル 1bと7bがHuggingFaceにありました。MITライセンス。
0
10
40
@CurveWeb
はち
9 months
昨日の日本語MoEモデル、JGLUEスコア調べてみました。 完全に元のモデルのいいとこ取りできてる。JNLI(商品レビューのネガポジ判定)に至っては元のどちらのモデルのよりもスコア高くなっているし🤔 Mixture of Expertsの強力さがうかがえますね。
Tweet media one
1
7
40
@CurveWeb
はち
6 months
mergekit-evolveは、Swallow-MSなど語彙拡張しているモデルをmodelsに設定するとエラーを吐きますが、tokenizer_sourceを設定すると対処できます。(通常のmergekitと同様) ちなみにsakanaAIさんのEvoLLMのmerge_methodはdare_tiesっぽいのでこれで試してみてます。
Tweet media one
1
8
40
@CurveWeb
はち
6 months
Phi3、miniだけとは言え ・128kのコンテキスト長 ・3.8Bサイズでllama3と同等程度のベンチマークスコア ・商用可のMITライセンス なのすごい。
0
6
38
@CurveWeb
はち
6 months
Mistral 8x22BはCommand R+と同等くらいか
Tweet media one
0
6
37
@CurveWeb
はち
4 months
先週試してみたTinyな時系列基盤モデル、1週間でDL数が10k→400kになってる。このサイズのモデル選択はBotterの方々かな。 時系列基盤モデルは使い道まだ定まっていない気がするから、精度とサイズのバランスがどのあたりが一番有用かわからない。
0
2
36
@CurveWeb
はち
4 months
今は時系列モデル触ってますが、そのうち言語モデルに戻ってきます。 というか時系列+言語のマルチモーダルモデルが作れないか考えてます。 LLMがPython経由で時系列モデル使ってという形でも良いんですけど、マルチモーダルだと人間には読み取れないけどLLMにはわかるって領域になりそう。
0
2
36
@CurveWeb
はち
5 months
Mistral-7B-v0.3を元に、Self-Rewardingを試しました① 結果 ・ある程度JMT-Benchの総合スコアは上がった ・2周(M3まで)で英語バイアスをほぼ除去できた(JMT-Bench80問中英語回答数:25→7→7→2) ・強化できる領域が偏った 図中の緑が元のモデル → 紫 → オレンジ → 黄色 の順番です。(続く)
Tweet media one
2
8
35
@CurveWeb
はち
6 months
Mixtral-8x22B-Instruct-v0.1を使って作ったAlpacaデータセット、HuggingFaceに置きました。 とりあえず実験的に作ったものなので1000データほどです。より綺麗で多いものに変えていくつもりです。
0
7
35
@CurveWeb
はち
5 months
>rp 追加のトレーニングをほとんど(もしくは全く)行わずに、任意のモデルを任意のトークナイザーで使用できるようにする手法ZeTT。 ChatVector やモデルマージのTokenizerによる制限を避けるのに使えそう
0
8
34
@CurveWeb
はち
6 months
- 日本語Baseモデル - 英語Chatモデル で進化的マージして日本語Chatモデル作れるか試してるけど100evalsじゃ全然Chatできるようにならなそう。 EvoLLMで数学できる様になりましたって何だったんだと思ったけど、最適化1000回まわしてるみたい。ここでもコストの問題あるなあ。
Tweet media one
0
11
34
@CurveWeb
はち
9 months
mergekitを使ってMoEモデルを作ってみました。 ・rinna/youri-7b-instruction ・rinna/youri-7b-chat chatモデルとinstructionモデルを繋げる効果がどのくらいあるかわからないけれど、動くところまで確認できた。 時間があればJGLUE試してみる。
0
7
33
@CurveWeb
はち
7 months
bitnetのコード、公式から一部出たとはいえ結局大事なところはgemm_lowbit_kernel(x_quant, w)で隠されてました。 それ以外は大体、みんなが作成していた通りになっていそうです。
0
6
31
@CurveWeb
はち
5 months
モデルサイズが違うので比べるのはどうかとも思うのですが、Phi-3-mediumの日本語性能めちゃめちゃ高いですね。 (いくつか英語で返している問題もあったので、盛られてるスコアもあると思います。)
Tweet media one
0
4
32
@CurveWeb
はち
6 months
IBM granite codeの事前学習面白いですね。 20Bを1.6T tokens事前学習したのちに、Self Mergeして34Bにして学習を続けたみたいです。
Tweet media one
0
5
32
@CurveWeb
はち
1 month
OpenAI o1はo1-miniの完全上位互換というわけでもないのか。 - コード生成能力では、o1-mini > Claude 3.5 sonnet >> o1 - コード補完能力では、o1 = Claude 3.5 sonnet >> o1-mini らしい。 > rp これだとo1-miniで生成→Claude 3.5 sonnetで補完と修正がよさそう。
0
8
29
@CurveWeb
はち
5 months
Mixtralによる合成データ(Stanford Alpaca)作成に使ったコードを少し整形してGithubに置いておきました。 何かあればご参照いただけますと幸いです。
0
14
30
@CurveWeb
はち
6 months
Mixtral-8x22Bに作らせたInstructionデータセットを、Mixtral-8x22Bに精査させようとしています。 大体これで上手く動きそう。
Tweet media one
Tweet media two
Tweet media three
0
7
30
@CurveWeb
はち
3 years
株価取引時に考えたとこや、売買に至った判断などを簡単に残していけるようなアプリを作ってます。 できれば応援、フォローよろしくお願いします🙌 #投資家さんと繋がりたい
Tweet media one
1
1
27
@CurveWeb
はち
3 months
社内で使えるllm chat、知らぬ間にllama 3.1 405B InstructもMistral Large 2も追加されてる 控えめに言って神です
0
1
29
@CurveWeb
はち
7 months
体感Claude3 Opus、GPT4より性能下がってる。昨日から。
1
8
29
@CurveWeb
はち
8 months
とりあえずbitnet使って120MくらいのBit-Llama2を、TransformersのTrainer使って事前学習できないか試しています。 Lossは下がるよう。
Tweet media one
Tweet media two
0
6
29
@CurveWeb
はち
5 months
Mistral v0.3が出ましたね! 今回はBaseモデルとInstructionモデルの両方が公開されてます。vocab sizeが32,000→32,768に地味に増え、Fanction Callingに対応したみたいです。 Baseモデルが出たのはChat Vector勢には嬉しいですね。Fanction Calling Vectorとかできそう。
0
9
29
@CurveWeb
はち
5 months
Mixtral 8x22B Instructを用いた日本語Mathデータセット、10.3k recordsのv1.0_cleanedを公開しました。 全てPythonを用いて解くようにしています。 また、Pythonは全て動くことを確認し、Mixtralの回答と一致することも確認済みです。
0
8
27
@CurveWeb
はち
5 months
Phi-3はAzureのAPI使ってもMITライセンスで使えるようです。
Tweet media one
0
5
28
@CurveWeb
はち
1 month
Agentで合成データ生成→Tuningに利用という流れは今後もっと増えてきそう。 ReflectionもAgentワークフローの基礎的な手法だし、もっと複雑でタスク毎に特化したものとかも出てきそう。
0
1
28
@CurveWeb
はち
4 years
大学のときに読んだけど、す���いわかりやすかった。
@Pythonist19
おばあちゃんのプログラミング教室(ばあプロ)As A Service
4 years
さて、やるか。
Tweet media one
7
4
194
1
2
27
@CurveWeb
はち
4 months
昨日に引き続き、時系列データに対するInstruction Tuningデータを作成しました。 Timeseries-PILE、Phi-3-medium-4k-instructを使っているのでMITライセンスです。 multi turn含めて320k recoreds。multi turnは2-13 turnsまであります。
0
5
27