Jack Profile
Jack

@sakata_ryuji

3,112
Followers
435
Following
34
Media
1,265
Statuses

データ分析に関する見聞を広めるために開設。 Kaggle Competitions Grandmaster (2019/06) 著書: Kaggleで勝つデータ分析の技術 (2019/10) AtCoder水色 (2022/12)

Joined June 2017
Don't wanna be here? Send us removal request.
@sakata_ryuji
Jack
7 years
会社の英語研修でネイティブから教えてもらったこと ・Frankly speakingは絶対使うな(極めて敵対的な表現) ・You had betterは絶対使うな(高圧的な命令口調) ・挨拶にfineという単語を使うのは不自然(ネイティブはまず使わない) 日本の英語教育とは一体…
19
5K
8K
@sakata_ryuji
Jack
2 years
「5回勝負して4回勝つ人」と「100回勝負して60回勝つ人」の話、個人的にはすごく示唆に富んでいると思っていて、ざっと観測した感じでも、 ①事前分布を一様分布としてベイズ推定すると前者のほうが明らかに右側に寄っているので、前者が優秀 (続)
21
1K
6K
@sakata_ryuji
Jack
2 years
95%信頼区間を「95%の確率でその中に真の値を含む」と解釈するのが間違いな理由について、だいぶ自分の中の理解がクリアになったので、備忘録的に書いておく。
1
227
2K
@sakata_ryuji
Jack
2 years
結局のところ、分析の結果得られた主張というのは、どのようにしてその結果が得られたかというプロセスとセットで捉えないと意味が無く、その裏返しとして、分析のディテール抜きに結論だけが独り歩きすることがいかに危ういかということを、再確認した気がする。
3
404
2K
@sakata_ryuji
Jack
2 years
②勝率5割としてカイ二乗検定で適合度の検定を行うと後者だけが有意水準5%で有意となるので、後者が優秀 ③フィッシャーの正確確率検定で有意差が出ないので、どちらが優秀かは言えない という一見矛盾する3つの主張が存在する。 (続)
1
315
1K
@sakata_ryuji
Jack
2 years
どの主張にも一定の合理性があるし、そもそも前提や見ているものが微妙に違うので、見方によってはどれも正しいと言えるのだと(少なくとも自分の理解では)思う。 (続)
1
175
913
@sakata_ryuji
Jack
6 years
自分がKaggleをやった恩恵として感じるのは、ビジネス的な課題とデータが提示されたときに、そもそも解ける問題なのか、あるいは追加すべきデータはないかといった判断や、分析設計、特徴量の見当付け、簡易的なモデル作成と評価、までの流れが爆速で行えるということ。最近仕事をしていてよく思う。
1
89
415
@sakata_ryuji
Jack
5 years
著者陣が誰かわからないという声もありましたので、宣伝がてら。 門脇 大輔: threecourse 阪田 隆司: Jack 保坂 桂佑: hskksk 平松 雄司: Maxwell 既にご予約いただいている方も多く、大変ありがとうございます。 電子版も同時発売予定です。
0
72
375
@sakata_ryuji
Jack
7 years
まさかこんなに拡散することになろうとは夢にも思わなんだ…。 なのでちゃんと補足をしておくと、講師はAmericanでした。いただいた反応を見るに、英国圏では普通にfineを使うようですね。また一つ勉強になりました。
1
385
310
@sakata_ryuji
Jack
3 years
Time Seriesに対するGBDTとNNの話題が出ていたので、少し自分の理解を言語化しておこうと思う。(多くの人が感覚的にわかっていることだと思うけど。)
1
29
306
@sakata_ryuji
Jack
1 year
feature importanceで特徴量選択を行うのは、改めて相当注意しないといけないと感じた。CVでimportanceの平均を取って特徴量選択を行うと不当にCVが上がる、つまりリークする。なので、バリデーションの際はfold毎に特徴量選択を行う必要がある。ここは今後も注意したい。
0
18
302
@sakata_ryuji
Jack
5 years
既にお祝いの言葉を多数いただいておりますが、この度Kaggle Grandmasterになりました! これにて、ノートPCで目指せGrandmaster生活、終了です。(最後はKernelコンペなので関係無いけど。) これまで応援してくださった皆様、ありがとうございました。今後ともよろしくお願いします!
2
18
266
@sakata_ryuji
Jack
4 years
今度は初級者向けです。上級者の皆様におかれましては、特に役に立つ内容では無いです。
0
20
217
@sakata_ryuji
Jack
2 years
@crypto_bigbang 全くご指摘の通りで、ツイートした後に気付きました。ここは二項検定を用いるべきですね。 カイ二乗検定の場合、p値はそれぞれ0.180, 0.046だったのに対し、二項検定だとそれぞれ0.375, 0.057となりました。傾向としては同じですが、5%水準だと厳密には後者も有意ではなくなってしまいますね。
1
42
199
@sakata_ryuji
Jack
4 years
ということで、書いてみました。
0
28
176
@sakata_ryuji
Jack
2 years
「因果推論の科学」を読み進めているけど、この辺りにあまり詳しくなかった自分にとっては衝撃的とも言える内容で、めちゃくちゃ面白い。技術書というよりは読み物だけど、データサイエンスに関する視野が一気に広がった気がする。文字ばかりの本を読むのが嫌いな自分でも読むのが止まらない。
0
18
168
@sakata_ryuji
Jack
1 year
PSPソロ金フィニッシュ。不安はあったけど、sub数少ないし、shake-upで上がるだろうと期待してた。 他の参加者勢の皆様も、長期間お疲れ様でした!
Tweet media one
20
3
171
@sakata_ryuji
Jack
4 years
今朝、第二子が誕生しました。一人目もまだ1歳2ヶ月なので、これからかなりハードな生活が予想されますが、がんばりたいと思います!
14
0
156
@sakata_ryuji
Jack
5 years
私事で恐縮ですが、本日朝、第一子が無事誕生しました。これからより一層、タイムマネジメントが重要課題になりそうです…!
18
3
148
@sakata_ryuji
Jack
11 months
睡眠コンペ、ギリギリで金を逃しました。届くとは思っていなかったけど、やはり悔しい。 今回はNNに本格的に取り組んだこともあり、とても学びが多かった。でもNNの気持ちはやっぱりよくわからないので、私はGBDTが本職でいいです。
Tweet media one
7
5
147
@sakata_ryuji
Jack
5 years
GBDTでearly_stoppingは(少なくともKaggler界隈では)常識だけど、一部の方が言及しているように、バリデーションデータにとって都合のいいところで切るので、性能をやや過剰に見積もってしまうリスクはある。以下、それに関する見解を少し。
1
13
133
@sakata_ryuji
Jack
5 years
ここらでDSBのsolution概要をちゃんと書いておく。 ・XGBoostによる回帰(LightGBMでは同等の精度出ず) ・QWKの連続近似とcustom_objによる直接の最適化 ・validationはtruncateする代わりに1/assessment数で重み付けすることで算出(なぜか採用している人が少なかった) ・アンサンブルについては次
1
19
135
@sakata_ryuji
Jack
5 years
Instant Gratificationお疲れ様でした。Solutionを早速公開しましたが、flip以外は既に完全に予測できているので、上位陣は運ゲーであったことがわかります。
33
16
123
@sakata_ryuji
Jack
1 year
私の発表資料とKaggle Notebookのリンクです。 #関西Kaggler会
0
13
129
@sakata_ryuji
Jack
1 year
弁財天~第2幕~、優勝しました!対戦いただいた方々、聴いていただいた皆様、ありがとうございました!! #benzaiten
2
17
123
@sakata_ryuji
Jack
6 years
多重共線性というよりは、下位互換的な特徴を入れると上位の特徴の説明力を食って精度が下がることはある、という認識を持っている。 なので自分は割と特徴選択に気を遣っているが、ただここは、Kagglerの中でも意見が割れている気がする。 (まぁマシンスペックの制限の方が支配的ではあるけれど。)
@willyoes
Willy OES ☀
6 years
Kaggleの勉強会やってて、同僚の統計屋が「多重共線性を解消すべき」と言うんで、次元下げるためのPCAとかはまだしも個別変数の多重共線性など気にする必要はないと言ったんですが、みなさんどうしてます?
3
15
80
0
32
120
@sakata_ryuji
Jack
5 years
自身のsolutionで一番のポイントだと思ってるのは、QWKを連続関数で近似して中間的な予測結果をちゃんと評価に組み込めるようにしたことと、その関数を微分してxgbのcustom_objに突っ込んでQWKを直に最適化しにいったことですね。
0
10
122
@sakata_ryuji
Jack
1 year
ICRコンペが運ゲーだったことにより、スモールデータの分析はKaggleのような取り組みとは相性が悪く、全くの別物で知見もあまり役に立たない、みたいに思ってしまう人が、もしかしたらいるかもしれません。ですが、私自身の経験から言うと、そうとは限らないということを少し述べます。
1
5
122
@sakata_ryuji
Jack
2 years
ここで、Bさんが1回だけサイコロを振って、Aさんの思い浮かべた数と一致する確率は、と聞かれたときに、油断すると1/6と答えそうになるが、これは誤り。なぜなら、Aさんが6つの目をどのような確率で思い浮かべるかが与えられていないから。(Aさんの思考の癖とBさんの出目次第でいかようにも変わる。)
4
5
118
@sakata_ryuji
Jack
6 years
これは自分がXGBoostのパラメータチューニングの勘所を掴んでいるからこそ言えることなんだけども、  ・説明変数のスケールや分布を気にしなくてよい  ・説明変数の外れ値に頑健  ・説明変数の欠損を気にしなくてよい という観点で、ちょっと試してみるのにはすごくお手軽なんですよね。
1
14
117
@sakata_ryuji
Jack
2 years
区間推定とは全く別の文脈だが、Aさんが1~6の数字を思い浮かべた後、Bさんが偏りの無いサイコロを振る、という状況を考える。Bさんがサイコロを何回も振ったとき、Aさんが思い浮かべた数と一致する割合は、1/6である。これはいい。
1
6
109
@sakata_ryuji
Jack
5 years
DSB、約1200shake upの暫定金圏。後出しで恐縮ですが、運が悪くても100位以内は確実、上は15位ぐらいまであると思ってたので、ほぼ読み通りの結果でした。
6
12
112
@sakata_ryuji
Jack
11 months
睡眠コンペ、既に上位の皆さんが珠玉の解法を共有してくださってるので、今更感がありますが、振り返りも兼ねて、つらつらと書いてみます。本来であればDiscussionに書くべきところではあるが、できればコードと合わせて公開したいので、まずはこちらで先に。
1
5
106
@sakata_ryuji
Jack
2 years
遅ればせながら、Ottoのソリューションを公開しました。toshi_kさんのGNNは、今回のコンペではかなりユニークなアプローチなので、必見ですよー。
0
7
105
@sakata_ryuji
Jack
2 years
つまり、上のような状況では、そのような確率を議論すること自体ができない。信頼区間を1回だけ求めたときに、冒頭のように誤解するということは、本質的にはこれと同じはず。Ken McAlinn氏がこちらのツイートで言われているのは、こういうことだと理解している。
@kenmcalinn
Ken McAlinn
2 years
大事なのは「その」信頼区間に関しては確率的な表現はできなくて「そのような」信頼区間の集つまりがあった(想定した)場合に初めて確率的な表現ができるってことだと思う。だから我々が扱う(データから計算した)信頼区間「は」確率ではない(1か0だから)。
1
18
143
1
4
103
@sakata_ryuji
Jack
5 years
文脈はちょっと違うけど、Kaggleで勝つために絶対必要なのって、こういうことだよなぁ、と思っている。自分なりに仮説を立てて実行し、思い通りの改善が得られなければすぐ次に行かず、なぜうまく行かなかったのかを徹底的に考え抜いて自分を納得させる。その繰り返しが自分の感覚を洗練させていく。
@shunji_umetani
Umepon
5 years
学生との打合せで「言われた通りにやってきましたが上手く行きませんでした(終了)」となると凹む。試行錯誤を繰り返して、なぜ上手く行かないのか、どうすれば上手く行くのかを追求するのが研究なんだけどなあと。せめてデータを見せてくれないと議論のしようもないし、どないせえっちゅうねん。
1
86
302
0
8
105
@sakata_ryuji
Jack
5 years
これは仕事上でも普通に遭遇した。結局、GBDTの動作原理を、数理的でなくても、イメージとしてちゃんと理解できてるかってことだと思う。それが無いと、恐らく他のパラメータと区別が付かない。 要は、アルゴリズムに対する最低限の理解は何であれ必要で、単にツールを使えるだけじゃ不十分ってこと。
@mamas16k
まますさん
5 years
もはやkaggler以外全員これやってるのでは?説が高いな。でもこれをやる人も何故かNNの学習時にはちゃんとearly stoppingするんだよな
0
4
30
0
9
101
@sakata_ryuji
Jack
3 years
なるほど、この考えは確かに合理性ある。自分は、基本K-Fold CVなので、その分特徴選択には毎度かなり気を遣っていて、Importanceで機械的に特徴選択するようなことはあまりやらないようにしてる。(自分は、特徴選択は計算時間を減らすため、という認識があまり無いので、結構時間をかけている。)
@mamas16k
まますさん
3 years
K-Fold CV、特徴選択時に使うと激しくoverfitするという地獄に気付いてからあまり使わないようになった。foldごとに特徴変えるのは地獄過ぎるからなあ。
1
5
137
1
4
100
@sakata_ryuji
Jack
4 years
家が建ちました。本日をもって大阪を脱出します!
2
0
97
@sakata_ryuji
Jack
3 years
準優勝でしたが、まぁやり切ったので悔いは無い。まます氏との議論は刺激的でとても楽しかったです。チームに誘っていただいたまます氏をはじめ、チームメンバーの方々に感謝です。ありがとうございました。ちゃんと一定の貢献が出来てよかったです。
@mamas16k
まますさん
3 years
Indoor、準優勝でした!本当に最高のチームで、もし誰か一人でも欠けていたらこの結果は出ていなかったと思います。応援して下さった皆様もありがとうございました。
Tweet media one
20
5
271
3
1
95
@sakata_ryuji
Jack
6 years
本日の私のLT資料です。この辺りはあくまで経験則なので、引き続きしっかり検証していきたいです。 ともあれ今日もとても楽しかったです、皆様ありがとうございました! #kaggle_tokyo
1
17
93
@sakata_ryuji
Jack
11 months
sklearnのLinearRegressionは何も言わずにこっちの解を返してくるので、特に機械学習の側から入門した初学者は多重共線性の問題を実体験として理解しにくいという側面がある気がする。(なので、Pythonでその辺りの内容を教えたいときはstatsmodelsのOLSを使っている。)
@0_u0
Kien Y. Knot😵‍💫
11 months
完全な多重共線性がある場合も含めた線形回帰係数推定量の一般形とその性質|畳屋民也 #zenn ムーア・ペンローズ逆行列を使った最小二乗推定量とRidge推定量との関係はこれが所見だわ
1
22
191
0
10
97
@sakata_ryuji
Jack
3 years
ここらで自分なりにIndoorコンペを振り返っておく。 Discussionにも書いた通り、自分の解法の肝は、位置座標の推定を回帰ではなく多クラス分類として解いたこと。一見、けったいなアプローチに見えるかもしれないが、自分なりにちゃんとしたロジックがあり、割と自然とこのアプローチに辿り着いた。
1
2
93
@sakata_ryuji
Jack
5 years
permutation importanceは例えばxgboostとかのimportanceと比較して見比べるのも結構いろんな示唆が得られる。例えば、時系列データのようにtrainとtestで性質が変わりがちな状況で、どの特徴でtrainに過学習してるのかが何となくわかるので、それを解消するように特徴を変えられないか考えたり。
1
6
92
@sakata_ryuji
Jack
5 years
Kaggle Master生活に終止符を打ちたい。
Tweet media one
1
6
86
@sakata_ryuji
Jack
5 years
理論的な理解が深い方がいいのは間違い無いけど、そこを理由にマウンティングのような発言をしている人を見ると、自分の価値観が絶対だと思い込んでいるか、違う立場の人へのリスペクトができない人なんだなぁ、と思ってしまいます。
0
5
85
@sakata_ryuji
Jack
2 years
社のブログで社内MLコンペに関する記事を書きました。思い切ってデータも公開しています!
@panasonic_ai
Panasonic×AI|パナソニックの人工知能研究開発
2 years
Kaggle Grandmasterの阪田が監修した社内向け機械学習コンペティションに関する記事を大公開!概要・裏話に加えてデータセットも公開していますので、夏季休暇のおともに是非腕試ししてみてください #AI #機械学習 #データサイエンス
0
46
290
0
8
86
@sakata_ryuji
Jack
6 years
特徴量作成で同じロジックを別の人間が書き、片方の実行時間は10時間以上で、もう片方はわずか2, 3秒、という事例に直面した。 経験やスキルによってこれほどのパフォーマンスの差が生じうるのだが、そもそも同じ処理を複数の人間が書くことなど稀なので、これを外から認識するのはなかなか難しい。
1
12
87
@sakata_ryuji
Jack
2 years
因果推論には大きくPearl流とRubin流があるのだが、あまり前提知識が無い状態で「因果推論の科学」を読んだので、Pearl信者になってしまいそう。ということで、同氏の「入門 統計的因果推論」を会社で購入。
1
10
83
@sakata_ryuji
Jack
1 year
Precision: 正例と予測したものの内、真に正例だったものの割合=どれだけ誤検知が少ないか Recall: 真に正例だったものの内、どれだけ正例と予測できたか=どれだけ見逃しが少ないか 個人的には、「意味」の理解が大事だと思っているので、どちらかというと言葉メインで説明するようにしている。
@mushoku_swe
都内のソフトウェアエンジニア
1 year
機械学習の評価指標のRecallとPrecisionをビジネスメンバーやクライアントに説明するのが以外と難しい。 日本語で説明すると、ややこしくなって混乱を招いてしまう。 私は常にベン図を使って説明するようにしている。 ROCAUCやPRAUCの方がグラフで見せることができるので、わかりやすいかも(多分)
0
1
27
2
7
85
@sakata_ryuji
Jack
5 years
何かtarget encoding最強みたいな発表になっちゃいましたけど、カテゴリによってデータの性質が大きく変わる場合は、out-of-foldで計算してる影響でカテゴリを分離できなくなっちゃうので、他のencodeより不利になると思っています。 #kaggledaystokyo
0
8
82
@sakata_ryuji
Jack
1 year
引き続きatma #15 の検証中。当然のようにuser_idとanime_idをcategorical_featureとしてLightGBMを学習していたが、どうやらこれが一番の敗因らしい。これらを抜くだけでスコア0.02ぐらい上がって、一気にTop10見えるぐらいになった。逆に3位のソリューションにこれらを入れると、大きくスコア悪化。
1
2
82
@sakata_ryuji
Jack
5 years
自分は、データサイエンティストの仕事が奪われる系の発言こそAutoML系のポジショントークだと感じるけどなぁ。 実経験無しでは不可能だとは思ってないけど、実際に問題設定と機械学習を分業したことでアプローチが筋違いになってしまいがちという声は実際にある。
@tdualdir
tdual(ティーデュアル)@MatrixFlow
5 years
実際に手を動かして勘所が分かっている人間しかデータサイエンスの問題点設定が出来ないとポジョントーク抜きにして本当にそう思ってるならどうしようもないよな。運転免許を持ってないと車の製造が出来ないレベルの妄言だと自分で気付かないのかな?
1
9
32
1
16
80
@sakata_ryuji
Jack
5 years
今日から約3ヶ月の育休に突入します!使えるものは使っていく所存。
0
1
80
@sakata_ryuji
Jack
6 years
要は、コンペが始まって大体最初の数日間でやってしまうこと。コンペだとその後の幾多の試行錯誤があってこそ上位を狙えるわけだけど、ビジネスにおいては、むしろそこまでの初手がすごく重要な意味を持つと思っている。
0
18
80
@sakata_ryuji
Jack
5 years
ちなみに妻からは、17位なのに何でそんなに称賛されてんの?という厳しいお言葉でした。(常に全力で応援してくれているからこその辛口コメントです。)
0
1
80
@sakata_ryuji
Jack
2 years
@tomoking19937 コメントありがとうございます。①の主張では有意かどうかまでは踏み込んでおらず、分布の形状から定性的に前者が優秀だ、という文脈でした。もちろん、②と比較する前提なら条件を合わせるべきと思いますが、そこの差異も含めて、導かれる結論に差が生じうる、という主旨とご理解いただければ…。
0
16
78
@sakata_ryuji
Jack
3 years
今日親に初めてKaggle本書いてたこと言ったら、「なんでそういうこと言わへんの!」って言われてしまった。そりゃそうか。すまん。
0
3
79
@sakata_ryuji
Jack
11 months
そういえば、sklearnのLassoやElasticNetは、誤差項をデータ数Nで割ってから正則化項を足すけど、RidgeはNで割らないんですよね。なので、同じalphaの値でも、正則化のインパクトがてんで違う。非本質的な話ではあるけど、結構罠だと思う。(多分、教科書的な記述と整合性を取るためなんだろうけど。)
0
3
81
@sakata_ryuji
Jack
3 years
「ビジネスにつなげる力」が大事というのは完全同意だけど、それを盾に高い技術を持つ人たちや技術そのものを軽視する人がいたら、それが一番害悪なんじゃないかな、と個人的には思う。
0
4
76
@sakata_ryuji
Jack
4 years
ソロでやり切りたい気持ちもあったのですが、せっかくの機会なので、まますteamにjoinさせていただきました!絶対優勝します!
0
1
77
@sakata_ryuji
Jack
4 years
自分の現状の見解は、以下の通り。 ・Kaggle 原義: testに適した特徴選択やハイパラチューニングが期待できる(自分はやらない) 広義: train/test間の分布差を考察するのに使える(たまにやる) ・実務 原義: 無理やり捻り出さない限り使い道無さそう 広義 : 運用モデルの精度低下の考察などに使える
0
14
76
@sakata_ryuji
Jack
5 years
DSB参戦
Tweet media one
0
5
75
@sakata_ryuji
Jack
5 years
この辺りちゃんと理解したくて調べてみたら、以下に割と詳しめに載ってたのでシェア。
@atksh1
atksh
5 years
線形回帰に撹乱項の正規性の仮定はマストではなくて(OLS推定量が最良線形不偏推定量だってことの証明には、正規性はいらない)、検定をやりたいときに正規性の仮定が必要になるだけって認識だけど(CLRMとCNLRMの違い)
1
5
45
1
7
74
@sakata_ryuji
Jack
11 months
睡眠コンペのソリューション、やっと書けました。notebookも公開しています。(みんなソリューション書くの速くない…?)
0
0
74
@sakata_ryuji
Jack
2 years
ここで、Aさんが思い浮かべる目の確率を事前分布として与えることによって、はじめてその確率を議論できる。例えば、均等に1/6とすれば、Bさんの出目によって一致する確率は変わらないので、その確率は1/6となり、Bさんが何回もサイコロを振ったときの確率と一致する。
1
3
71
@sakata_ryuji
Jack
7 years
今日はとても楽しい時間をありがとうございました、関西からはるばる来てよかったです!以下、私の発表資料です! #kaggle_tokyo
1
18
73
@sakata_ryuji
Jack
1 year
リークというよりは、ターゲットのlagが支配的に効いてしまっている状況に見える。モデルがイマイチな可能性もあるけど、根本的に予測が難しいタスクだと何使ってもこんな感じになりうる。(あと、ここは既存手法を同じデータで再現実装・評価した部分なので、少なくとも著者に落ち度は無いかと。)
@nekoumei
nekoumei
1 year
え、これleakしてない…?前のperiodの値をそのまま予測値としてるように見える
1
20
153
1
8
73
@sakata_ryuji
Jack
3 years
少しやってみて思ったのは、AtCoderはKaggleよりも「どうあがいても勝てない」絶望感が強い。 共通点は、ひたすら時間が溶けるということですね。
0
1
68
@sakata_ryuji
Jack
3 years
自分はKaggleのように時間をかけてじっくり頭を使うのが性に合ってるので、競プロの類はずっと敬遠してたんだけど、ようやく重い腰を上げてAtcoderに登録してみた。 ただ、DPの典型的な問題ですらなかなか頭が追い付かなくて、心が折れそうである…。
0
0
71
@sakata_ryuji
Jack
2 years
同様に、区間推定で真値の事前分布を考えると、「区間の中に真値を含む確率」を議論することができるが、これは信用区間という別の名前が付いている。 ただ上の例のように、無情報な事前分布を与えてやると両者の値が一致しうる、というのが、信頼区間に対する誤解の要因になっているような気がする。
1
4
69
@sakata_ryuji
Jack
2 years
OttoはPrivate10位で終了、toshi_kさんの初チーム戦にあやかれてとても楽しかったです。一人では絶対ここまで来れませんでした。これだからKaggleはやめられないですね。
Tweet media one
1
2
66
@sakata_ryuji
Jack
2 years
昨日のツイートが予想を遥かに超えて参照されているので、もう少しちゃんと説明をしておこうと思います。
@sakata_ryuji
Jack
2 years
95%信頼区間を「95%の確率でその中に真の値を含む」と解釈するのが間違いな理由について、だいぶ自分の中の理解がクリアになったので、備忘録的に書いておく。
1
227
2K
1
2
68
@sakata_ryuji
Jack
4 years
adversarial validationに関する議論が熱いけど、Kaggleと実務で分けて考えないと混乱する。まずKaggleの文脈で、test使うのはリークだ、というのはあまり意味が無いと思う。(pseudo labelingも同じだし、そもそもLBの情報をFBできる時点であれなので、advalの文脈で改めて議論することではない。)
1
9
68
@sakata_ryuji
Jack
6 years
一年越しの結婚式done 落ち着いたらKaggleやる
0
1
66
@sakata_ryuji
Jack
2 years
一致しない例を考えるのは簡単で、Bさんの出目によって1回1回の一致確率が変わるような設定にしてやればよい。それをやっているのが、こちらのツイートで紹介されている例だと思っている。
@uncorrelated
uncorrelated
2 years
TJO氏が引用していたWasserman (2010)のこの変態的な例が、信頼区間が何の確率を意味するのかよく分かるようになる良い教材。ただし、分析に役立つ知識かは謎。
Tweet media one
3
46
201
1
4
64
@sakata_ryuji
Jack
5 years
DSBは銀メダルとなり悔しさはありますが、CVを信じたのがちゃんと報われたので、安堵の気持ちの方が大きいです。明日で4ヶ月になる娘を抱えてのチャレンジだったので、妻にもだいぶ負担をかけてしまいました。しばらくKaggleはお休みして、inputに力を注ぎたいと思います。
0
0
66
@sakata_ryuji
Jack
5 years
例え数式の展開を計算で追うことができても、その直感的意味が理解できるまで何も頭に入ってこないので、教科書とか論文とか読むのにとても時間がかかるのだけども、皆さん似たようなもんなんですかね…?
2
3
62
@sakata_ryuji
Jack
11 months
睡眠コンペ、2, 3週間がんばった結果、ここらが限界のようです。悪くない位置ではあるけど、トップとの差が大き過ぎる…。
Tweet media one
0
1
64
@sakata_ryuji
Jack
5 years
Kaggle、表面上の戦績だけでその人のスキルを判断するほどみんな安直じゃないと思うし、他者の戦い方はあまり気にせず、自分の信念を貫けばいいと思う。
0
4
64
@sakata_ryuji
Jack
3 years
社内コンペの運営が終わった。1週間の短期ではあったが、参加者60名以上、延べsub数1000を超える盛況。大変だったが、頑張った甲斐があった。
1
0
64
@sakata_ryuji
Jack
6 years
よく知っている人には今更何だという話ではあるが、XGBoostのアルゴリズムは、評価関数が二乗誤差という特殊ケースをベースに理解するのがイメージしやすいと思っている。二乗誤差の場合、sum(hessian)は単純にノードサイズだし、leafの最適重みはBayesian average(事前分布を考慮した平均)になる。
0
4
63
@sakata_ryuji
Jack
1 year
某炎上の件、恥ずかしながら自分もあの絵を見てファインマンとはわからなかったけど、一人だけしか人物が登場しない絵に対し「〜しか描かれていない」と差別問題に持っていくのが、荒唐無稽に思えて仕方がない。
1
5
61
@sakata_ryuji
Jack
1 year
PSP、思いつくまま雑に振り返り。 序盤からEfficiency Prizeを念頭に置いていたので、計算が面倒そうな特徴量は極力考えないことにしていた。後から特徴量を削る方針にしてしまうと、絶対足枷になると思ったので。結果的に正解だったと思う。
1
2
59
@sakata_ryuji
Jack
5 years
Kaggle MasterやGMと言った称号は何の本質でもなくて、それになる過程で得られた技術、知識、思想がなんぼのもんか、ってことだと思うけど、それらを得る手段として、称号を目指すのは、個人的にはいいやり方だと思う。
1
1
59
@sakata_ryuji
Jack
6 years
こんなことを言ったら怒られるかも知れないが、個別の事例を「内資」とか「大手」とかいう大きな主語で馬鹿にするのって、結局自身の所属が「外資」であるとか「ベンチャー」であるとか、そういったことをアイデンティティにただマウンティングしたいだけなのでは、と思ってしまう。
1
3
58
@sakata_ryuji
Jack
4 years
3ヶ月に渡る育休が終わり今日から復帰。思ったほど勉強できなかった(しなかった)のが少し心残りだけど、とても有意義な時間を過ごせた。 Kaggleはもうしばらくお休みモードです、多分。
0
0
58
@sakata_ryuji
Jack
4 years
景気付けにsubmit。さて、金圏下限はどこまで上がるのやら。leakは陽に使わずに行けるところまでがんばりたいが…。
Tweet media one
1
1
57
@sakata_ryuji
Jack
1 year
Efficiency LB、無事勝ってた。推論���間では突き放したけど、スコア的には2位と僅差で危なかった…。
Tweet media one
1
0
56
@sakata_ryuji
Jack
5 years
私の全submissionリストを貼っておきます。
Tweet media one
0
4
56
@sakata_ryuji
Jack
4 years
技術的な記事を書いてアウトプットしていきたいなとは思いつつ、そんな暇があったらついコンペをしてしまうのでついぞできなかったのだが、今はコンペをするほどの余裕が無いので、ついに始めてみようという気になっている。賞味期限切れだけど、DSBのQWK最適化でもネタにしようかと。
0
0
57
@sakata_ryuji
Jack
5 years
ようやくオープンになったようなので告知、私もKaggle Days Tokyoに登壇します! しかしこの期に及んでまだ私に喋れるネタがあるのか…?
0
4
55
@sakata_ryuji
Jack
2 years
久々にKaggleに費やしてますが、正直これ以上は厳しい…。
Tweet media one
0
4
55
@sakata_ryuji
Jack
2 years
すみません、一番大事なところの記述が曖昧で「Bさんが1回だけサイコロを振って、Aさんの思い浮かべた数と一致する確率」は、「Bさんが1回だけサイコロを振ったとき、Aさんの思い浮かべた数がその目と同じである確率」つまり、Bの目による条件付き確率P(A=B|B)と読み替えてください。
1
3
55
@sakata_ryuji
Jack
1 year
atma、3位のソリューションで事後検証させてもらっていますが、やはりseen/unseenでモデルを分けた方がよさげ。全く同じ特徴量でも、予測対象がseenかunseenかでearly stoppingのiteration数にかなり開きがある。
0
7
54
@sakata_ryuji
Jack
2 years
ABC281、ミスを連発したものの、何とかABCDE5完。競プロを初めてもうすぐ1年というタイミングで、入水できました。 プログラミング適性はそこそこある方だと自負していたので、水色ぐらいは、と思って始めたのだが、想定よりもだいぶ難しかった。良くも悪くも、自分の程度が知れてよかった。
Tweet media one
2
0
54