UNIX timestamp

まとめ UNIX timestampのtimezoneはなにも指定しないとマシン設定 UNIXはミリ秒まで含んだ13桁のときがあるので注意。1000で割って10桁にするとdatetimeへ変換可能。 本文 UNIX timestampをちょっとだけまとめ。 PythonでUNIX時間(エポック秒)と日時dateti…

jsonlの読み込み

まとめ jsonlファイルで中身がバカでかいやつは一気に読み込むとメモリエラーとなるのでchunkを使用するとよい。 jsonの中身は辞書型みたいな感じでデータ格納されてるっぽい。 バカでかいファイルの読み込みは一度parquet形式で保存して次回からそれを読み…

連続型分布と標本分布

自分用メモです。間違えていることあります。 〇指数分布とガンマ分布 ヒトの体重はガンマ分布に従うのか | データ分析スピリッツ ↑体重がガンマ分布に従わない?従う従わないの判定方法は? 身長は正規分布、体重はガンマ分布…なぜ? - ほうかいのじゅもん …

因子分析まとめ

自分用メモです。間違えていることあります。 発展因子分析 - YouTube 因子が解釈しやすいとは?スケールなし、0から正の範囲だと◎。それを数学的に表現すると2乗和の分散最大化。これがバリマトリックス回転(直交)。さらに直交を外して解釈しやすくした…

重回帰分析参考サイト

自分用のメモです。言葉足らずですし、間違えていることもあります。 重回帰モデルの理論と実装 -なぜ正則化が必要か- | Deploy on Friday 正則化ってなにをしてるかについて。正規方程式でが正則でない(逆行列もたない)ときになんらかで調整したい。例え…

自己相関の検定

時系列データが自己相関を持つか=標本自己相関≠0の検定。与えられた時系列データがiid系列と仮定すれば標本自己相関の漸近分布は平均0分散1/Tの正規分布に従う。iid系列という仮定が結構強い気もするけど、とりあえずやってみる。 参考サイト statsmodels.g…

Q-Qプロット

株やら為替のリターンは、正規分布より裾が厚い分布になっているとなんとなく教えられてきたけど、本当にそうなの?と思って調べてみた。与えられた分布の正規性の確認方法は1.ヒストグラム2.Q-Qプロット3.検定(shapiro-wilk or kolmogorov-smirnov)のどれ…

Pickleファイルの読み込み

サイズの大きなCSVをそのまま読み込むと4分とか時間がかかって困ることがあったので、pickleに変換保存して以降はそれを読み込むことで早くなった。pickleとはデータフレームに限らずクラスなどオブジェクトであればなんでもpickleとして保存できるみたい。…

Jigsaw Rate Severity of Toxic Comments(正規表現エスケープ+顔文字+大文字小文字)

置換その2。正規表現のエスケープ+顔文字抽出+大文字小文字。 参考サイト 正規表現のエスケープ処理とは? | ポテパンスタイル やってみた 正規表現のエスケープ 最初のきっかけはnotebookそのまま使ったけど置換できてなくない?から。正規表現モジュー…

Jigsaw Rate Severity of Toxic Comments(文字列の正規表現)

文字列について記号やhttpリンクの置換を行う上では文字列の正規表現についてはやらないといかんなと思い。 参考サイト 分かりやすいpythonの正規表現の例 - Qiita やってみる 「文字列から数字だけ抽出したいな~~」というときに、「0,1,2,,,,9」のどれか…

Jigsaw Rate Severity of Toxic Comments(googletransで翻訳)

文字列データは逆翻訳というもので水増しするといいらしい! 参考サイト 逆翻訳を使ったテキストデータ水増し – Kaggle Note Using Google Translate for NLP Augmentation | Kaggle やってみる 早速エラーだ! !pip install --quiet googletrans from googl…

Jigsaw Rate Severity of Toxic Comments(絵文字削除)

前処理その1:絵文字の処理 まずは絵文字を含むテキストを判定。含まれた絵文字を削除するかどうかはまた判断。 参考サイト SNSテキストから顔文字・絵文字・URLを抽出する - Qiita やってみた まずは絵文字を含むテキストを抽出。テキストをみてみたところ…

Jigsaw Rate Severity of Toxic Comments(TF-IDF)

sklearnでTF-IDF。用意された文書の集まりから語彙リストのようなものを作成して、頻度が低いほど点数高くする(IDF)。各文書について語彙ごとの出現頻度も出す(TF)。それを掛け合わせることで、各文書ごとに語彙のベクトル的なものを作成。 sklearn.feature_…

Jigsaw Rate Severity of Toxic Comments(文字列の変換)

言語使うものとかもやってみようかな~と。初心者向けの簡単にスコア提出までの流れをまとめてるNotebookをみていく。 Most VoteのNotebookをみると1. TF-IDF 2. リッジ回帰 3. RoBERTaの3つがメインっぽい。とりあえずTF-IDFとリッジを使ってるNotebookを…

G-Research Crypto Competition(timestamp,Targetの抜け(コインごと))

timestampが全通貨で抜けているtimestampがあることを確認したけど、そういえばコインごとにみたときはtimestampってどれだけ抜けているの?と思って確認。 全コインで抜けているtimestampの要因は出題者がデータまとめた際のエラーや取引所自体が落ちたとか…

G-Research Crypto Competition(timestampの抜け)

Targetを作成しているnotebookをみつけたので、それをコピー。 ってか、Targetは加重平均に対する超過平均ではなくて、アルファみたいだな。 timestampに抜けがある その中で気になったのが、trainデータに各月初日の最初の1分のデータがないという話。 要…

自分のPCで作成した関数をKaggleのNotebookで使用する方法

Pycharmとかで作成した関数を、Kaggleのノートブック上で読み込んで使用できたら楽だなあ、と思って始めました。 もっといい方法があると思うけど、いまの自分にはこれが限界だったので、その方法をとりえず備忘録として。 自身で作成したコードをGithubにあ…

G-Research Crypto Forecasting(欠損値確認、コインごとの取引量)

やるといってもなにをしようかと。。。。EDAとかでデータ見せてくれてるものはあるけど、はあそうですか。。。って感じになってしまいがち。 予測するものは将来15分間の超過リターン(Target: Residual log-returns for the asset over a 15 minute horizon…

G-Research Crypto Forecasting(コードの提出方法)

ビットコインはちょっと気になるということで、これ! 予測の提出方法がよくわからない。。ファイルではなくコードを提出するのか??ということでとりあえず、コードの提出方法試したのでその備忘録。結論はファイル提出するときとそんなにかわんないっぽい…

optiver-realized-volatility-prediction 3日目

目標がないと頑張れないので、今日の時点で銅メダルラインの0.1955を一旦に目標してみよう。方法はディスカッションやVote多いNotebookみてひたすらぱくる。 今日のまとめ スコア0.2192 -> 0.2134 今日の目標 前回うまくいったボラのラグを取る特徴量を他の…

optiver-realized-volatility-prediction 2日目

目標がないと頑張れないので、今日の時点で銅メダルラインの0.1955を一旦に目標してみよう。方法はディスカッションやVote多いNotebookみてひたすらぱくる。 今日のまとめ スコア0.2344 -> 0.2192 時系列+元のpriceに復元したことでラグやtime_id間での変化…

optiver-realized-volatility-prediction 1日目

目標がないと頑張れないので、今日の時点で銅メダルラインの0.1955を一旦に目標してみよう。方法はディスカッションやVote多いNotebookみてひたすらぱくる。 今日のまとめ Voteの高いLGBMを用いているNotebookをもとにベースラインを作成。現時点でのスコア…

【Pythonメモ】DatetimeIndexからweekdayのみ抽出

やりたいこと 土日含めた全期間データから、土日のみ削除 参考リンク https://stackoverflow.com/questions/37803040/remove-non-business-days-rows-from-pandas-dataframe コード px_last[px_last.index.dayofweek < 5] (indexはDatetimeIndex) 感想 日…

金融データの自己相関係数

やること 金融の実データについて、コレログラムを作成。各指標について、時間依存の関係をみる。 実データはとりあえず以下の指標を使用。 TY1(米10年債先物) ES1(SP先物) USDJPY(ドル円) 日次リターンと週次リターンの2通りで、時間依存の関係をみる。 参…

ARモデル,Dickey-Fuller検定

やること (確率変数列が定常性を満たすとして)次数1の自己回帰モデル(ARモデル)を作成してみる。 単位根を有するか否かの検定(Dickey-Fuller検定) 参考サイト pythonでARモデルの推定 | 分析ノート 時系列分析やってみた!(ARモデル) - Qiita コード …

コロナデータ5

やること 時系列に沿わず、データをみてみる。(こういう特性の国は、累計感染者数が多い、などの結論が得られればいいなあ。) 仮説 高齢化が進んでいる(平均年齢が高い)ほど、重症化率が高い。 みたいな。 検証 重症化率を「死者数/感染者数」と定義して…

コロナデータ4

やること 時系列にそって、データをみてみる。 仮説 総人口の~%が感染すると、感染者の伸びは鈍化する。 病床占有率(病床数/感染者数)が~を超えると、重症者数が増える。 どちらもそれほどうまくはいかなそうではあるんだけど、とりあえず手を動かして…

コロナデータ3(曜日ごとの周期性)

やりたいこと 感染者数、死者数、検査数の3つについて、曜日ごとの周期性があるのかを検証。 予想は、感染者数と検査数は周期性あり(土日は検査数が少なくなる → 感染者数も少なくなる) 死者数は周期性なし。(土日だから死なないとか報告しないとかはな…

コロナデータ2(level毎の和,曜日毎の平均,seabornをaxオブジェクトで)

やること multi indexを用いたデータフレームについて、levelごとの和をとる 時系列データについて、曜日ごとの平均をとる seabornをaxオブジェクトに格納して細かい調整する(用語変だったらすみません。) 参考サイト pandasのMultiindexで階層ごとの統計…

コロナデータ1(multi indexの抽出)

やること インデックスを用いたデータの整理 + スライスを用いたデータ抽出 before after 参考サイト pandasのMultiindexの指定・追加・解除・ソート・レベル変更 | note.nkmk.me pandasのMultiIndexから任意の行・列を選択、抽出 | note.nkmk.me コード mul…