2022-01-01から1年間の記事一覧

UNIX timestamp

まとめ UNIX timestampのtimezoneはなにも指定しないとマシン設定 UNIXはミリ秒まで含んだ13桁のときがあるので注意。1000で割って10桁にするとdatetimeへ変換可能。 本文 UNIX timestampをちょっとだけまとめ。 PythonでUNIX時間(エポック秒)と日時dateti…

jsonlの読み込み

まとめ jsonlファイルで中身がバカでかいやつは一気に読み込むとメモリエラーとなるのでchunkを使用するとよい。 jsonの中身は辞書型みたいな感じでデータ格納されてるっぽい。 バカでかいファイルの読み込みは一度parquet形式で保存して次回からそれを読み…

連続型分布と標本分布

自分用メモです。間違えていることあります。 〇指数分布とガンマ分布 ヒトの体重はガンマ分布に従うのか | データ分析スピリッツ ↑体重がガンマ分布に従わない?従う従わないの判定方法は? 身長は正規分布、体重はガンマ分布…なぜ? - ほうかいのじゅもん …

因子分析まとめ

自分用メモです。間違えていることあります。 発展因子分析 - YouTube 因子が解釈しやすいとは?スケールなし、0から正の範囲だと◎。それを数学的に表現すると2乗和の分散最大化。これがバリマトリックス回転(直交)。さらに直交を外して解釈しやすくした…

重回帰分析参考サイト

自分用のメモです。言葉足らずですし、間違えていることもあります。 重回帰モデルの理論と実装 -なぜ正則化が必要か- | Deploy on Friday 正則化ってなにをしてるかについて。正規方程式でが正則でない(逆行列もたない)ときになんらかで調整したい。例え…

自己相関の検定

時系列データが自己相関を持つか=標本自己相関≠0の検定。与えられた時系列データがiid系列と仮定すれば標本自己相関の漸近分布は平均0分散1/Tの正規分布に従う。iid系列という仮定が結構強い気もするけど、とりあえずやってみる。 参考サイト statsmodels.g…

Q-Qプロット

株やら為替のリターンは、正規分布より裾が厚い分布になっているとなんとなく教えられてきたけど、本当にそうなの?と思って調べてみた。与えられた分布の正規性の確認方法は1.ヒストグラム2.Q-Qプロット3.検定(shapiro-wilk or kolmogorov-smirnov)のどれ…

Pickleファイルの読み込み

サイズの大きなCSVをそのまま読み込むと4分とか時間がかかって困ることがあったので、pickleに変換保存して以降はそれを読み込むことで早くなった。pickleとはデータフレームに限らずクラスなどオブジェクトであればなんでもpickleとして保存できるみたい。…

Jigsaw Rate Severity of Toxic Comments(正規表現エスケープ+顔文字+大文字小文字)

置換その2。正規表現のエスケープ+顔文字抽出+大文字小文字。 参考サイト 正規表現のエスケープ処理とは? | ポテパンスタイル やってみた 正規表現のエスケープ 最初のきっかけはnotebookそのまま使ったけど置換できてなくない?から。正規表現モジュー…

Jigsaw Rate Severity of Toxic Comments(文字列の正規表現)

文字列について記号やhttpリンクの置換を行う上では文字列の正規表現についてはやらないといかんなと思い。 参考サイト 分かりやすいpythonの正規表現の例 - Qiita やってみる 「文字列から数字だけ抽出したいな~~」というときに、「0,1,2,,,,9」のどれか…

Jigsaw Rate Severity of Toxic Comments(googletransで翻訳)

文字列データは逆翻訳というもので水増しするといいらしい! 参考サイト 逆翻訳を使ったテキストデータ水増し – Kaggle Note Using Google Translate for NLP Augmentation | Kaggle やってみる 早速エラーだ! !pip install --quiet googletrans from googl…

Jigsaw Rate Severity of Toxic Comments(絵文字削除)

前処理その1:絵文字の処理 まずは絵文字を含むテキストを判定。含まれた絵文字を削除するかどうかはまた判断。 参考サイト SNSテキストから顔文字・絵文字・URLを抽出する - Qiita やってみた まずは絵文字を含むテキストを抽出。テキストをみてみたところ…

Jigsaw Rate Severity of Toxic Comments(TF-IDF)

sklearnでTF-IDF。用意された文書の集まりから語彙リストのようなものを作成して、頻度が低いほど点数高くする(IDF)。各文書について語彙ごとの出現頻度も出す(TF)。それを掛け合わせることで、各文書ごとに語彙のベクトル的なものを作成。 sklearn.feature_…

Jigsaw Rate Severity of Toxic Comments(文字列の変換)

言語使うものとかもやってみようかな~と。初心者向けの簡単にスコア提出までの流れをまとめてるNotebookをみていく。 Most VoteのNotebookをみると1. TF-IDF 2. リッジ回帰 3. RoBERTaの3つがメインっぽい。とりあえずTF-IDFとリッジを使ってるNotebookを…

G-Research Crypto Competition(timestamp,Targetの抜け(コインごと))

timestampが全通貨で抜けているtimestampがあることを確認したけど、そういえばコインごとにみたときはtimestampってどれだけ抜けているの?と思って確認。 全コインで抜けているtimestampの要因は出題者がデータまとめた際のエラーや取引所自体が落ちたとか…

G-Research Crypto Competition(timestampの抜け)

Targetを作成しているnotebookをみつけたので、それをコピー。 ってか、Targetは加重平均に対する超過平均ではなくて、アルファみたいだな。 timestampに抜けがある その中で気になったのが、trainデータに各月初日の最初の1分のデータがないという話。 要…

自分のPCで作成した関数をKaggleのNotebookで使用する方法

Pycharmとかで作成した関数を、Kaggleのノートブック上で読み込んで使用できたら楽だなあ、と思って始めました。 もっといい方法があると思うけど、いまの自分にはこれが限界だったので、その方法をとりえず備忘録として。 自身で作成したコードをGithubにあ…