UNIX timestamp

まとめ UNIX timestampのtimezoneはなにも指定しないとマシン設定 UNIXはミリ秒まで含んだ13桁のときがあるので注意。1000で割って10桁にするとdatetimeへ変換可能。本文 UNIX timestampをちょっとだけまとめ。 PythonでUNIX時間（エポック秒）と日時dateti…

2022-11-06

jsonlの読み込み

まとめ jsonlファイルで中身がバカでかいやつは一気に読み込むとメモリエラーとなるのでchunkを使用するとよい。 jsonの中身は辞書型みたいな感じでデータ格納されてるっぽい。バカでかいファイルの読み込みは一度parquet形式で保存して次回からそれを読み…

2022-10-04

連続型分布と標本分布

自分用メモです。間違えていることあります。〇指数分布とガンマ分布ヒトの体重はガンマ分布に従うのか | データ分析スピリッツ ↑体重がガンマ分布に従わない？従う従わないの判定方法は？身長は正規分布、体重はガンマ分布…なぜ？ - ほうかいのじゅもん …

2022-09-26

因子分析まとめ

自分用メモです。間違えていることあります。発展因子分析 - YouTube 因子が解釈しやすいとは？スケールなし、０から正の範囲だと◎。それを数学的に表現すると２乗和の分散最大化。これがバリマトリックス回転（直交）。さらに直交を外して解釈しやすくした…

2022-09-15

重回帰分析参考サイト

自分用のメモです。言葉足らずですし、間違えていることもあります。重回帰モデルの理論と実装 -なぜ正則化が必要か- | Deploy on Friday 正則化ってなにをしてるかについて。正規方程式でが正則でない（逆行列もたない）ときになんらかで調整したい。例え…

2022-02-19

自己相関の検定

時系列データが自己相関を持つか＝標本自己相関≠0の検定。与えられた時系列データがiid系列と仮定すれば標本自己相関の漸近分布は平均0分散1/Tの正規分布に従う。iid系列という仮定が結構強い気もするけど、とりあえずやってみる。参考サイト statsmodels.g…

2022-02-09

Q-Qプロット

株やら為替のリターンは、正規分布より裾が厚い分布になっているとなんとなく教えられてきたけど、本当にそうなの？と思って調べてみた。与えられた分布の正規性の確認方法は1.ヒストグラム2.Q-Qプロット3.検定（shapiro-wilk or kolmogorov-smirnov）のどれ…

2022-02-06

Pickleファイルの読み込み

サイズの大きなCSVをそのまま読み込むと４分とか時間がかかって困ることがあったので、pickleに変換保存して以降はそれを読み込むことで早くなった。pickleとはデータフレームに限らずクラスなどオブジェクトであればなんでもpickleとして保存できるみたい。…

2022-01-22

Jigsaw Rate Severity of Toxic Comments（正規表現エスケープ＋顔文字＋大文字小文字）

置換その２。正規表現のエスケープ＋顔文字抽出＋大文字小文字。参考サイト正規表現のエスケープ処理とは？ | ポテパンスタイルやってみた正規表現のエスケープ最初のきっかけはnotebookそのまま使ったけど置換できてなくない？から。正規表現モジュー…

2022-01-21

Jigsaw Rate Severity of Toxic Comments（文字列の正規表現）

文字列について記号やhttpリンクの置換を行う上では文字列の正規表現についてはやらないといかんなと思い。参考サイト分かりやすいpythonの正規表現の例 - Qiita やってみる「文字列から数字だけ抽出したいな～～」というときに、「0,1,2,,,,9」のどれか…

2022-01-20

Jigsaw Rate Severity of Toxic Comments（googletransで翻訳）

文字列データは逆翻訳というもので水増しするといいらしい！参考サイト逆翻訳を使ったテキストデータ水増し – Kaggle Note Using Google Translate for NLP Augmentation | Kaggle やってみる早速エラーだ！ !pip install --quiet googletrans from googl…

2022-01-19

Jigsaw Rate Severity of Toxic Comments（絵文字削除）

前処理その１：絵文字の処理まずは絵文字を含むテキストを判定。含まれた絵文字を削除するかどうかはまた判断。参考サイト SNSテキストから顔文字・絵文字・URLを抽出する - Qiita やってみたまずは絵文字を含むテキストを抽出。テキストをみてみたところ…

2022-01-18

Jigsaw Rate Severity of Toxic Comments（TF-IDF）

sklearnでTF-IDF。用意された文書の集まりから語彙リストのようなものを作成して、頻度が低いほど点数高くする(IDF)。各文書について語彙ごとの出現頻度も出す(TF)。それを掛け合わせることで、各文書ごとに語彙のベクトル的なものを作成。 sklearn.feature_…

2022-01-17

Jigsaw Rate Severity of Toxic Comments（文字列の変換）

言語使うものとかもやってみようかな～と。初心者向けの簡単にスコア提出までの流れをまとめてるNotebookをみていく。 Most VoteのNotebookをみると1. TF-IDF 2. リッジ回帰 3. RoBERTaの３つがメインっぽい。とりあえずTF-IDFとリッジを使ってるNotebookを…