2022-01-01から1ヶ月間の記事一覧

Jigsaw Rate Severity of Toxic Comments(正規表現エスケープ+顔文字+大文字小文字)

置換その2。正規表現のエスケープ+顔文字抽出+大文字小文字。 参考サイト 正規表現のエスケープ処理とは? | ポテパンスタイル やってみた 正規表現のエスケープ 最初のきっかけはnotebookそのまま使ったけど置換できてなくない?から。正規表現モジュー…

Jigsaw Rate Severity of Toxic Comments(文字列の正規表現)

文字列について記号やhttpリンクの置換を行う上では文字列の正規表現についてはやらないといかんなと思い。 参考サイト 分かりやすいpythonの正規表現の例 - Qiita やってみる 「文字列から数字だけ抽出したいな~~」というときに、「0,1,2,,,,9」のどれか…

Jigsaw Rate Severity of Toxic Comments(googletransで翻訳)

文字列データは逆翻訳というもので水増しするといいらしい! 参考サイト 逆翻訳を使ったテキストデータ水増し – Kaggle Note Using Google Translate for NLP Augmentation | Kaggle やってみる 早速エラーだ! !pip install --quiet googletrans from googl…

Jigsaw Rate Severity of Toxic Comments(絵文字削除)

前処理その1:絵文字の処理 まずは絵文字を含むテキストを判定。含まれた絵文字を削除するかどうかはまた判断。 参考サイト SNSテキストから顔文字・絵文字・URLを抽出する - Qiita やってみた まずは絵文字を含むテキストを抽出。テキストをみてみたところ…

Jigsaw Rate Severity of Toxic Comments(TF-IDF)

sklearnでTF-IDF。用意された文書の集まりから語彙リストのようなものを作成して、頻度が低いほど点数高くする(IDF)。各文書について語彙ごとの出現頻度も出す(TF)。それを掛け合わせることで、各文書ごとに語彙のベクトル的なものを作成。 sklearn.feature_…

Jigsaw Rate Severity of Toxic Comments(文字列の変換)

言語使うものとかもやってみようかな~と。初心者向けの簡単にスコア提出までの流れをまとめてるNotebookをみていく。 Most VoteのNotebookをみると1. TF-IDF 2. リッジ回帰 3. RoBERTaの3つがメインっぽい。とりあえずTF-IDFとリッジを使ってるNotebookを…

G-Research Crypto Competition(timestamp,Targetの抜け(コインごと))

timestampが全通貨で抜けているtimestampがあることを確認したけど、そういえばコインごとにみたときはtimestampってどれだけ抜けているの?と思って確認。 全コインで抜けているtimestampの要因は出題者がデータまとめた際のエラーや取引所自体が落ちたとか…

G-Research Crypto Competition(timestampの抜け)

Targetを作成しているnotebookをみつけたので、それをコピー。 ってか、Targetは加重平均に対する超過平均ではなくて、アルファみたいだな。 timestampに抜けがある その中で気になったのが、trainデータに各月初日の最初の1分のデータがないという話。 要…

自分のPCで作成した関数をKaggleのNotebookで使用する方法

Pycharmとかで作成した関数を、Kaggleのノートブック上で読み込んで使用できたら楽だなあ、と思って始めました。 もっといい方法があると思うけど、いまの自分にはこれが限界だったので、その方法をとりえず備忘録として。 自身で作成したコードをGithubにあ…