2022-01-18から1日間の記事一覧

Jigsaw Rate Severity of Toxic Comments(TF-IDF)

sklearnでTF-IDF。用意された文書の集まりから語彙リストのようなものを作成して、頻度が低いほど点数高くする(IDF)。各文書について語彙ごとの出現頻度も出す(TF)。それを掛け合わせることで、各文書ごとに語彙のベクトル的なものを作成。 sklearn.feature_…