linux-BR.org

Notícias de software livre e tecnologias

Considere este conjunto de dados de amostra:
Estes são alimentados no classificador como mostrado aqui:
Uma vez treinado, o modelo pode ser usado para classificar o novo texto.Você também pode fazer classificação em massa usando o seguinte método:
Uma vez treinado, o modelo pode ser exportado e salvo para uso posterior.
Uma implementação do Python de um sistema de classificação de texto baseado em GZIP com base no algoritmo descrito em “menos é mais: classificação de texto sem parâmetros com GZIP”, de Zhiyyying Jiang, Matthew Y.R.Yang, Mikhail Tsirlin, Raphael Tang e Jimmy Lin.O processo de treinamento requer dois conjuntos de dados: uma lista de trechos de texto de amostra e uma lista dos rótulos que correspondem a esses trechos.

Fonte: https://github.com/Sonictherocketman/gzip-classifier