linux-BR.org

Notícias de software livre e tecnologias

Você pode analisar txt, html, xml, pdf, eml, msg, rtf, epub, doc, docx,
XLSX, CSV, ODT, PPT, PPTX, JPG,
e documentos PNG com uma linha de código!O tijolo da partição atualmente trabalha para
.txt, .doc, .docx, .ppt, .pptx, .xlsx, .jpg, .png, .eml, .msg, .html e .pdf documentos.Agora você pode aproveitar não estruturados com uma chamada de API simples para renderizar texto limpo no formato JSON de suas imagens, documentos, PowerPoints e muito mais.Ferramentas de pré-processamento de código aberto para dados não estruturados
A biblioteca não estruturada fornece componentes de código aberto para documentos de texto de pré-processamento
como PDFs, HTML e documentos do Word.Partion_Email aceita nomes de arquivos, objeto semelhante ao arquivo e texto bruto como entrada.

Fonte: https://github.com/Unstructured-IO/unstructured