Ir para o conteúdo

Formatos e Limitações

Você pode utilizar, basicamente, quatro formatos diferentes de arquivos, entretanto, não tem limite quanto à quantidade de documentos que podem ser enviados. Vamos discutir, nesta seção, um pouco sobre cada um dos formatos aceitos.

Tamanho do arquivo

Antes de falarmos sobre os formatos de arquivo aceitos, vale ressaltar que, atualmente, o Serprobots aceita arquivos de, no máximo, 10mb. Caso seu arquivo seja maior que este limite, verifique se é possível diminuir seu conteúdo. Por exemplo, cheque se ele não possui muitas imagens ou elementos desnecessários para sua utilização em um chatbot. Por exemplo, formulários, imagens, desenhos e qualquer outro elemento, sem ser texto, aumenta o tamanho dos seus arquivos e, como veremos logo abaixo, esses elementos são descartados durante o processamento do arquivo.

PDF

O formato PDF é, talvez, um dos mais conhecidos para documentos. É amplamente utilizado para gerar versões imutáveis de um documento que será disponibilizado na internet. O Serprobots permite que você utilize este tipo de documento, é claro, entretanto, fique atento: só será extraída a parte textual do PDF. Todos os demais elementos serão ignorados. Ou seja, imagens, formulários e desenhos (pra citar alguns poucos), não serão extraídos.

Outro detalhe importante, observe se seu arquivo PDF não contém apenas uma imagem grande com o texto, ao invés de texto de fato. O Serprobots não fará o reconhecimento de caracteres (OCR) destas imagens. Como já foi explicado, apenas a parte TEXTUAL será extraída, ignorando totalmente essas imagens.

HTML (htm e html)

Você também pode utilizar arquivos em HTML para enriquecer sua base de conhecimento. Entretanto, assim como ocorre com os arquivos PDF, só será extraída a parte textual! Todos os demais elementos serão ignorados. Ou seja, imagens e vídeos (pra citar alguns poucos), não serão extraídos. Outro detalhe importante, o Serprobots não navega nos links contidos no arquivo. Só será extraído o conteúdo do arquivo enviado apenas!

Microsoft Word (doc e docx)

Arquivos Word também são aceitos! Você não precisa converter seu arquivo DOC ou DOCX para um formato PDF para utilizá-lo no Serprobots. As limitações são exatamente as mesmas que comentamos sobre o PDF e HTML. Lembre-se, o Serprobots extrai somente a parte TEXTUAL!

Arquivos de Texto (txt)

Este é o formato mais básico de todos. Trata-se de um arquivo contendo apenas texto, que você pode gerar através do Notepad do Windows, por exemplo.