EMAPS.Voyant

Já neste início de aprendizado do Voyant, há pelo menos três parâmetros interessantes, de que vamos tratar aqui. Os dois primeiros – segmentos e corpus/documento – já foram parcialmente endereçados neste caderno, mas voltaremos a eles porque permitem explorações muito interessantes. O terceiro – categorias – é bem mais elaborado, e damos nesta página apenas um tratamente básico para deslanchar a curiosidade e a percepção de valor quando se domina mais tecnicamente o seu uso. Vamos a eles.


Corpus, Documentos e Segmentos

A análise de texto pode tomar como objeto um ou mais documentos. Ao conjunto de documentos tomados para a análise chamamos de corpus (palavra latina, cujo plural é corpora). Quando toda a extensão de texto está contida em um único documento, a análise de "corpus" ou de "documento" apresenta o mesmo resultado. Veja a comparação nos dois casos abaixo.

Tomemos um novo texto para análise. No Projeto Gutemberg, temos uma versão do romance "O Triste Fim de Polycarpo Quaresma", de Lima Barreto. Depois de baixá-la, enviamos o documento para análise pelo Voyant. Você pode acessá-lo nesta URL: https://voyant-tools.org/?corpus=457adff4a399629de4e3c7588a813ba3 

A ferramenta "Reader" mostra o conteúdo do texto aqui e o livro tem a seguinte estrutura de capítulos:
Primeira Parte 
I. A LIÇÃO DE VIOLÃO 
II. REFORMAS RADICAES 
III. A NOTICIA DO GENELICIO 
IV. DESASTROSAS CONSEQUENCIAS DE UM REQUERIMENTO 
V. O BIBELOT 
Segunda Parte 
I. NO «SOCEGO» 
II. ESPINHOS E FLORES 
III. GOLIAS 
IV. «PEÇO ENERGIA, SIGO JÁ» 
V. O TROVADOR 
Terceira Parte 
I. PATRIOTAS 
II. VOCÊ, QUARESMA, É UM VISIONARIO 
III. ...E TORNARAM LOGO SILENCIOSOS... 
IV. O BOQUEIRÃO 
V. A AFILHADA

Aqui você visualiza a ferramenta "Trends", que mostra as frequências relativas dos termos "Polycarpo", "Quaresma" e a expressão "Polycarpo Quaresma"~0 no  documento que contém toda a obra. Perceba que a segmentação do documento é em 10 fatias, o que não coincide com os capítulos do livro (veja ao lado). 


O ideal de segmentação seria dividir o livro em documentos separados, um para cada capítulo. Assim, as informações de frequência dos "nomes" pelos quais Lima Barreto se referiu a Polycarpo no livro pode ser mais exata. 

Neste arquivo zip você encontrará o clássico de Lima Barreto subdividido nas três partes. Deixamos a divisão em capítulos para você, caso queira treinar o conceito e o interesse de explorar os resultados.

Na visualização a seguir, você pode examinar a freuência dos termos e expressão de nosso interesse em cada uma das três partes do livro. Cada coluna corresponde a uma parte. Se você clicar numa coluna, vai poder fazer o "drill down" (literalmente, trata-se de furar para explorar o que há debaixo da superfície).

Aqui vemos como comandar o drill-down pela interface do Voyant. O drill down pode escolher uma análise onde se visualizam Termos ou o Documento. Para saber mais sobre o "drill down" da ferramenta "Trends", consulte a ajuda do Voyant.
Esquema de dois estados de interface do Voyant, mostrando drill down

 

É interessante ver o efeito de uma análise do romance dividido em capítulos (veja detalhes do sumário à esquerda), comparativamente ao de uma análise utilizando o arquivo inteiro (veja detalhes do sumário à direita).

">  
nach oben