TRATAMENTO DE DADOS COM O R PARA ANÁLISES SOCIOLINGUÍSTICAS

OUSHIRO, Livia;

Resumo:

Ao se debruçar sobre a língua em uso, o linguista inevitavelmente se depara com a variação linguística: no português falado no Brasil, encontram-se, por exemplo, diversas realizações para o “r”, tanto em posição de ataque quanto em coda silábica (como tepe, vibrante múltipla, retroflexo, fricativa velar etc.); o emprego dos pronomes “tu”, “você”, “ocê”, “cê” para se referir ao interlocutor; o uso de sintagmas verbais plurais ora com marcação de número apenas no sujeito (por exemplo, “eles foi”), ora com marcação redundante no sujeito e no verbo (por exemplo, “eles foram”). Um dos principais fundamentos dos estudos sociolinguísticos é a premissa de que a variação linguística – verificada em todas as línguas, em todas as comunidades e, em última instância, na fala de um mesmo indivíduo – faz parte do sistema linguístico e da competência comunicativa dos falantes. A variação linguística não só é inerente, como também é ordenada (WEINREICH; LABOV; HERZOG, 1968): as flutuações observadas formam padrões, que podem ser descritos e analisados pelo estudioso da língua em uso.A observação desses padrões, no entanto, requer a análise de uma grande quantidade de dados. A partir da observação de poucas ocorrências, de um ou poucos falantes, dificilmente se poderia chegar a conclusões confiáveis sobre quais falantes tendem a empregar uma ou outra forma, em quais contextos (linguísticos ou sociais) elas tendem a ocorrer, e por que a variação ocorre do modo como se observa. A sociolinguística variacionista se assenta sobre o Paradigma Quantitativo (BAYLEY, 2002; GUY, 1993), que busca modelar a competência comunicativa dos falantes através da análise de formas linguísticas variáveis em seus contextos de uso, a fim de derivar afirmações acerca da probabilidade de co-ocorrência de uma forma linguística variável e as características contextuais. Desse modo, o sociolinguista variacionista lida com uma grande quantidade de dados. Dentre as suas diversas tarefas, incluem-se: (i) a coleta de dados (em geral, na forma de gravações de entrevistas sociolinguísticas com falantes de uma comunidade); (ii) a transcrição dessas gravações; (iii) a definição de uma variável sociolinguística e de seus contextos linguísticos possíveis (o contexto variável); (iv) a identificação de ocorrências no corpus de entrevistas; (v) o levantamento de hipóteses sobre fatores, de natureza social e linguística, que estejam correlacionados ao uso da variável; (vi) a codificação das ocorrências de acordo com as hipóteses levantadas; (vii) a análise quantitativa dos dados no GoldVarb X ou RBrul; e (viii) a interpretação de resultados obtidos. Algumas dessas tarefas exigem conhecimento especializado e criatividade para ser bem executadas – por exemplo, a coleta de boas gravações, o levantamento de hipóteses, a interpretação de resultados. Algumas outras podem ser bastante repetitivas, mecânicas e previsíveis – como a identificação de ocorrências no corpus (quando já se definiu a variável e seu envelope de variação) e a sua extração para codificação. Para esse segundo conjunto de tarefas, em princípio, não é necessário um conhecimento especializado; não é necessário, por exemplo, saber o que é um fonema para copiar e colar certos trechos de texto para uma planilha de codificação!As tarefas repetitivas, mecânicas e previsíveis podem ser automatizadas através do uso do computador. Nesse sentido, o programa R (R CORE TEAM, 2013) é de grande valia para a otimização do tempo empregado na execução dessas tarefas. O R é uma linguagem de programação voltada à análise de dados, que pode ser utilizada para realizar computações estatísticas e gráficas, compilar e anotar corpora, produzir listas de frequências, entre diversas outras tarefas. Uma de suas principais vantagens é o fato de ser gratuito e estar disponível para uma variedade de plataformas (UNIX, Windows e MacOS).Sendo uma linguagem de programação, o R permite que o usuário customize uma série de tarefas que deseja executar e, consequentemente, tenha maior controle sobre os resultados obtidos. Isso significa, no entanto, que ao invés de clicar em botões com funções limitadas e pré-definidas, o usuário normalmente define as funções que deseja executar através de linhas de comando, que instruem o programa sobre o que fazer. Uma sequência de linhas de comando é chamada de script ou código. O exemplo (1) abaixo mostra um pequeno script, que instrui o R a carregar um arquivo de transcrição, apagar as marcas de parênteses e salvar o arquivo limpo.(1)Andgt; FabianaBAndlt;-scan(file=choose.files(),what="char",sep="\n")¶Andgt; FabianaB.limpoAndlt;-gsub("\\(|\\)","",FabianaB)¶Andgt; cat(FabianaB.limpo,file="FabianaB-limpo.txt",sep="\n")¶Embora isso possa parecer complicado inicialmente, um pouco de prática levará o usuário a se familiarizar com o ambiente. Em geral, o esforço de criar um script só precisa ser feito uma vez, já que podemos salvar o código e reutilizá-lo quantas vezes forem necessárias, modificando apenas pequenas partes para readaptá-lo às novas demandas. Além disso, há uma série de scripts escritos previamente por outros usuários, na forma de funções e pacotes, que podemos baixar da Internet e utilizar em nossas próprias tarefas. Tal é o caso das funções identificacao(), extracao() e amostragem(), do pacote dmsocio, que serão mais detalhadamente exploradas na seção 5 adiante. Antes de descrever a aplicação dessas funções, é necessário tratar da instalação do programa (seção 2), de conceitos básicos e algumas funções úteis para sua utilização (seção 3), e de arranjos prévios na organização de nosso corpus (seção 4). O artigo se encerra com uma visão perspectiva dessas funções no âmbito das análises sociolinguísticas e com a indicação de leituras adicionais para um maior aprofundamento das aplicações do R a estudos linguísticos.Não é demais salientar que, em se tratando de um tutorial prático, este artigo foi pensado para ser lido com um computador à mão, de modo que o leitor possa reproduzir os exemplos durante a leitura. Não há como aprender a usar o R sem utilizá-lo. Portanto, mãos à massa!

0:

Palavras-chave: ,

DOI: 10.5151/BlucherOA-MCMDS-10cap

Referências bibliográficas
  • BAAYEN, R. H. Analyzing Linguistic Data. A practical introduction to statistics using R. Cambridge: Cambridge University Press, 2008.
    BATTISTI, E. Elevação das Vogais Médias Pretônicas em Sílaba Inicial de Vocábulo na Fala Gaúcha. Dissertação (Mestrado). Porto Alegre: UFRGS, 1993. 125f.
    BATTISTI, E. A redução dos ditongos nasais átonos. In: BISOL, L.; BRESCANCINI, C. (eds.), Fonologia e variação: recortes do português brasileiro. Porto Alegre: EdiPUCRS, 2002.
    BAYLEY, R. The quantitative paradigm. In: CHAMBERS, J.K.; TRUDGILL, P.; SCHILLING-ESTES, N. (eds.), The Handbook of Language Variation and Change, p. 117-141. Malden, MA: Blackwell, 2002.
    CASTILHO, A.; PRETI, D. (eds.) A linguagem falada culta na cidade de São Paulo: materiais para seu estudo, vol. I – Elocuções Formais. São Paulo: T.A. Queiroz, 1986.
    CELIA, G. F. As vogais médias pretônicas na fala culta de Nova Venécia. Dissertação (Mestrado). Campinhas: IEL/Unicamp, 2004. 114f.
    CUNHA, C.; CINTRA, L. A Nova Gramática do Português Contemporâneo. 3ª edição revista. Rio de Janeiro: Lexikon Informática, 2007.
    DALGAARD, P. Introductory statistics with R. New York: Springer, 2008.
    GRIES, S. Th. Quantitative Corpus Linguistics with R. A practical introduction. New York/London: Routledge, 2009a.
    GRIES, S. Th. Statistics for Linguistics with R. Berlin/New York: Mouton de Gruyter, 2009b.
    GUY, G. R. The quantitative analysis of linguistic variation. In: PRESTON, D. (ed.), American Dialect Research, p. 223-249. Amsterdam: Benjamins, 1993.
    GUY, G. R. Linguistic variation in Brazilian Portuguese: aspects of the phonology, syntax and language history.Tese (Doutorado). University of Pennsylvania, 1981. 406f.
    LABOV, W. (1969). Contraction, deletion, and inherent variability of the English copula. Language, vol. 45(4): 715-762, 1969.
    MELLO, H.; RASO, T. Para a transcrição da fala espontânea: o caso do C-ORALBRASIL. Revista Portuguesa de Humanidades. Estudos Linguísticos, 13-1: 301-325, 2009.
    MENDES, R. B. Gênero/sexo, variação linguística e intolerância. In: BARROS, D. L. P. (ed.): Preconceito e intolerância: Reflexões linguístico-discursivas. São Paulo: Editora do Mackenzie, p. 171-192, 2011.
    MENDES, R. B. Diminutivos como marcadores de sexo/gênero. Revista Linguística 8 (1): 113-124, 2012.
    MENDES, R. B.; OUSHIRO, L. Documentação do Projeto SP2010 – Construção de uma amostra da fala paulistana, 2013. Disponível em Andlt;http://projetosp2010.fflch.usp.br/producao-bibliograficaAndgt;. Último acesso em 01 mai./2014.
    OGLE, D. H. NCStats package, v. 0.4.0. Disponível em Andlt;https://rforge.net/NCStats/Andgt;. Último acesso em 01 mai./2014.
    OUSHIRO, L. Relatório científico parcial apresentado à FAPESP. (Projeto: Identidade na pluralidade: produção e percepção linguística na cidade de São Paulo, Processo no. 2011/09122-6), 2012.
    OUSHIRO, L. Ditongação do /e/ nasal no português paulistano. In: 61 SEMINÁRIO DO GEL, 2013, São Paulo. Programação - 61 Seminário do GEL, 2013. v. 1, 2013.
    OUSHIRO, L.; MENDES, R. B. A pronúncia de /r/ em coda silábica no português paulistano. Revista do GEL, São Paulo, v. 8, n. 2, p. 66-95, 2013 [2011].
    PAIVA, M. C.; SCHERRE, M. M. P. Retrospectiva sociolinguística: contribuições do PEUL. DELTA [online], vol.15, n.spe, p. 201-232, 1999.
    R CORE TEAM (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. Disponível em Andlt;http://www.R-project.org/Andgt;. Último acesso em 01 mai./2014.
    SCHWINDT, L. C.; SILVA, T. B. da. Panorama da redução da nasalidade em ditongos átonos finais do português do sul do Brasil. In: BISOL, L.; COLLISCHONN, G. (eds.). Português do Sul do Brasil: variação fonológica, p. 13-33. Porto Alegre: EdiPUCRS, 2009.
    TENANI, L.; GONÇALVES, S. C. L. Manual do sistema de transcrição de dados (v.5) – Projeto ALIP (Amostra Linguística do Interior Paulista). Ms, s/d.
    TENANI, L.; SILVEIRA, A. A. M. O alçamento das vogais médias na variedade culta do noroeste paulista. Alfa, vol. 52(2): 447-464, 2008.
    VIEGAS, M. C. (1987). Alçamento das vogais médias pretônicas: uma abordagem sociolinguística. Dissertação (Mestrado). Universidade Federal de Minas Gerais, 1987.
    VOTRE, S. J. Aspectos da variação fonológica na fala do Rio de Janeiro. Rio de Janeiro: Pontifícia Universidade Católica do Rio de Janeiro, 1978.
    WEINREICH, U.; LABOV, W.; HERZOG, M. I. Empirical foundations for a theory of language change. In: LEHMANN, W.P.; MALKIEL, Y. (eds.). Directions for Historical Linguistics: A Symposium. Austin: University of Texas Press, 1968.
    WOLFRAM, W. Identifying and interpreting variables. In: PRESTON, D. R. (ed.), American Dialect Research, p. 193-221. Amsterdam/Philadelphia: John Benjamins, 1993.
    ZILLES, A. The development of a new pronoun: The linguistic and social embedding of a gente in Brazilian Portuguese. Language Variation and Change, vol. 17, 19-53, 2005.
Como citar:

OUSHIRO, Livia; "TRATAMENTO DE DADOS COM O R PARA ANÁLISES SOCIOLINGUÍSTICAS", p. 51 -55. In: Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014.
ISBN: 978-85-8039-086-5, DOI 10.5151/BlucherOA-MCMDS-10cap