Home Linguistics & Semiotics 25. La linguistica italiana dei corpora
Chapter
Licensed
Unlicensed Requires Authentication

25. La linguistica italiana dei corpora

Become an author with De Gruyter Brill
Manuale di linguistica italiana
This chapter is in the book Manuale di linguistica italiana
Emanuela Cresti e Massimo Moneglia25 La linguistica italiana dei corporaAbstract:Larticolo presenta le caratteristiche che definiscono i corpora (annotazio-ne, rappresentatività, bilanciamento) e, vista la relativa novità della metodologia,anche alcuni dei principali strumenti concettuali necessari a derivare da essi informa-zioni linguistiche. Sono passati in rassegna i corpora già realizzati per litaliano(scritto, web, parlato spontaneo e trasmesso), testimonianza di una mole considere-vole di dati a disposizione della comunità scientifica. Larticolo individua infine iprincipali domini dello studio empirico delluso linguistico che si sono avvalsidellindagine su corpora italiani (lessici, vocabolari, ricerche di fonetica e intonazio-ne, morfo-sintassi e struttura dellinformazione, semantica, insegnamento dellitalia-no L2) e presenta brevemente alcuni dei più importanti contributi realizzati negliultimi 15 anni, per lo più dispersi in molte sedi di pubblicazione.Keywords:corpus, linguistica dei corpora, corpora italiani, ricerche italiane su corpo-ra1 IntroduzioneLa linguistica dei corpora ha origini relativamente recenti e si basa sulla disponibilitàdi tecnologie informatiche che consentono di raccogliere e interrogare in modosistematico grandi quantità di testi che, con le metodologie oggi a disposizione,possono raggiungere lordine dei miliardi di parole. In questo senso la disciplinariguarda sia lo studio del dato linguistico in quanto tale, sia le specifiche modalitàdella sua archiviazione e del recupero dellinformazione in esso contenuta.Ci preme accennare brevemente a quella polemica tra linguistica «della compe-tenza» e linguistica basata sui dati della produzione che ha avuto ampio spazio neidibattiti scientifici degli ultimi cinquanta anni; la presupposizione che la competen-za da sola fosse in grado di produrre tutte le costruzioni possibili e grammaticali diuna lingua è stata a lungo tipica del primo tipo di approccio (Chomsky 1965).Veniva contrapposta una indagine basata sulla pretesa esaustività della competen-za, generata dalla conoscenza della lingua e valida per le linguetout-court, ad unaricerca empirica basata sulla selezione di un corpus finito, a partire da tutte leproduzioni linguistiche possibili entro un certo dominio. Ma lanalisi di un corpus,anche non eccessivamente esteso, permette di rilevare fatti linguistici scarsamenteprevedibili in maniera deduttiva. I dati di frequenza, poi, possono essere un indicedeterminante per decidere della basicità o perifericità di un certo lemma o dicostrutto sintattico in una lingua. Inoltre, gli esempi presi dal vivo offrono unacomplessità che sovente mette in seria crisi algide schematizzazioni ipotizzate subase deduttiva.
© 2016 Walter de Gruyter GmbH, Berlin/Munich/Boston

Emanuela Cresti e Massimo Moneglia25 La linguistica italiana dei corporaAbstract:Larticolo presenta le caratteristiche che definiscono i corpora (annotazio-ne, rappresentatività, bilanciamento) e, vista la relativa novità della metodologia,anche alcuni dei principali strumenti concettuali necessari a derivare da essi informa-zioni linguistiche. Sono passati in rassegna i corpora già realizzati per litaliano(scritto, web, parlato spontaneo e trasmesso), testimonianza di una mole considere-vole di dati a disposizione della comunità scientifica. Larticolo individua infine iprincipali domini dello studio empirico delluso linguistico che si sono avvalsidellindagine su corpora italiani (lessici, vocabolari, ricerche di fonetica e intonazio-ne, morfo-sintassi e struttura dellinformazione, semantica, insegnamento dellitalia-no L2) e presenta brevemente alcuni dei più importanti contributi realizzati negliultimi 15 anni, per lo più dispersi in molte sedi di pubblicazione.Keywords:corpus, linguistica dei corpora, corpora italiani, ricerche italiane su corpo-ra1 IntroduzioneLa linguistica dei corpora ha origini relativamente recenti e si basa sulla disponibilitàdi tecnologie informatiche che consentono di raccogliere e interrogare in modosistematico grandi quantità di testi che, con le metodologie oggi a disposizione,possono raggiungere lordine dei miliardi di parole. In questo senso la disciplinariguarda sia lo studio del dato linguistico in quanto tale, sia le specifiche modalitàdella sua archiviazione e del recupero dellinformazione in esso contenuta.Ci preme accennare brevemente a quella polemica tra linguistica «della compe-tenza» e linguistica basata sui dati della produzione che ha avuto ampio spazio neidibattiti scientifici degli ultimi cinquanta anni; la presupposizione che la competen-za da sola fosse in grado di produrre tutte le costruzioni possibili e grammaticali diuna lingua è stata a lungo tipica del primo tipo di approccio (Chomsky 1965).Veniva contrapposta una indagine basata sulla pretesa esaustività della competen-za, generata dalla conoscenza della lingua e valida per le linguetout-court, ad unaricerca empirica basata sulla selezione di un corpus finito, a partire da tutte leproduzioni linguistiche possibili entro un certo dominio. Ma lanalisi di un corpus,anche non eccessivamente esteso, permette di rilevare fatti linguistici scarsamenteprevedibili in maniera deduttiva. I dati di frequenza, poi, possono essere un indicedeterminante per decidere della basicità o perifericità di un certo lemma o dicostrutto sintattico in una lingua. Inoltre, gli esempi presi dal vivo offrono unacomplessità che sovente mette in seria crisi algide schematizzazioni ipotizzate subase deduttiva.
© 2016 Walter de Gruyter GmbH, Berlin/Munich/Boston

Chapters in this book

  1. Frontmatter I
  2. Manuali di linguistica romanza V
  3. Indice VII
  4. 0. Introduzione 1
  5. L’italiano nella storia
  6. 1 Dal latino alle scriptae italoromanze 9
  7. 2. Storia linguistica interna: profilo dei volgari italiani 31
  8. 3. Sintassi dell’italiano antico 62
  9. 4. Storia linguistica esterna: fattori unificanti 90
  10. 5. L’italiano fuori d’Italia: dal Medioevo all’Unità 125
  11. 6. Varietà di lingua nel passato 146
  12. L’italiano contemporaneo: strutture e varietà
  13. 7. Architettura dell’italiano di oggi e linee di tendenza 165
  14. 8. Morfologia e formazione delle parole 190
  15. 9. La dimensione testuale 222
  16. 10. Le «facce» della pragmatica nella ricerca italiana 242
  17. 11. Profilo sociolinguistico 262
  18. 12. L’Italia dialettale 275
  19. 13. Gli italiani regionali 301
  20. 14. L’italiano dei semicolti 328
  21. 15. Gerghi. Lingua e giovani. Lingua e genere 351
  22. 16. Linguaggi specialistici e settoriali 371
  23. 17 L’italiano e i media 396
  24. 18. Usi pubblici e istituzionali dell’italiano 417
  25. 19. Aspetti diamesici 442
  26. 20. L’italiano degli stranieri; l’italiano fuori d’Italia (dall’Unità) 459
  27. 21. Lingue di minoranza, comunità alloglotte 484
  28. 22. La lessicografia 509
  29. 23. La grammaticografia 536
  30. 24. La geografia linguistica 553
  31. 25. La linguistica italiana dei corpora 581
  32. 26. Linguistica e filologia 612
  33. 27. Questioni linguistiche e politiche per la lingua 633
  34. 28. La linguistica applicata e la linguistica cognitiva 655
  35. 29. La didattica dell’italiano 686
  36. 30. La Lingua dei Segni italiana 707
  37. Indice analitico 729
Downloaded on 9.10.2025 from https://www.degruyterbrill.com/document/doi/10.1515/9783110360851-027/html?licenseType=restricted&srsltid=AfmBOoqpPtG0RJlcj9Igh1EAP1eZPY3Lv0JuD8L0GQOPiL8P9qCnJ3X3
Scroll to top button