Astroclick :: Voir le sujet - Google numérise des milliards de mots

Google numérise des milliards de mots

Astroclick Index du Forum » Insolite et paranormal » Google numérise des milliards de mots

Voir le sujet précédent :: Voir le sujet suivant

Auteur

Message

André
administrateur

Inscrit le: 07 Jan 2007
Messages: 11031
Localisation: Montreal 45.500°N, 73.580°W

Posté le: Dim 26 Déc 2010 10:59 pm Sujet du message: Google numérise des milliards de mots

SAlut à tous

«“Dieu” n'est pas mort, mais il aurait besoin d'un bon service de communication.»

Le site ouvert ce vendredi fait la liste de tous les termes employés dans 5 millions de livres publiés depuis 1800.

C'est l'une des nombreuses conclusions à laquelle sont arrivés les chercheurs de l'université de Harvard (États-Unis) en interrogeant le corpus des 500 milliards de mots utilisés dans les 5 millions de livres numérisés par Google et plusieurs universités américaines (Science, 17 décembre 2010).

Les livres couvrant pour l'instant une période allant de 1800 à 2000, on voit nettement que l'utilisation de ce mot s'effondre à partir des années 1860 jusqu'en 1900 et que, depuis, elle reste relativement stable mais ne décolle pas.

Quand Google a lancé en 2003 son projet de numériser tous les livres publiés à ce jour dans le monde, beaucoup ont crié au scandale et à la démesure.

C'est l'un des prolongements logiques de ce travail colossal, un tout autre volet d'application que les chercheurs de Harvard présentent aujourd'hui, le jour même où les 5 milliards de mots sont mis en ligne (ngrams.googlelabs.com).

Comme son grand frère Google Earth, le site est en accès libre. Il couvre pour l'instant cinq millions de livres numérisés, publiés entre 1 800 et 2000.

Mais il est appelé à s'étoffer et va recevoir au fur et à mesure les mots des livres nouvellement numérisés. L'anglais a la part belle avec 361 milliards (Mds) d'entrées. Viennent ensuite le français et l'espagnol (45 Mds), l'allemand (37 Mds), le russe (35 Mds), le chinois (13 Mds) et l'hébreu (2 Mds).

«C'est phénoménal», reconnaît Jean Véronis, informaticien linguiste à l'université d'Aix-en-Provence.

En 1980, quand les Anglais ont numérisé un corpus d'un million de mots (le British National Corpus , NDLR), c'était déjà considéré comme une révolution. Avec Google, on est dans un tout autre ordre de grandeur.»

Le corpus est gigantesque.

«Lire les seules entrées de l'année 2000 à raison de 200 mots par minute demanderait plus de huit ans entiers sans aucune interruption.

Si on écrivait tous les mots et les séquences de mots mis en ligne aujourd'hui cela représenterait dix allers-retours Terre-Lune», notent les chercheurs de Harvard qui ont conçu le projet et l'ont mis en forme.

À leur tête, il y a Jean-Baptiste Michel, un jeune polytechnicien français de 28 ans, et Erez Lieberman Aiden, un mathématicien, physicien et philosophe américain.

Ils travaillent dans le plus grand secret depuis quatre ans à ce projet.

C'est eux qui ont établi les algorithmes et les tables de fréquence qui permettent de faire parler tous les mots des livres numérisés, de saisir leurs trajectoires et d'essayer par ce biais de retracer l'évolution des sociétés et des cultures.

Les chercheurs appellent cela la «culturomique», faisant ainsi référence à toutes les nouvelles sciences biologiques en «omique» (génomique, protéomique, métagénomique, métabolomique) qui se sont multipliées au cours de la période récente.

La seule différence, cette fois, c'est qu'il ne s'agit pas de gènes ou de protéines qui ne font pas partie de notre univers familier mais des mots que même les enfants utilisent.

Seule contrainte: pour éviter tout problème de copyright, les chercheurs ont dû dépouiller les mots de leur contexte.

On ne trouve donc dans le corpus de Google que des mots bruts, réduits à leur plus simple expression.

Un point qui ne manquera pas de faire tiquer historiens et spécialistes des sciences humaines.

Une avalanche de nouveaux mots

Jean-Baptiste Michel et son équipe donnent un rapide aperçu de ce qu'on peut retirer de ce nouvel outil.

D'abord, ils peuvent compter les mots à travers l'histoire (ils l'ont fait pour l'anglais).

Ils se sont aperçus ainsi que leur nombre ne cesse d'augmenter depuis les années 1900.

Cette année-là, ils en ont dénombré 544.000 en tout, puis 597.000 en 1950 et 1.022.000 en 2000.

«L'addition de 8.500 mots par an a augmenté la quantité de mots de plus de 70% en cinquante ans», notent-ils.

Évidemment, les dictionnaires sont dépassés par cette avalanche de mots nouveaux.

52% des mots utilisés dans les livres en 2000 ne figurent pas dans les deux principaux dictionnaires anglo-américains.

Le responsable de l'un d'entre eux a d'ailleurs convenu qu'il ne pourrait plus se passer de ce nouvel outil.

Même chose pour son confrère de l'Encyclopedia Britannica qui a collaboré de près avec les chercheurs de Harvard.

Le corpus permet de suivre l'évolution de la grammaire aussi bien que l'évolution de la durée de la célébrité d'un siècle à l'autre.

«Les gens deviennent plus célèbres qu'avant mais ils sont oubliés aussi plus vite», écrivent les chercheurs .

Pour montrer l'intérêt de leur corpus, ils ont comparé en anglais et en allemand l'occurrence des noms d'artistes juifs comme Marc Chagall.

En allemand, son nom disparaît entre 1936 et 1944, au plus fort du nazisme et de la persécution contre les Juifs.

Ce type de recherche peut s'exercer dans tous les domaines, de la nourriture à la place des femmes dans la société en passant par l'innovation technologique, les maladies, les problèmes politiques, les guerres, etc.

«C'est tous les jours un bonheur de travailler sur ce projet.

On se sent un peu comme des explorateurs», témoigne Jean-Baptiste Michel.

Il espère que le site aura bientôt de nombreux utilisateurs.

Un puissance téléscope pour regarder les mots

Ce qui frappe tout le monde dans le projet de «Googlemots», c'est la dimension astronomique.

«C'est comme un puissant télescope qui permet de voir des choses extraordinaires que l'on n'a jamais vues auparavant. Le site Internet pourrait être une ressource fabuleuse pour l'enseignement et les historiens.

C'est très sérieux, même s'il y a quelque naïveté à affirmer qu'on va soudain faire apparaître toute la culture humaine car les données sont très hétérogènes» , souligne Jean Véronis, informaticien-linguiste à l'université d'Aix-en-Provence.

Une réserve partagée par Francis Chateauraynaud, sociologue au CNRS, qui utilise des logiciels pour les controverses qui traversent notre société (OGM, nucléaire, etc.).

«Je suis amateur d'outils numériques en sciences sociales, mais je suis réservé.

Il faut attendre et voir si le changement d'échelle permet de produire une connaissance. Les mots étant sortis de leur contexte, on a un point de vue satellitaire, un peu comme avec Google Earth.

C'est comme s'il n'y avait pas de lecteur.

L'intérêt, c'est de sortir de l'instantané et du flux de l'Internet et de remettre de la durée, mais il faut pouvoir retrouver le sens des mots.»

Que se passera-t-il quand seront intégrés les articles de revues et de journaux, les e-mails, le contenu des blogs et des forums?

On peut se le demander.

La source ;

http://www.lefigaro.fr/sciences/2010/12/16/01008-20101216ARTFIG00752-google-numerise-des-milliards-de-mots.php

Amicalement
_________________
Etrange époque où il est plus facile de désintégrer l' atome que de vaincre un préjugé.

Einstein, Albert,

Revenir en haut »

b1a2s3a4l5t6e7
Administrateur-superviseur

Inscrit le: 22 Jan 2007
Messages: 3227
Localisation: Québec,(Québec),Canada

Posté le: Mar 28 Déc 2010 7:08 pm Sujet du message: Google numerise des milliards de mots

Citation:

Que se passera-t-il quand seront integres les articles de revues et de journaux, les e-mails, le contenu des blogs et des forums?
On peut se le demander.

a part les emails, je croyais que c'etait l'inverse, bien que je savais que certain dictionnaire, encyclopedie et certain livre d'exception etait numeriser, cela m'etonne que la plupart des livres publier de 1800 a 2000 soit tous ou presque numeriser,
pour les articles de journaux(presque tous), les blogs(au choix) et les forums(tous), ils sont deja numeriser et disponible au public;
quelques jours apres avoir ecrit et publier un sujet sur le web ou sur Internet, il suffit de faire une recherche sur ce sujet (avec une barre de recherche quelconque), pour s'en rendre compte,
mais pour les e-mails, j'espere que nous souhaitons tous qu'ils demeurent discret Exclamation

_________________
Merci de votre attention et de votre intérêt
Pierre Jones-Savard

Revenir en haut »

Montrer les messages depuis:

Astroclick Index du Forum » Insolite et paranormal » Google numérise des milliards de mots
	Toutes les heures sont au format GMT - 2 Heures
Page 1 sur 1

Sauter vers:

Vous ne pouvez pas poster de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous ne pouvez pas voter dans les sondages de ce forum