Opinión:

Google y el nacimiento de la culturomía

Google y el nacimiento de la culturomía

La revista Science publicó en el mes de diciembre de 2010 el artículo "Quantitative Analysis of Culture using Millions of Digitized Books" por un equipo de investigadores encabezados por Jean-Batiste Michel. El documento fue publicado por Science Express (www.sciencexpress.org), que es un sistema de publicación de artículos escogidos de la revista en avance a su publicación final en la versión impresa.

Antes de referirme al contenido del artículo, describiré un poco de información contextual. De acuerdo a John Bohannon (2010), el matemático Erez Lieberman-Aiden, mientras realizaba en el año 2007 su doctorado sobre genoma en la Universidad de Harvard, solicitó al jefe de investigación de Google el acceso a los datos del proyecto Google Books, que consiste en la digitalización de todos los libros publicados. El argumento de Lieberman-Aiden fue que es posible un estudio riguroso de la evolución de la cultura en gran escala mediante el análisis del crecimiento, cambio y declinación de las palabras publicadas a lo largo de los siglos.

El principal problema que enfrentaba la idea era que muchas de los obras tienen copyright y, por lo tanto, se necesitaba la autorización de dichos autores. La solución de Lieberman-Aiden fue que era posible ocupar dichos libros pues, en realidad, no los leería, si no que el libro digitalizado sería transformado a una lista de palabras, las cuales podían ser estudiadas en forma estadística. La unidad de análisis se llama "n-gram", que describiré más adelante.

Lieberman-Aiden solicitó ayuda a Jean-Baptiste Michel, en ese instante estudiante de doctorado de la Universidad de Harvard, pero del campo de la biología evolucionaria (o evolutiva, dependiendo de la traducción). El objetivo de ellos era explorar el lenguaje escrito con técnicas matemáticas prestadas de la biología evolucionaria. Michel y Lieberman-Aiden han bautizado este campo como "culturomics", siendo mi traducción culturomía.

Con respecto al artículo, los autores señalan que trabajaron con 5.195.769 de libros, lo que representa alrededor del 4% de todos los libros publicados en la historia de la humanidad. El proyecto Google Books posee al 2010 la cantidad de 15 millones de libros digitalizados, que corresponde alrededor del  12% de todos los libros publicados.

En su sentido más general, los autores señalan que la culturomía se inscribe dentro del campo de los estudios cuantitativos de la cultura. La principal diferencia con la tradición es la escala en la cual trabaja la culturomía. La base de datos que construyeron contiene 500 billones de palabras en inglés (361 billones), francés (45 billones), español (45 billones), alemán (37 billones), ruso (35 billones), chino (13 billones)y hebreo (2 billones).

En términos metodológicos, la unidad de análisis se llama "n-gram". Un "1-gram" es la unidad más básica, que consiste en una secuencia de caracteres no interrumpida por un espacio, por ejemplo, "manzana" o "FACSO". Un ejemplo de "2-gram" sería "elección presidencial" y un ejemplo de "5-gram" podría ser "La Facultad de Ciencias Sociales". El estudio se restringió hasta "5-gram" que tuvieran como mínimo una ocurrencia de 40 veces en la base de datos. Los autores señalan que la frecuencia es calculada dividiendo el número de instancias de un "n-gram" en un año dado por el número total de palabras en la base de datos para ese año. La base de datos, dado ese criterio, posee 2 billones de palabras y está disponible para descargar en www.culturomics.org.

De acuerdo a los autores, hay dos factores centrales que contribuyen a una tendencia culturómica. El primero es el cambio cultural, que guía los conceptos que son analizados y el segundo es el cambio lingüístico, que afecta las palabras que usamos para esos conceptos. Un ejemplo del primero es la palabra "guerra" (una palabra seleccionada que tiene sentido para nosotros). El ejemplo que aparece en el artículo es la palabra "esclavitud". Un ejemplo del segundo es "guerra contra el terrorismo", que es la manera como hablamos sobre la guerra.

Al ocupar esta metodología, los autores concentran su atención en algunos ejemplos del idioma inglés, de los cuales presentaré algunos. Entre ellos, calculan que en 1900 el inglés consistía en alrededor de 544.000 palabras, en 1950 de 597.000 y en el 2000 de 1.022.000 palabras. Este enorme crecimiento del léxico se relaciona con otro tema: los diccionarios. Claramente estos no pueden contener todas las palabras usadas hoy porque un libro así sería muy difícil de emplear (además del costo y su actualización permanente). Ocupando como referencia dos diccionarios importantes (uno de ellos Webster), los investigadores descubren que un 52% de las palabras ocupadas en los libros no aparece en diccionarios, a lo cual llaman "materia oscura", por analogía a la terminología astronómica.

Al estudiar inventos, descubren que entre 1800 y 1840, estos tomaban 66 años en tener un amplio impacto. Entre 1840 y 1880 el impacto se reduce a 50 años y entre 1880 y 1920 el impacto es de sólo 27 años. Esto les permite inferir que la adopción cultural de la tecnología se ha incrementado en la sociedad.

Al concentrarse en celebridades, analizan cómo estas aparecen, llegan a la cúspide de su fama y luego son olvidadas. Para tal efecto, tomaron las 740.000 personas que tienen una entrada en Wikipedia, hasta llegar a una lista de las 50 personas más referidas por cada año desde 1880. Descubren que no importa la época, el momento de mayor fama es 75 años después del nacimiento. La diferencia está en que una persona famosa en el siglo 19 tenía en promedio 43 años y a mediados del siglo 20 tenía 29 años (además, son famosos por menos tiempo).

Al concentrarse en ocupaciones en relación con la edad entre 1800 y 1920, específicamente actores, artistas, escritores, políticos, biólogos, médicos y matemáticos, descubren que los actores son famosos alrededor de los 30 años, los escritores a los 40 años y los políticos desde los 50 años. La ciencia no es un camino a la fama, señalan.

Otro ejemplo es la censura. Al comparar los libros en inglés y en alemán durante la época Nazi, descubren que el artista judío Marc Chagall casi no es mencionado en libros alemanes. También realizan este examen en China con "Plaza Tiananmen".

En las conclusiones del artículo, los autores definen la cultoromía como el estudio de la cultura humana mediante el análisis y recolección de datos procesados en gran escala. También plantean que los resultados de la cultoromía son un nuevo tipo de evidencia para las humanidades, siendo el principal desafío la interpretación de esta evidencia. El actual proyecto incluye libros, pero próximamente periódicos, manuscritos, mapas, arte, entre otros.

Dado que la base de datos está disponible, ingresé dos términos para ver su distribución estadística: "América Latina" y "Latinoamérica". Ocupé solamente los libros en idioma español, entre 1880 y 2000. El resultado muestra en el Gráfico 1.

¿Cómo podemos interpretar este resultado? Una descripción del gráfico indica que el uso de estos conceptos en libros digitalizados escritos en idioma español disponibles en la actual versión de la base datos, comienza a incrementarse desde el año 1900, con un fuerte crecimiento desde 1960 en adelante, pero que desde 1990 entran en declinación. Pero, ¿qué importancia tiene este dato?, ¿qué nos dice? Tal vez que la discusión sobre América Latina es una discusión de finales del siglo XX, asociada a los cambios sociales de la región entre el término de la Segunda Guerra Mundial y el fin de siglo, centrada tal vez en temas de industrialización y desarrollo.

Al ingresar los conceptos "industrialización" y "globalización" (ver Gráfico 2), podemos describir que el término "industrialización" se ocupa en el siglo XX, con un fuerte uso entre 1960 y 1990, declinando posteriormente. El concepto "globalización" es casi inexistente hasta 1980, momento desde el cual se emplea fuertemente. Repito la pregunta, ¿qué nos dice esto? Puedo describir que la conversación sobre industrialización ocurrió principalmente entre las décadas de 1960 y 1990, pero que la actual conversación es sobre globalización.

 

Empero, este es el problema para las ciencias sociales: cómo analizamos los datos que nos entrega la culturomía.

La antropología se ha definido como la ciencia que estudia la cultura humana. Tradicionalmente ha empleado la metodología cualitativa para tal propósito, aunque también la metodología cuantitativa. Los creadores de la culturomía tienen el mismo objeto de estudio, pero su metodología es específica: procesamiento de datos en gran escala mediante software. En su actual versión, ocupan las palabras publicadas en libros (a la fecha digitalizados).

Esto hace, por ahora, a la culturomía una actividad científica muy específica o limitada a un indicador de la cultura (los libros) y una metodología (frecuencias estadísticas). Sus autores no son científicos sociales. De hecho, ninguno de los actuales participantes del equipo lo son. Tal vez ahí esté la principal diferencia, pero también el principal reto: nosotros, los científicos sociales, en principio deberíamos ser capaces de analizar los datos generados por Google Books, dado que estamos parados sobre los hombros de gigantes de las ciencias sociales (para emplear la expresión de Merton) y que, dadas estas nuevas herramientas metodológicas, nos permitirán avanzar aún más en el estudio de la cultura humana.

Es justamente en la capacidad de hacer sentido de los datos donde podríamos sentirnos desafiados y, creo, que es uno de los desafíos más interesantes que nos han propuesto al comenzar la segunda década del siglo 21.

Bibliografía

Bohannon, J. 2010. Google opens books to new cultural studies. Science Magazine 330 (6011): 1600. DOI: 10.1126/science.330.6011.1600

Michel, JB. et. al. 2010.Quantitative analysis of culture using millions of digitized books.Science Express 16 December 2010: 1-12. DOI: 10.1126/science.1199644

 

Últimas noticias

Pensar la critica en tiempos de policrisis: decana Teresa Matus participa en enciclopedia internacional de teoría crítica.

Pensar la critica en tiempos de policrisis con decana Teresa Matus

La participación de la decana de la Facultad de Ciencias Sociales, Teresa Matus, en el Primer Seminario Internacional de Editores de la Palgrave Encyclopedia of Critical Theory, contribuyó a la coordinación editorial y la definición de estándares de publicación de esta obra, donde la decana destaca como autora principal y coautora de cinco conceptos. Asimismo, la instancia buscó fortalecer redes académicas internacionales en el campo de la teoría crítica y los estudios interdisciplinarios.

Proceso de duelo en familias multiespecies es abordado en investigación de postgrado.

Duelo en familias multiespecies se aborda en investigación de Magíster

A través del relato de cuatro personas que han vivido el fallecimiento de un animal que ocupa un lugar importante en sus grupos familiares, la investigación de Estella Ortiz, titulada del Magíster de Psicología Clínica en Adultos de la Facultad de Ciencias Sociales, busca visibilizar esta realidad que cada vez se ha masificado más en nuestro país. "El dolor de Perderte: Narrativas sobre la Muerte de un Animal Miembro de una Familia Multiespecie" se llama su tesis que describe el proceso vivido y la resonancia que esta experiencia ha tenido en los entornos y relaciones que han rodeado a una "familia multiespecie".

Chile será sede del IX Congreso Latinoamericano de Psicogerontología: universidades convocan a reflexionar sobre envejecimiento, salud mental y cuidados.

Chile será sede del IX Congreso de Psicogerontología

Los días 20, 21 y 22 de noviembre de 2025, se realizará en Santiago el IX Congreso Latinoamericano de Psicogerontología que, desde hace 20 años, se ha posicionado como una instancia clave para compartir conocimientos, fortalecer redes y reflexionar sobre los avances y desafíos en torno al envejecimiento y la salud mental en la vejez.

Exitosa nueva capacitación sobre Género dictó la facultad a 120 profesionales de JUNJI.

Exitosa nueva capacitación sobre Género dictó la facultad a JUNJI

Por segundo año consecutivo, funcionarios/as dependientes de la Junta Nacional de Jardines Infantiles (JUNJI) de todo el país, asistieron a la capacitación dictada por la Facultad de Ciencias Sociales “Género Nivel Avanzado: Actualización conceptual, reflexión y análisis crítico de la práctica pedagógica desplegada y reformulación de ésta para una gestión institucional inclusiva”. Nuevamente, el taller fue coordinado por la profesora de Educación, Ximena Azúa, y contó con la participación de académicas e investigadoras expertas en género.