Palabras descriptivas
La idea del motor de palabras descriptivas surgió cuando estaba construyendo el motor de palabras relacionadas (es como un tesauro, pero te da un conjunto mucho más amplio de palabras relacionadas, en lugar de sólo sinónimos). Mientras jugaba con los vectores de palabras y la API «HasProperty» de conceptnet, me divertí un poco intentando obtener los adjetivos que suelen describir una palabra. Finalmente me di cuenta de que hay una manera mucho mejor de hacer esto: ¡analizar libros!
El Proyecto Gutenberg fue el corpus inicial, pero el analizador sintáctico se volvió cada vez más codicioso y terminé alimentándolo con alrededor de 100 gigabytes de archivos de texto – en su mayoría de ficción, incluyendo muchas obras contemporáneas. El analizador simplemente busca en cada libro y saca las distintas descripciones de los sustantivos.
Esperemos que sea algo más que una novedad y que algunas personas lo encuentren realmente útil para su escritura y para la lluvia de ideas, pero una pequeña cosa interesante para probar es comparar dos sustantivos que son similares, pero diferentes de alguna manera significativa – por ejemplo, el género es interesante: «mujer» frente a «hombre» y «niño» frente a «niña». En un rápido análisis inicial, parece que los autores de ficción son al menos 4 veces más propensos a describir a las mujeres (frente a los hombres) con términos relacionados con la belleza (en cuanto a su peso, rasgos y atractivo general). De hecho, «bella» es posiblemente el adjetivo más utilizado para referirse a las mujeres en toda la literatura mundial, lo que concuerda bastante con la representación unidimensional general de las mujeres en muchos otros medios de comunicación. Si alguien quiere investigar más sobre esto, que me avise y puedo darle muchos más datos (por ejemplo, hay unas 25000 entradas diferentes para «mujer» – demasiadas para mostrarlas aquí).
El color azul de los resultados representa su frecuencia relativa. Puede pasar el ratón por encima de un elemento durante un segundo y aparecerá la puntuación de la frecuencia. La ordenación de la «singularidad» es predeterminada, y gracias a mi Complicated Algorithm™, los ordena por la singularidad de los adjetivos con respecto a ese sustantivo en particular en relación con otros sustantivos (en realidad es bastante simple). Como era de esperar, puedes hacer clic en el botón «Ordenar por frecuencia de uso» para ordenar los adjetivos por su frecuencia de uso para ese sustantivo.