Las palabras no se quedan en su lugar: seguimiento de los microcambios del vocabulario

Ago 23, 2021

Este artículo forma parte del Proyecto de Climatología de Inversión, cuyo objetivo principal es buscar respuestas a la pregunta: ¿De qué está hablando de una manera diferente el mundo de la inversión? Podes ver más acá.

Por Marcelo Rinesi

Entender cuándo y con qué frecuencia se utilizan los términos es una parte importante de la cartografía de cómo cambia la charla en el mundo del venture capital a lo largo del tiempo, pero también es relevante entender cómo se aplican. La forma más básica de hacerlo es observar los patrones relativos de uso: se puede saber qué hace una palabra por la compañía que tiene.

Como ejemplo concreto, veamos los patrones de lenguaje en la comunidad inversora en el periodo comprendido entre finales de febrero y finales de mayo de 2021, y cómo cambió entre entonces y finales de agosto.

Perderse en un mapa

Los pasos iniciales del análisis son bastante estándar: elegimos una lista de unos cincuenta términos clave entre los más utilizados durante el período (siempre utilice  librerías específicas de NLP, no manipulación ad hoc de textos), construimos la matriz de co-ocurrencia para ellos y luego la utilizamos para construir una métrica de distancia entre los términos en cuestión.

Este enfoque funciona muy bien para mapear la «cartografía latente» del S&P 500:

Las palabras no se que dan en su lugar

Utilizando el modelo neuronal BERT, la misma idea general subyace en este mapa no oficial del mundo TED:

mapa del mundo TED

Sin embargo, aplicando este método a los textos del mundo de la inversión que estamos siguiendo en el Proyecto de Climatología de Inversión, los resultados no son tan esclarecedores (aunque no dejan de ser interesantes):

Las palabras no se quedan en su lugar

Esto no es una distribución al azar de palabras. Se puede ver, por ejemplo, cómo CEO y co-founder forman una pareja cercana, o el grupo suelto de términos relacionados con la inversión en la esquina superior izquierda del gráfico. Pero esto no es tan informativo como nos gustaría, y no está claro cómo podría usarse para describir los cambios en el uso de las palabras. Es mejor que una nube de palabras -una nube de palabras no puede distinguir entre Hamlet y Hamlet, pero con las palabras en orden alfabético-, pero no es lo suficientemente preciso para nuestros fines.

El mundo puede ser plano, pero el lenguaje no lo es

Para construir una visión algo más detallada del uso de las palabras, aprovechamos la matriz de distancia para construir una clusterización jerárquica de términos, pasando de un gran conjunto de términos poco relacionados a grupos cada vez más específicos:

Las palabras no se quedan en su lugar

Si se observan los primeros elementos en la parte superior se puede ver cómo se unen en una jerarquía. Customer y service van estrechamente unidos (bueno, al menos lingüísticamente), a lo que se añade business y luego platform para completar una agradable unidad semántica.

Por cierto, quizá sobre todo por razones estéticas, pero también porque realmente no tiene ningún significado particular estar en la parte superior o inferior de la lista anterior, prefiero la versión en abanico de ese gráfico. Al rodear el círculo se ven pares interesantes como strategy y challenge o social y content, que por sí mismos ya son indicativos de la visión del mundo de la comunidad:

Las palabras no se quedan en su lugar

Construimos así una especie de mapa muy primitivo de cómo los términos se utilizan juntos (o no) dentro de las charlas del mundo de la inversión entre finales de febrero y finales de mayo de 2021. Podemos construir el equivalente para el periodo entre finales de mayo y finales de agosto. El problema es que, ya sea como árbol o como abanico, no es muy fácil hacerse una idea útil del cambio de lenguaje comparando los clusters jerárquicos a ojo:

Las palabras no se quedan en su lugar

Un enfoque más fructífero es elegir términos de interés y ver cómo han cambiado a lo largo del tiempo comparando sus vecindades: los grupos jerárquicos que podemos construir centrándonos sólo en los, digamos, cuatro términos más cercanos durante el periodo.

Comenzamos observando el termino fund:

Las palabras no se quedan en su lugar

Como era de esperar, se trata de un término tan básico en este contexto que sus patrones de uso no cambiaron realmente entre esos dos periodos, excepto por un intercambio mínimo entre venture e invest; el orden de los términos dentro de grupos específicos puede ignorarse con seguridad. Sin embargo, otros términos muestran cambios interesantes en su uso, lo que indica cambios en los conceptos y preocupaciones de la comunidad subyacente.

Palabras que no se quedaron en su lugar

El término obvio que hay que mirar es COVID:

Las palabras no se quedan en su lugar

Que COVID siga estando estrechamente asociado a pandemic era un hecho esperable -esperemos que siga siendo así durante mucho tiempo-, pero hubo un cambio clave en la vecindad del término: donde estaba strategy, ahora encontramos improvement. Se trata de un interesante correlato lingüístico, y de un punto culminante, de cómo el foco de atención de la comunidad inversora se ha desplazado, en parte, de la búsqueda de estrategias para hacer frente al COVID, a la esperada (y en este momento no plenamente consolidada) mejora pospandémica en los sectores y actividades más afectados.

La forma en que este enfoque cambió es aún más clara cuando observamos el término que está en el centro de la visión del mundo de la inversión: opportunity.

Las palabras no se quedan en su lugar

¡COVID está ahí! Y también lo está, de hecho, community, desplazando (uno sospecharía no de manera completa) a financial. Siempre es peligroso dar importancia en exceso a este tipo de análisis, pero contribuye a enmarcar los recientes cambios de humor de los inversores -al menos hasta hace unos días- hacia la visión del mundo relativamente -o en algún momento- posterior al COVID a través de la lente de un conjunto de oportunidades más allá de una recuperación lineal.

El hecho de que estas oportunidades están en parte relacionadas con la comunidad también se ve reforzado por los cambios en la vecindad lingüística del término public:

Las palabras no se quedan en su lugar

Si el estrecho par public/private estaba vinculado hace meses, y de forma muy plausible, a COVID y a information, ahora lo está a socialimpact, lo que va en paralelo a un nivel de discusión cada vez mayor -no todo elogioso- sobre el impacto social del mundo de la inversión.

Sobre los usos de las palabras y sus cambios

Es probable que ninguna de las observaciones en este artículo sorprenda a nadie que siga de cerca este campo, pero no es su objetivo; todavía no hemos llegado a un punto en el que las herramientas de análisis lingüístico automatizado superan a los expertos en la materia (lo que no quiere decir que sea imposible, solo que no estamos todavía ahí). Se trata de insinuar cómo pueden utilizarse para entender los cambios en sub-dominios específicos y estrechos que son simplemente demasiado complejos o demasiado numerosos para ser supervisados continuamente de una manera escalable. Cuanto más especializado sea el dominio, más interesante y potencialmente útil es encontrar y modelar los cambios en los patrones de uso de los términos clave.

Por supuesto, tan interesante como saber cómo han cambiado los patrones de uso, es aún más interesante obtener pistas sobre cómo están cambiando. Pero eso es para otro post.

Marcelo Rinesi

Si querés recibir noticias de
Baikal dejanos tu mail