viernes, 24 de febrero de 2023

Sondeo electoral en las elecciones municipales 2023 de Santa Cruz de Tenerife.


En el año 2016 estaba buscando un nuevo campo de investigación, interesado en PLN orientado a la política, comenté con un compañero mis inquietudes y me dijo que la Dra. Isabel Sánchez Berriel trabajaba en ese campo. Me puse en contacto con ella, con sus directivas y con el estado del arte en este campo (Messina Group, Schmidt Futures,...), pronto comenzamos a crear un sistema sobre deeplearning con un kernel de una red neuronal para hacer estimaciones electorales en base a redes sociales, periódicos, etc. Para que detectara correctamente el idioma con la herramienta Freeling, añadimos a la base de datos (MongoDB) de conocimiento: el texto de la Wikipedia, libros y novelas de diferentes autores, artículos de periódicos,... Terabytes de texto plano en español.

El sistema comenzó en el año 2016 a capturar tweets con la API Twitter4j de un conjunto de cuentas semilla pero con un subsistema de estrella que iba captando cuentas de manera exponencial fundamentándose en los followers y en los followers de los followers... pero con la etiqueta de capturar las cuentas de zonas cercanas a un punto geográfico, de tal manera se podría tener el análisis de sentimiento de las personas que estaban en una zona en concreto: un barrio, un municipio, una isla, una comunidad autónoma,... 

Tras dos años de ardua investigación, desarrollo e implementación, en mayo de 2018 publicamos la primera versión en el X Congreso Internacional de Lingüística del Corpus celebrado en Extremadura con el trabajo Técnicas de aprendizaje profundo aplicadas al análisis visual de colocaciones léxicas en español.

En este mismo año 2018, se une a nuestro grupo de investigación la Dra. María del Pilar García Díaz de la Universidad Alcalá de Henares de Madrid que añade a nuestro sistema, técnicas de neuroevolución dando unos resultados excepcionales. Y presentamos el artículo Neuroevolution techniques applied in the processing of natural language through deep learning for the analysis of texts related to the experiences in tourist destinations a las ayudas de la fundación de BBVA a los equipos de investigación

En el año 2022 la revista científica Expert Systems with Applications acepta el artículo A novel flexible feature extraction algorithm for Spanish tweet sentiment analysis based on the context of words que publica en febrero de 2023.  Con el análisis de sentimiento sobre los tweets capturados desde el 2016 hasta la actualidad, cientos de millones de tweets analizados y capturados de diferentes perfiles de diferentes ideologías políticas, de diferentes edades e intereses,... 

Tras la publicación del artículo, enfoqué el sistema a realizar la intención de voto de las elecciones municipales de 2023 en el municipio de Santa Cruz de Tenerife. Los candidatos José Manuel Bermúdez (CC), Patricia Hernández (PSOE), Carlos Tarife (PP), Ramón Trujillo (Podemos SSP IUC EQUO), Enrique Arriaga (Ciudadanos) y Alejandro Santiago Gómez (Vox) se postulan a la alcaldía. ¿Cómo visualizarán las redes sociales que se van a asignar los 27 concejales?

A continuación se muestran algunas premisas que se han contemplado en el modelo antes de generar los escenarios posibles:

- Las redes sociales son cada vez una imagen más real de la sociedad. (Entrevista a Ignacio Escolar).
- El número de jóvenes que votarán en estas elecciones es mayor y por tanto la fiabilidad es de los datos en la red, es mayor reflejo de ella.
- Los resultados se ponderan en función del recuerdo de voto gracias a un proceso iterativo que ajusta los datos hasta conseguir el mínimo error posible.
- El número personas censadas en 2022, ha sido de 209.163, frente a las 208.755 censadas en 2019. (Datos extraídos de la Web del Ayuntamiento de Santa Cruz).
- El número de personas con alguna titulación universitaria en 2022 era de 42559 (20,34%), frente a las 39796 (19,06%) personas en 2019. Entre las personas con titulación universitaria hay menos abstención y Vox no cala entre los universitarios
- La religión sigue decreciendo entre las personas más jóvenes y mayoritariamente los ateos votan a partidos de izquierda. 
- Los partidos que más crecen con el voto animalista son Podemos y PP, C's y PSOE se mantienen y  VOX no obtiene votos. 
- En los últimos años se ha disparado el apoyo de las mujeres a los partidos de izquierda, entre otros motivos porque cuentan menos con las mujeres para sus puestos de decisión o procesos participativos. (Especialmente VOX y CC).
- Se imputan los indecisos en base a la probabilidad asignada por un modelo de Maching Learning que se entrena con variables como barrio, nivel de estudios, edad, sexo, grupo ideológico o recuerdo de voto.
- La abstención ha ido decreciendo en los últimos años. 
- Este proyecto no incluye la variación de los indecisos en base al estudio de campaña electoral.
- Este proyecto no incluye ponderación de votos, por tanto, se asignará cada concejal por cada X votos.

Características técnicas con las que cuenta el sistema de información:

- Un modelo deeplearning con un rack de 4 máquinas en el IaaS (Infrastructure as a Service) de la Universidad de La Laguna para la ejecución del proceso.
- Se han utilizado 3.400 horas de computo, divididas en dos secciones, una primera sección de 2.600 horas para el procedimiento de cálculo y entrenamiento de la red neuronal, y una segunda sección con 800 horas para el proceso del sondeo del municipio de Santa Cruz de Tenerife. En el proceso de entrenamiento de la red neuronal, se debe de obtener las etiquetas de cada uno de los tweets (clasificaciones).
- El tamaño de la base de datos en el momento que comenzó con la segunda sección de cálculo es de 12 Terabytes de datos y el tamaño de la red neuronal de 56 Gigabytes. 
- Se han extraído los datos en ficheros de texto plano y cargados sobre R (The R Project for Statistical Computing).

- Las etiquetas lematizadas más significativas extraídas que se han obtenido del proceso de entrenamiento han sido: salud, carnaval, agua, taxi, ayuda, alquiler, calle, transporte, comercio, compra, policia, presupuesto, paciente, museo, joven, cd_tenerife, bono_joven, pelear, animal,  transexual, sanidad, euro, instagram, eleccion, culltura, destruccion.

Conclusiones se pueden inferir de la lógica difusa de los datos tras la segunda sección:
- La entrada del PSOE en el ayuntamiento en el año 2019 ha catapultado todas las etiquetas asociadas, de estar fluctuando entre PODEMOS-SSP-IU y PP, a estar cerca de CC. 

- La caída a nivel nacional de Cs, los tweets con análisis de sentimiento positivo mayoritariamente vienen de cuentas asociadas a Cs.
- El candidato Enrique Arriaga(Cs) no es conocido en Santa Cruz y pierde el trabajo de Matilde Zambudio en un 0,2%. 
- Patricia Hernández (PSOE) será la única mujer candidata a la alcaldía, lo cual hace que acerque el voto femenino. 
- Críticas muy feroces por los sectores más vulnerables de la sociedad hacia el museo Rodin, que directamente culpan a CC a pocos meses de las elecciones. El PP no se resiente por las críticas del museo Rodin.
- PP y CC penalizados por las críticas por la tarjeta de alimentos, tanto la subida del importe como por la falta de asignación en diciembre. 
- La concejala Evelyn Alonso genera 42,21% de sentimientos negativos y 7,03% de sentimientos positivos.  
- El sector del carnaval, como se pudo ver en la gráfica del etiquetado no salió lo bien que debería y los componentes de murgas y comparsas acusan a la organización y la ausencia de Bermúdez. El PP no se resiente por las críticas del carnaval.
- Vecinos de la Avenida San Sebastián se muestran en contra del renombrado de la avenida. Manifestándose en la calle y colgando fotos de estas en Twitter.
- Carlos Tarife gusta un 11,9% menos que Guillermo Díaz Guerra en 2019 entre los votantes del PP. 
- Los votantes de VOX no conocen al candidato al ayuntamiento.
- Un 4% de los votantes de CC no estuvo de acuerdo con la moción de censura y penaliza a CC no apoyando a otros partidos, pero si ausentándose de temas políticos.
- En año electoral, las cuentas tienen un aumento del 8,3% en temas políticos.
- Hay cierta confusión en el 13,4% de las cuentas, confundiendo la política nacional de la política local.
- Hay 2763 personas universitarias con algún tipo de diploma universitario en el que la abstención es menor.
- La figura de José Manuel Bermúdez (PNC-CC) crea rechazo en algunas cuentas, y los datos los aglutina mayoritariamente PSOE con un 82%, utilizando el vector de la palabra "volver" como el más usado y el vector de la palabra "alcaldesa" como el segundo vector más usado. 
- La etiqueta taxi, ha variado su apoyo acercándose más a PSOE (48,04%) que a CC (39,45%). 
- El apoyo a CC genera un ligero repute (3,80%) en los previos de la campaña por arreglos varios en la ciudad. Aunque también hay sentimientos negativos a estos arreglos por la cercanía de las elecciones.  

¿Por qué hacer un proceso analítico tan determinista cuando existen Webs en las que este producto está desarrollado?

Sigma Dos, Electomanía, DataManía.... realiza sondeos electorales de manera habitual para hacerse una idea de la intención de voto. La diferencia radica en que si profundizamos en el modelo que utilizan estas grandes empresas, son muy generales y realizan el mismo análisis para el municipio de Santa Cruz de Tenerife como para el Ayuntamiento de Navalmoral de la Mata. Como cualquier software, los programas ad hoc tienen en cuenta un conjunto de parámetros del problema que no tienen en cuenta el software más generalista. Contemplar el valor añadido de nuestro Carnaval,... que Si Se Puede (SSP) en el ayuntamiento de Santa Cruz siempre ha sido un baluarte a tener en cuenta, llegando a tener 4 concejales en 2015, que en las pasadas elecciones fueron independientes a PODEMOS-IU y en estas probablemente irán juntos. 
VOX no ha calado en ninguna institución canaria y se tiene un rechazo especial hacia el partido.
En el conjunto de España, mayoritariamente los votos de C's se marchan al PP, en Santa Cruz de Tenerife la única opción que se presenta como alternativa a CC es PSOE, lo cual hace que se desplacen más votos al PSOE que al PP.
La "muleta" de CC siempre sale perjudicada en las siguientes elecciones, a pesar que en esta ocasión no parece que haya desgastado mucho al PP. En el año 2015 penalizó al PP pasando de 6 concejales a 3. En el año 2011 penalizó al PSOE pasando de 5 concejales a 4. 

Escenarios posibles

Escenario 1. Proporcional a 2019. Abstención al 46,62%.

El primero de los escenarios que se ha configurado al modelo es el siguiente: 166.279 personas que se tendrán en cuenta para las votaciones, de las que habrán 77519 abstenciones, 964 nulos y 1330 en blanco. Se toma la condición que en los próximos meses las progresiones se mantienen y no sufren variaciones por la campaña electoral.

En este primer escenario los resultados darían PSOE(10,93), CC(9,06), PP(4,20), PODEMOS-SSP-IU(3,91), Cs(0,64), VOX(1,43). Cada concejal se obtiene con 2982 votos con factor de error del 5,00%. Gobierno CC(9)+PP(4)+VOX(1).

Escenario 2. Mayor participación aproximadamente 7600 votos, proporcional al censo. Abstención al 44,40%.

Se tiene la consideración que la participación aumenta proporcionalmente a las personas entre 22 y 18 que en 2019 estaban entre 13 y 17. Bajando la abstención. 
El segundo de los escenarios que se ha configurado al modelo es el siguiente: 166.279 personas que se tendrán en cuenta para las votaciones, de las que habrán 74014 abstenciones, 812 nulos y 1443 en blanco. Se toma la condición que en los próximos meses las progresiones se mantienen y no sufren variaciones por la campaña electoral.

En este segundo escenario los resultados darían PSOE(11,01), CC(8,93), PP(4,33), PODEMOS-SSP-IU(3,99), Cs(0,52), VOX(1,21). Cada concejal se obtiene con 3051 votos con factor de error del 5,00%. Gobierno PSOE(11)+PODEMOS-SSP-IU(3).

Escenario 3. Decreciendo la abstención.

En diciembre de 2015 la abstención fue de 30,17% en media del estado, mientras que en abril de 2019 de 24,25% en media del estado, siguiendo un progresión, podríamos pensar que la abstención podría bajar un 5,92% que en el municipio de Santa Cruz de Tenerife, llegaría a 40,70%.

El tercer de los escenarios que se ha configurado al modelo es el siguiente: 166.279 personas que se tendrán en cuenta para las votaciones, de las que habrán 64170 abstenciones, 812 nulos y 1443 en blanco. Se estima que en los meses próximos las progresiones se mantienen y no sufren variaciones por la campaña electoral.

En este tercer escenario los resultados darían PSOE(11,42), CC(8,97), PP(4,68), PODEMOS-SSP-IU(4,15), Cs(0,32), VOX(0,97). Cada concejal se obtiene con 3103 votos con factor de error del 5,00%. Gobierno PSOE(11)+PODEMOS-SSP-IU(4).


- Después de haber planteado tres escenarios dependientes de la abstención, se puede determinar que la abstención perjudica a los partidos de izquierda, en especial entre la gente más joven. 
- PNC-CC ha perdido crédito, pero no para dejar de tener opciones de gobierno.
- PSOE ha subido en sentimientos positivos pero no es suficiente como para asegurarse el gobierno.
- Las líneas que separan los concejales son muy finas y la campaña será determinante.
- Los datos obtenidos se deben al sentimiento positivo, negativo o neutro que ha recibido cada partido político o cada componente del partido.
- Los datos mostrados en este estudio son objetivos del entrenamiento de la red neuronal. 
- Con las cuentas capturas se ha aplicado la formula del muestreo probabilístico (muestreo estatificado) para determinar las asignaciones a cada partido.


