Análisis de preferencia de atributos
Distribución de la diferencia de atributos
En las citas online, existen diferencias significativas de género en cuanto a la preferencia de atributos, la autopresentación y la interacción . Los usuarios suelen tener cierta preferencia por la edad o la altura de los compañeros. Tanto para los hombres como para las mujeres, cuando envían mensajes a sus potenciales parejas, calculamos la diferencia de edad como edad(receptor) – edad(emisor), y la diferencia de altura como altura(receptor) – altura(emisor). Las figuras 1 y 2 muestran las distribuciones de la diferencia de edad y de la diferencia de altura, respectivamente. Como comparación, también mostramos los resultados aleatorios suponiendo que los usuarios femeninos (hombres) envían mensajes al azar a usuarios masculinos (mujeres).
En la mayoría de los tiempos y lugares, las mujeres suelen casarse con hombres mayores . La figura 1 muestra que en la sociedad china moderna, por término medio, los hombres prefieren a las mujeres dos años más jóvenes que ellos y las mujeres a los hombres dos años mayores que ellos. Sin embargo, el rango de diferencia de edad que aceptan las mujeres es menor que el de los hombres: la edad mínima que aceptan las mujeres es que los hombres sean 11 años más jóvenes que ellas y la edad máxima que aceptan es que los hombres sean 23 años mayores que ellas, mientras que la edad mínima que aceptan los hombres es que las mujeres sean 25 años más jóvenes que ellos y la edad máxima que aceptan es que las mujeres sean 28 años mayores que ellos. Si sólo se tienen en cuenta las distribuciones de las diferencias de edad, en consonancia con los hallazgos anteriores de una serie de culturas y religiones , encontramos que el rango de edades que las mujeres están dispuestas a mensajear es más estrecho que el rango de edades que los hombres están dispuestos a mensajear. Las preferencias masculinas y femeninas no son aleatorias; buscan citas potenciales con una diferencia de edad menor que la predicha por la selección aleatoria, lo que muestra la característica de gustar-atraer.
La figura 2 muestra que, en general, la diferencia de altura de las mujeres que envían mensajes a los hombres (la mayoría son de 12 cm) es mayor que la de los hombres que envían mensajes a las mujeres (la mayoría son de 10 cm) a la hora de elegir parejas potenciales. En China, para los hombres, la diferencia de altura ideal es que sean 10 cm más altos que la persona a la que envían el mensaje, mientras que para las mujeres, la diferencia de altura ideal es que sean 12 cm más bajas que la persona a la que envían el mensaje. Según los datos de los anuncios personales de citas de Yahoo!, para los usuarios de EE.UU., la altura también es importante para las citas, especialmente para las mujeres. En la Fig. 2, el rango de diferencia de altura para las mujeres es menor que el de los hombres: la altura mínima que aceptan las mujeres es que los hombres sean 3 cm más bajos que ellas y la altura máxima que aceptan es que los hombres sean 30 cm más altos que ellas, mientras que la altura mínima que aceptan los hombres es que las mujeres sean 13 cm más bajas que ellos y la altura máxima que aceptan es que las mujeres sean 32 cm más altas que ellos. Las mujeres muestran la característica de gustar-atraer en cuanto a la preferencia por la altura. Al igual que ocurre con la edad, los usuarios buscan parejas potenciales con una diferencia de altura menor que la predicha por la selección aleatoria, aunque la diferencia no es tan evidente como la diferencia de edad.
Es de destacar que en el sitio de citas, las características de los usuarios son todas autoinformadas. Por consideraciones de gestión de la impresión, los usuarios pueden exagerar sus características personales. Por ejemplo, una investigación reciente sobre la altura autodeclarada en línea frente a los datos medidos objetivamente en adultos jóvenes australianos reveló que la altura autodeclarada está significativamente sobreestimada en una media de 1,79 cm para los hombres y 1,29 cm para las mujeres . Los hombres mienten más que las mujeres sobre su estatura, lo que también se observa en los usuarios de Internet de la ciudad de Nueva York. Observamos que los usuarios parecen no haber informado con precisión de su altura física en el sitio de citas. En el conjunto de datos, la altura media de los usuarios femeninos y masculinos es de 161,99 cm (\(\mathit{SD}=4,18\)) y 173,08 cm (\(\mathit{SD}=4,68\)), respectivamente. Sin embargo, en el mundo real la altura media de las mujeres y los hombres adultos en China es de 160,88 cm y 169,00 cm, respectivamente, lo que significa que los usuarios femeninos y masculinos pueden exagerar su altura en una media de 1,11 cm y 4,08 cm, respectivamente. Una vez corregidos, comprobamos que las diferencias de estatura reales \(10-(4,08-1,11) = 7,03\text{ cm}\} para los hombres, y \(12-(4,08-1,11) = 9,03\text{ cm}\} para las mujeres serían significativas. Sin embargo, también observamos que en el sitio de citas, la edad media de los usuarios masculinos y femeninos es de 28,73 y 28,58 años, respectivamente, mientras que en el conjunto de la población adulta de China, la edad media de hombres y mujeres es de 40,56 y 41,01 años, respectivamente, según los datos del censo de población. La población de las citas es más joven que la población adulta en general, por lo que es probable que sea más alta, y es posible que los usuarios no exageren su altura tanto como se ha calculado.
Preferencia de atributos
Cuando un usuario envía un mensaje a otro, su elección del destinatario puede no ser aleatoria, sino que tiene cierta preferencia por ciertos atributos, como la preferencia por el empleo, la educación, los ingresos, etc. Para caracterizar la preferencia del remitente con el atributo i por el receptor con el atributo j, dejemos que \(m_{ij}\ sea el número de mensajes enviados por usuarios con el atributo i a usuarios con el atributo j, \(m_{i}\) es el número total de mensajes enviados desde usuarios con el atributo i, \(n_{j}\) es el número de receptores con el atributo j, y n es el número total de receptores, entonces la preferencia de atributos es \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0\) indica que, en comparación con la selección aleatoria, los emisores con el atributo i tienen preferencia por los receptores con el atributo j, \(p_{ij}=0\) indica que no hay preferencia y \(p_{ij}<0\) indica una preferencia negativa, es decir que prefieren no seleccionar a los receptores con el atributo j.
Las preferencias de empleo se muestran en las Figuras 3 y 4 (véanse las Tablas 1 y 2 en el archivo adicional 1 para los significados de los atributos y el número y la proporción de hombres/mujeres para cada empleo). Encontramos que, en comparación con los hombres que envían mensajes a las mujeres, cuando las usuarias envían mensajes a los usuarios masculinos, hay una mayor preferencia por los empleos de sus potenciales compañeros. En la Fig. 3, encontramos que las mujeres que son estudiantes, contables, educadoras o con otras ocupaciones no categorizadas no son preferidas por los hombres, mientras que las mujeres dedicadas al diseño son ligeramente populares en términos de la cantidad relativa de mensajes recibidos, especialmente para los hombres de la industria de servicios de aviación. Al mismo tiempo, también encontramos que en estos datos, los hombres que se dedican a las tareas domésticas sólo envían mensajes a las mujeres que se dedican a la contabilidad y los hombres que se dedican a la industria de la traducción sólo envían mensajes a las mujeres que son propietarias privadas, lo que puede deberse al pequeño tamaño de la muestra del comportamiento de los usuarios con respecto a estos atributos.
De la Fig. 4 se desprende que las profesiones más populares para los hombres son la alta dirección, las finanzas, la educación y los propietarios privados. La mayoría de las personas que ejercen estas cuatro profesiones tienen ingresos elevados o están bien formadas. Los usuarios masculinos menos populares son los estudiantes, los vendedores y los que se dedican a otras ocupaciones no categorizadas. Al mismo tiempo, las mujeres dedicadas a la industria química tienden a buscar hombres dedicados a la educación y la formación, las mujeres dedicadas a los deportes tienden a buscar hombres que son propietarios privados, y las mujeres dedicadas a la policía sólo envían mensajes a los hombres dedicados a las finanzas y los bienes raíces en estos datos, lo que también puede atribuirse al pequeño tamaño de la muestra del comportamiento de los usuarios con respecto a estos atributos.
Los niveles de educación tienen un impacto significativo en el apareamiento y el matrimonio . Las preferencias por el nivel de educación se muestran en las Figuras 5 y 6 (véanse las Tablas 3 y 4 en el archivo adicional 1 para los significados de los atributos y el número y la proporción de hombres/mujeres para cada nivel de educación). En China, al igual que en los demás países, postdoctor también se refiere a un cargo más que a un logro educativo. Sin embargo, en muchos sitios web chinos, cuando un usuario se registra, postdoctor también se considera un nivel educativo más allá de la obtención de un doctorado. Del mismo modo, comprobamos que, en comparación con los hombres que envían mensajes a mujeres, cuando las usuarias envían mensajes a usuarios masculinos, existe una mayor preferencia por el nivel educativo de sus posibles parejas. La figura 5 muestra que los hombres cuyo nivel educativo es inferior a la licenciatura tienden a buscar mujeres con la misma cualificación académica que ellos o inferior a la suya, los hombres con un nivel educativo superior a la licenciatura pero inferior al doctorado tienden a buscar mujeres con licenciatura, y los hombres con doctorado o formación posdoctoral tienden a buscar mujeres con licenciatura. En cuanto a la preferencia por los niveles de educación, generalmente los hombres muestran una característica de atracción por los gustos. En el caso de las usuarias que envían mensajes a usuarios masculinos, la Fig. 6 muestra que los hombres con titulación de grado y de postgrado son populares y, para la mayoría de las mujeres, los hombres con titulación de grado son más populares, pero las mujeres con titulación de postgrado son más propensas a buscar posibles parejas con titulación de postgrado. En cuanto a la preferencia por los niveles de educación, generalmente las mujeres muestran una característica de atracción de potenciales. Una investigación realizada en un sitio alemán de citas en línea reveló que la preferencia por un nivel educativo similar aumenta con el nivel educativo. Las mujeres son reacias a comunicarse con hombres con niveles educativos inferiores, sin embargo no hay barreras para que los hombres contacten con mujeres con calificaciones educativas inferiores .
El nivel de educación y los ingresos son dos indicadores importantes de la situación social y económica de una persona. En las figuras 7 y 8 (véanse las tablas 5 y 6 en el archivo adicional 1 para los significados de los atributos y el número y la proporción de hombres/mujeres para cada nivel de ingresos) encontramos que, en términos de niveles de ingresos, hay una preferencia menos obvia en la selección de pareja potencial para los usuarios masculinos en comparación con los femeninos. Por un lado, como se muestra en la Fig. 7, todos los hombres prefieren obviamente a las mujeres cuyos ingresos mensuales se sitúan entre los 5.000 y los 10.000 RMB (el RMB es la moneda china, y 1 RMB = 0,145 dólares estadounidenses = 0,128 euros), mientras que las mujeres cuyos ingresos son inferiores a 2.000 RMB quedan obviamente excluidas. Sin embargo, los hombres no muestran ninguna preferencia o exclusión evidente por las mujeres cuyos ingresos son superiores a 10.000 RMB. Por otro lado, como se muestra en la Fig. 8, todas las mujeres no gustan de los hombres que ganan menos de 5.000 RMB, y los hombres que ganan entre 10.000 y 20.000 RMB son los más populares. En cuanto a la preferencia por los niveles de ingresos, en general las mujeres también muestran la característica de atraer a los potenciales. Un experimento de campo en un sitio chino de citas en línea encontró que los hombres visitaron los perfiles de las mujeres de diferentes ingresos con aproximadamente las mismas tasas, mientras que para las mujeres, cuanto más altos sean los ingresos de los hombres, mayores serán las tasas de visita de sus perfiles , lo que es diferente de nuestros hallazgos.
Clasificación de regresión logística
Puntuación de compatibilidad
En las páginas personales de los usuarios, cada uno de ellos ha mostrado las demandas a las parejas potenciales, incluyendo los requisitos para 7 atributos, es decir.e. edad, avatar, nivel educativo, altura, calificación crediticia, lugar de residencia y estado civil (véanse las Figs. 1-4 en el archivo adicional 1 para los requisitos de selección de varios atributos). En cuanto a la calificación crediticia, en el sitio de citas, después de que un usuario pase la autenticación rápida de identidad, o cargue uno de los tres documentos (el documento de identidad, el pasaporte o el pase de Hong Kong y Macao) y pase la revisión, obtendrá la primera estrella, es decir, la calificación crediticia es igual a 1. Sobre la base de la primera estrella, cada vez que se cargue y apruebe un nuevo documento, se podrá añadir una estrella o calificación adicional (hasta cinco estrellas, es decir, miembro de cinco estrellas). Además, aunque en la plataforma la edad mínima de los usuarios es de 18 años, todavía hay muy pocos usuarios que establecen su requisito de edad mínima o máxima por debajo de los 18 años (véase la Fig. 3 en el archivo adicional 1 para más detalles). Aplicamos el concepto de puntuación de compatibilidad para describir la coincidencia entre usuarios en función de si un usuario cumple o no el requisito de selección de otro. Cuando las mujeres envían mensajes a los hombres, para cada mensaje y para cada atributo, podemos obtener la proporción de mujeres que coinciden con las preferencias de pareja de los hombres y la proporción de hombres que satisfacen las preferencias de las mujeres, es decir, podemos obtener dos vectores que incluyen 7 proporciones. De acuerdo con los datos, obtenemos \(\mathbf{w}_{mathrm{FMm}= (0,701,0,886,0,462,0,826,0,919,0,786,0,920)\Ny \N(\mathbf{w}_{mathrm{FMf}=(0,912,0,976,0,681,0,962,0,994,0,864,0.912)\N), donde \N(\Nmathbf{w}_{mathrm{FMm}} es la proporción de atributos femeninos que satisfacen las preferencias masculinas y \N(\Nmathbf{w}_{mathrm{FMf}} es la proporción de atributos masculinos que satisfacen las preferencias femeninas. Del mismo modo, cuando los hombres envían mensajes a las mujeres, obtenemos \(\mathbf{w}_{mathrm{MFm}}=(0,877,0,977,0,402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Así, las puntuaciones de compatibilidad de las mujeres que envían mensajes a los hombres son
y las puntuaciones de compatibilidad de los hombres que envían mensajes a las mujeres son
Regresión logística
Sea clic el número de veces que se hace clic en un usuario, msg el número de mensajes recibidos por un usuario y rec el número de veces que se recomienda a un usuario y se muestra en las páginas de inicio de otros usuarios, definimos \ (\mathit{pop}_{1} = \mathit{click}/\mathit{rec}\) y \ (\mathit{pop}_{2} = \mathit{msg}/\mathit{rec}\) que pueden caracterizar la popularidad de un usuario en función de las acciones. También utilizamos la centralidad del PageRank (\(\mathit{pop}_{3}\)) para cuantificar el grado de focalización o popularidad de un usuario en una red considerando todas las conexiones de la misma. Las personas atractivas, como las que tienen atributos demográficos ventajosos y un estatus socioeconómico más alto, tienden a ser más exigentes que las personas promedio en cuanto a la elección de la pareja potencial, lo que puede revelarse en el análisis de preferencias de los ingresos y el nivel de educación en la Sec. 3.1.2. Los que son percibidos como atractivos por las personas atractivas pueden ser incluso más populares/atractivos. Las variables utilizadas en el trabajo y sus significados se muestran en la Tabla 1.
Introducimos varios índices de centralidad, como \(\mathit{pop}_{1}\), \(\mathit{pop}{2}\), \(\mathit{pop}{3}\), e indegree, para evaluar su correlación con los comportamientos de mensajería. Cabe destacar que los índices de centralidad son indicadores agregados que describen la deseabilidad o popularidad de los usuarios, y éstos no conocen sus índices ni los de los demás. Utilizamos el grado exterior para caracterizar el nivel de actividad de los usuarios, y en el sitio de citas, los usuarios tampoco conocen el grado exterior de otros usuarios. En realidad, en lugar de utilizar los índices para identificar o seleccionar parejas atractivas, los usuarios enviarán mensajes a otros basándose en pistas más específicas, como ingresos más altos, mejor formación, fotos atractivas o buena compatibilidad demográfica y socioeconómica. En el artículo, evaluaremos si los índices están significativamente asociados a los comportamientos de mensajería.
Supongamos que \(p_{i}\a) es la probabilidad de enviar mensajes para una usuaria i, \(1-p_{i}\a) es la probabilidad de no enviar mensajes, entonces \a(L_{f_{i}=\a(\frac{p_{i}\a1-p_{i})\a), es decir, para todas las mujeres, \(L_{f}=\ln(\frac{p}{1-p})\ln). Del mismo modo, supongamos que \(q_{j}\a) es la probabilidad de enviar mensajes para un usuario masculino i, \a(1-q_{j}\a) es la probabilidad de no enviar mensajes, entonces \a(L_{m_{j}=\a (\frac{q_{j}\a1-q_{j})\a), es decir, para todos los varones, \ {{m}= \ln(\frac{q}{1-q})\N.) Obtenemos los modelos de regresión logística de la siguiente manera:
En este estudio, se realizan pruebas de multicolinealidad para encontrar las variables independientes entre las que los coeficientes de correlación son inferiores a 0,5 (véanse las tablas 7 y 8 del archivo adicional 1 para más detalles). Los resultados de la regresión logística para las mujeres que envían mensajes a los hombres se muestran en la Tabla 2. Encontramos que casi todas las variables son significativas cuando sólo se consideran los atributos de las mujeres (modelo 1), es decir, los atributos de los remitentes, pero sólo la vivienda y el grado exterior de las mujeres se asocian positivamente con la probabilidad de que las mujeres envíen mensajes a los hombres. Cuando sólo se consideran los atributos de los hombres (modelo 2), excepto la verificación del teléfono móvil de los hombres y el grado de solvencia, todos los demás son significativos y se asocian positivamente con la probabilidad de que las mujeres envíen mensajes. Cuando se consideran los atributos de las dos partes y las puntuaciones de compatibilidad (modelo 3), entre las variables significativas, la verificación del teléfono móvil de la mujer, la propiedad del coche, el índice de crédito y los niveles de popularidad (\(\mathit{pop}_{1}\) y \(\mathit{pop}_{3}\)) se asocian negativamente con la probabilidad de que las mujeres envíen mensajes, mientras que las demás variables se asocian positivamente. Encontramos que, cuando las mujeres envían mensajes a los hombres, se preocupan no sólo de si cumplen con los requisitos de los hombres, sino también de si los hombres cumplen con sus propios requisitos.
Los resultados de la regresión logística para hombres que envían mensajes a mujeres se muestran en la Tabla 3. Encontramos que cuando sólo se consideran los atributos femeninos (modelo 1), excepto la verificación del teléfono móvil de la mujer, la calificación crediticia y el grado exterior, todas las demás variables son significativas, pero sólo la propiedad de la casa de la mujer afecta a la probabilidad de que los hombres envíen mensajes de forma negativa. Cuando sólo se tienen en cuenta los atributos masculinos (modelo 2), todas las variables son significativas, pero sólo el grado superior masculino está correlacionado positivamente con los comportamientos de mensajería, mientras que las demás están correlacionadas negativamente. Con todas las variables consideradas (modelo 3), excepto la calificación crediticia femenina, el outdegree y la puntuación de compatibilidad entre una preferencia femenina y el perfil de la otra parte correspondiente, todas las demás variables son significativas. Entre las variables significativas, la verificación del teléfono móvil de la mujer, la propiedad del coche, la popularidad (\mathit{pop}_{1}), \mathit{pop}{2}) y \mathit{pop}{3}), el outdegree masculino y la puntuación de compatibilidad entre una preferencia masculina y el perfil de la otra parte correspondiente están positivamente correlacionados con los comportamientos de mensajería, mientras que todas las demás variables están negativamente correlacionadas. Además, al analizar la significación de las dos puntuaciones de compatibilidad, encontramos que los hombres sólo prestan atención a si las mujeres cumplen sus propios requisitos cuando envían mensajes a las mujeres.
Como se puede ver en las Tablas 2 y 3, para los hombres o las mujeres que envían mensajes, la popularidad de la otra parte está significativamente asociada de forma positiva con los comportamientos de mensajería. Por un lado, los valores \(\mathit{pop}_{1}} y \(\mathit{pop}_{2}}, según su método de cálculo, representan la popularidad local de un usuario. Por otro lado, el valor \(\mathit{pop}_{3}\), es decir, el PageRank, representa la popularidad de un usuario desde una perspectiva global.
Para las mujeres que envían mensajes a los hombres, \(\exp (0,390) = 1,477\) para los hombres \(\mathit{pop}_{1}\) es mayor que \(\exp (0.146) = 1,157\) para el varón \mathit{pop}_{3}\), y para los varones que envían mensajes a las mujeres, \(exp (0,462) = 1,587\) para la mujer \mathit{pop}_{1}\) es también mayor que \(exp (0,141) = 1,151\) para la mujer \mathit{pop}_{3}\). Por lo tanto, tanto para los hombres como para las mujeres, el \(\mathit{pop}_{1}\) de la otra parte es más importante que el \(\mathit{pop}_{3}\). Además, también encontramos que, cuando las mujeres envían mensajes a los hombres, \(\exp (0,390) = 1,477\) para el \(\mathit{pop}_{1}\) masculino es menor que \(\exp (0,462) = 1.587\) para las mujeres cuando los hombres envían mensajes a las mujeres, lo que indica que, en comparación con las mujeres, para los hombres, el \Nmathit{pop}_{1}del otro lado está más asociado con sus comportamientos de mensajería. Sin embargo, cuando las mujeres envían mensajes a los hombres, \exp (0,146) = 1,157\) para los hombres \mathit{pop}_{3}\ es mayor que \exp (0,141) = 1.151) para las mujeres \(\mathit{pop}_{3}) cuando los varones envían mensajes a las mujeres, lo que indica que, en comparación con los varones, para las mujeres el \mathit{pop}_{3}\ de la otra parte está más asociado con sus comportamientos de mensajería.
En China, tener un apartamento y un coche es un símbolo de la riqueza y el estatus social de una persona, y en algunas regiones se han convertido en necesidades para casarse. Cuando las mujeres envían mensajes a los hombres, es importante que éstos tengan una casa y un coche. Cuando los hombres envían mensajes a las mujeres, no es importante que éstas tengan una casa, pero sí que tengan un coche. Encontramos que \(\exp(0,038) = 1,039\) para si la otra parte tiene un coche cuando los hombres envían mensajes a las mujeres es menor que \(\exp (0,157) = 1,170\) para si la otra parte tiene un coche cuando las mujeres envían mensajes a los hombres, lo que indica que las mujeres prestan más atención que los hombres a si la otra parte tiene un coche.
El outdegree de un usuario cuantifica la actividad del usuario. Una actividad aparentemente alta significa que se contacta con muchos otros usuarios, sin embargo, esencialmente puede implicar que los usuarios invierten más tiempo y recursos en tratar de encontrar parejas potenciales. El grado de salida es un atributo diferente para hombres y mujeres. Cuando una mujer envía un mensaje a un hombre, el outdegree de la otra parte está significativamente asociado de forma positiva con el comportamiento de mensajería, mientras que no cuando un hombre envía un mensaje a una mujer. Cuando las mujeres envían mensajes a los hombres, las medidas de red de la popularidad y la actividad de los hombres con los que contactan se asocian significativamente de forma positiva con sus comportamientos de mensajería, pero cuando los hombres envían mensajes a las mujeres, sólo las medidas de red de la popularidad de las mujeres con las que contactan se asocian significativamente de forma positiva con sus comportamientos de mensajería.
Clasificación de aprendizaje por conjuntos
Con la llegada de la era de los grandes datos, los métodos de clasificación de aprendizaje por conjuntos se han introducido gradualmente en el campo de la investigación de las redes sociales. Ya en 1996, Breiman propuso el método de bagging , y cinco años más tarde, propuso además el método de Random Forest . Freund propuso el método AdaBoost en 1997 , y con la mejora continua de los clasificadores de aprendizaje automático, en 2016, Chen et al. propuso un clasificador-XGBoost , que puede mejorar en gran medida la eficiencia y la precisión del algoritmo en algunos casos. Como aplicación, recientemente Reece et al. ya han aplicado herramientas de aprendizaje automático para identificar la depresión a partir de fotos de Instagram.
El análisis de regresión a menudo tiene ciertos requisitos en las variables independientes, como la ausencia de multicolinealidad, sin embargo, los métodos de clasificación de aprendizaje en conjunto relajan las restricciones en las variables independientes. En esta sección, se utilizan métodos de clasificación de aprendizaje por conjuntos que incluyen bagging, Random Forest, AdaBoost y XGBoost para evaluar la importancia de cada atributo en la Tabla 1. Utilizamos el paquete ‘adabag’ en el software R para realizar los métodos AdaBoost y bagging, el paquete ‘randomForest’ para realizar el método Random Forest y el paquete ‘xgboost’ para realizar el método XGBoost. Para el conjunto de datos, se utiliza una validación cruzada de 5 veces para evaluar el rendimiento de los clasificadores, y los parámetros del algoritmo se eligen para obtener una tasa de error estable. El número de mensajes enviados y no enviados está desequilibrado en el conjunto de datos, y el conjunto más grande se submuestrea aleatoriamente para obtener un conjunto del mismo tamaño que el más pequeño.
Las tasas de error de cuatro métodos de clasificación de aprendizaje conjunto se muestran en la Tabla 4. Encontramos que las tasas de error de Random Forest y AdaBoost son las más bajas para las mujeres que envían mensajes a los hombres, mientras que XGBoost es el más bajo para los hombres que envían mensajes a las mujeres. La clasificación de la importancia de los atributos se muestra en las figuras 9 y 10. La figura 9 muestra que, cuando las mujeres envían mensajes a los hombres, los tres atributos más importantes son los valores \mathit{pop}_{3}\ y \mathit{pop}_{1}\ para los hombres, y el outdegree para las mujeres. Del mismo modo, la Fig. 10 muestra que, cuando los hombres envían mensajes a las mujeres, los tres atributos más importantes son los valores \(\mathit{pop}_{3}\) y \(\mathit{pop}_{1}\) para las mujeres, y el grado de salida para los hombres. Los factores más importantes que predicen la decisión de enviar mensajes tanto de los hombres como de las mujeres son los valores \(\mathit{pop}_{3}\) y \(\mathit{pop}_{1}\) que representan la popularidad de las parejas potenciales, que también están significativamente asociados de forma positiva con los comportamientos de mensajería en la regresión logística.
El propósito de la clasificación de aprendizaje por conjuntos es diferente del análisis de regresión logística. De acuerdo con las Figs. 9 y 10, los índices de centralidad muestran, en efecto, una importancia abrumadora, y las otras variables muestran la relativa falta de poder predictivo. Sin embargo, esto no significa que las otras variables sean inútiles, y todavía pueden asociarse significativamente con los comportamientos de mensajería de los usuarios en la regresión logística.
Análisis del comportamiento estratégico
El concepto de comportamiento estratégico deriva de la economía, donde la implicación original es que las empresas toman medidas que afectan al entorno del mercado para aumentar los beneficios (refiriéndose a la tasa de respuesta de los mensajes en este estudio), que luego se extiende a los problemas de emparejamiento, como el emparejamiento de parejas.
En nuestra investigación, el comportamiento estratégico se refiere a que si un usuario envía un mensaje a otro usuario depende de si su decisión puede aumentar la probabilidad de respuesta del mensaje. Dado que no disponemos de datos de respuesta de los usuarios, nos gustaría utilizar los índices de centralidad que caracterizan la popularidad de los usuarios para analizar si los usuarios tienden a enviar mensajes a personas más populares que ellos o a las menos populares. Estudiamos el comportamiento estratégico de los usuarios analizando la correlación entre los índices de centralidad. Las curvas de ajuste de la correlación con el modelo aditivo generalizado muestran que existe una relación no lineal o aproximadamente lineal entre los índices de centralidad de los usuarios (véanse las Figs. 5 y 6 en el archivo adicional 1 para más detalles), por lo que utilizamos el coeficiente de correlación de Spearman para caracterizar la correlación. Como se muestra en las Tablas 5 y 6, encontramos que en el sitio de citas los hombres y las mujeres muestran diferentes patrones de comportamiento en la mensajería a pesar del reducido coste del rechazo en el entorno de la red. En el caso de los hombres que envían mensajes a las mujeres, existen correlaciones positivas débiles entre los índices de centralidad, que pueden caracterizarse por coeficientes de correlación positivos y significativos pequeños, mientras que en el caso de las mujeres que envían mensajes a los hombres, existen correlaciones positivas débiles o modestas entre los índices de centralidad que se caracterizan por coeficientes de correlación positivos y significativos pequeños o ligeramente mayores. Los hombres no muestran un comportamiento estratégico en gran medida cuando envían mensajes, mientras que para las mujeres, a medida que sus índices de centralidad aumentan, los índices correspondientes de los hombres que recibieron sus mensajes también podrían aumentar.
Al estudiar las correlaciones entre los mismos pares de índices de centralidad para los usuarios, analizamos además si los usuarios tienden a enviar mensajes a personas que son más populares que ellos o a las que son menos populares. Para cada índice de centralidad de los remitentes, damos la media y la desviación estándar de los índices de los receptores correspondientes, y la proporción de los índices de centralidad de los receptores que son mayores que los de los remitentes en las Figs. 7 y 8 del archivo adicional 1. Para cada índice de centralidad, la Tabla 7 presenta la proporción de los índices de centralidad de los receptores que son mayores que los de los remitentes al enviar los mensajes. A modo de comparación, también ofrecemos los resultados aleatorios. En comparación con los hombres, hay más mujeres que tienden a enviar mensajes a personas más populares que ellas.
Ha habido varios estudios sobre el comportamiento estratégico de los usuarios en las citas online. Algunos estudios han encontrado una correlación positiva significativa entre la popularidad de los usuarios masculinos y femeninos. Por ejemplo, la investigación de Taylor et al. sobre los usuarios de EE.UU. mostró que, tienden a seleccionar y ser seleccionados por otros usuarios cuya popularidad relativa es similar a la suya, aunque no significa necesariamente una mayor tasa de éxito, es decir, recibir más respuestas . Un reciente análisis empírico de los usuarios de cuatro ciudades estadounidenses de un sitio de citas en línea utilizó el PageRank para caracterizar su deseabilidad, y descubrió que, tanto los hombres como las mujeres, enviaban mensajes a compañeros que eran, por término medio, un 25% más deseables que ellos mismos . Sin embargo, también hay algunos estudios que no han encontrado correlación entre la popularidad de los usuarios. Por ejemplo, la investigación sobre los usuarios de Boston y San Diego no encontró pruebas de comportamiento estratégico . Otra investigación sobre datos de citas en línea de una ciudad mediana del suroeste de EE.UU. reveló que, independientemente de sus propios niveles de deseabilidad, que caracterizan el atractivo físico, la popularidad, la simpatía y los recursos materiales de los usuarios, tanto los hombres como las mujeres tienden a enviar mensajes a los usuarios socialmente más deseables. Se constata que los usuarios de diferentes plataformas o contextos culturales tienen comportamientos estratégicos diferentes, y los mecanismos subyacentes aún deben ser explorados más a fondo.