Analyse des préférences d’attributs

Distribution des différences d’attributs

Dans les rencontres en ligne, il existe des différences significatives entre les sexes en termes de préférence d’attributs, de présentation de soi et d’interaction . Les utilisateurs ont généralement une certaine préférence pour l’âge ou la taille des compagnons. Pour les hommes et les femmes, lorsqu’ils envoient des messages à leurs partenaires potentiels, nous calculons la différence d’âge comme âge(récepteur) – âge(expéditeur), et la différence de taille comme taille(récepteur) – taille(expéditeur). Les figures 1 et 2 montrent les distributions des différences d’âge et de taille, respectivement. À titre de comparaison, nous montrons également les résultats aléatoires en supposant que les utilisateurs féminins (masculins) envoient aléatoirement des messages aux utilisateurs masculins (féminins).

Figure 1

Distribution des différences d’âge. FM représente que les utilisateurs féminins envoient des messages aux utilisateurs masculins et MF représente que les utilisateurs masculins envoient des messages aux utilisateurs féminins. Les lignes pleines représentent l’ajustement par régression polynomiale pondérée localement de leurs points de données correspondants, et l’intervalle gris représente une région de confiance à 95%

Figure 2

Distribution de la différence de taille. FM représente que les utilisateurs féminins envoient des messages aux utilisateurs masculins et MF représente que les utilisateurs masculins envoient des messages aux utilisateurs féminins. Les lignes pleines représentent l’ajustement de régression polynomiale pondérée localement de leurs points de données correspondants, et l’intervalle gris représente une région de confiance à 95%

Dans la plupart des temps et des lieux, les femmes épousent généralement des hommes plus âgés . La figure 1 montre que dans la société chinoise moderne, en moyenne, les hommes préfèrent les femmes de deux ans plus jeunes qu’eux et les femmes préfèrent les hommes de deux ans plus âgés qu’elles. Cependant, la fourchette de différence d’âge que les femmes acceptent est plus petite que celle des hommes : l’âge minimum que les femmes acceptent est que les hommes aient 11 ans de moins qu’elles et l’âge maximum qu’elles acceptent est que les hommes aient 23 ans de plus qu’elles, alors que l’âge minimum que les hommes acceptent est que les femmes aient 25 ans de moins qu’eux et l’âge maximum qu’ils acceptent est que les femmes aient 28 ans de plus qu’eux. Si l’on ne tient compte que de la répartition des différences d’âge, conformément aux résultats obtenus précédemment dans diverses cultures et religions, on constate que la fourchette d’âge dans laquelle les femmes sont prêtes à envoyer des messages est plus étroite que la fourchette d’âge dans laquelle les hommes sont prêts à envoyer des messages. Les préférences des hommes et des femmes ne sont pas aléatoires ; ils recherchent des dates potentielles avec une différence d’âge plus petite que celle prédite par la sélection aléatoire, ce qui montre la caractéristique de likes-attract.

La figure 2 montre que généralement la différence de taille pour les femmes envoyant des messages aux hommes (la plupart sont 12 cm) sont plus grandes que celle des hommes envoyant des messages aux femmes (la plupart sont 10 cm) lors du choix des compagnons potentiels. En Chine, pour les hommes, la différence de taille idéale est de 10 cm de plus que la personne à qui ils envoient un message, tandis que pour les femmes, la différence de taille idéale est de 12 cm de moins que la personne à qui elles envoient un message. D’après les données des annonces personnelles de Yahoo !, pour les utilisateurs américains, la taille est également importante pour les rencontres, en particulier pour les femmes. Dans la figure 2, la différence de taille entre les femmes et les hommes est plus faible : les femmes acceptent au minimum que les hommes soient 3 cm plus petits qu’elles et au maximum que les hommes soient 30 cm plus grands qu’elles, tandis que les hommes acceptent au minimum que les femmes soient 13 cm plus petites qu’eux et au maximum que les femmes soient 32 cm plus grandes qu’eux. Les femmes présentent la caractéristique « likes-attract » en termes de préférence pour la taille. Comme c’est le cas pour l’âge, les utilisateurs recherchent des partenaires potentiels avec une différence de taille inférieure à celle prédite par la sélection aléatoire, bien que la différence ne soit pas aussi évidente que la différence d’âge.

Il convient de noter que sur le site de rencontres, les caractéristiques des utilisateurs sont toutes déclarées par eux-mêmes. Pour des considérations de gestion de l’impression , les utilisateurs peuvent exagérer leurs caractéristiques personnelles . Par exemple, une recherche récente sur la taille autodéclarée en ligne par rapport aux données mesurées objectivement chez les jeunes adultes australiens a révélé que la taille autodéclarée est significativement surestimée d’une moyenne de 1,79 cm pour les hommes et de 1,29 cm pour les femmes . Les hommes mentent davantage que les femmes au sujet de leur taille, ce que l’on retrouve également dans les rencontres en ligne de la ville de New York. Nous notons que les utilisateurs semblent ne pas avoir déclaré avec précision leur taille physique sur le site de rencontre. Dans l’ensemble de données, les tailles moyennes des utilisateurs féminins et masculins sont respectivement de 161,99 cm (\(\mathit{SD}=4,18\)) et 173,08 cm (\(\mathit{SD}=4,68\)). Cependant, dans le monde réel, les tailles moyennes des femmes et des hommes adultes en Chine sont respectivement de 160,88 cm et 169,00 cm, ce qui signifie que les utilisateurs féminins et masculins peuvent exagérer leur taille en moyenne de 1,11 cm et 4,08 cm, respectivement. Après correction, nous constatons que les différences réelles de taille : \(10-(4,08-1,11) = 7,03\text{ cm}\) pour les hommes, et \(12-(4,08-1,11) = 9,03\text{ cm}\) pour les femmes seraient significatives. Cependant, nous remarquons également que sur le site de rencontres, l’âge moyen des utilisateurs masculins et féminins est respectivement de 28,73 et 28,58 ans, alors que dans la population adulte globale de la Chine, l’âge moyen des hommes et des femmes est respectivement de 40,56 et 41,01 ans selon les données du recensement de la population. La population des rencontres est plus jeune que la population adulte globale, donc probablement plus grande, et les utilisateurs peuvent ne pas exagérer leur taille de tout à fait autant que calculé.

Préférence d’attribut

Lorsqu’un utilisateur envoie un message à un autre utilisateur, son choix de destinataire peut ne pas être aléatoire, mais a plutôt une certaine préférence pour certains attributs, comme la préférence pour l’emploi, l’éducation, le revenu, et ainsi de suite. Pour caractériser la préférence de l’expéditeur avec l’attribut i pour le destinataire avec l’attribut j, laissez \(m_{ij}\) être le nombre de messages envoyés par les utilisateurs avec l’attribut i aux utilisateurs avec l’attribut j, \(m_{i}\) le nombre total de messages envoyés par des utilisateurs ayant l’attribut i, \(n_{j}\) le nombre de récepteurs ayant l’attribut j, et n le nombre total de récepteurs, alors la préférence d’attribut est \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0\) indique que par rapport à la sélection aléatoire, les émetteurs avec l’attribut i ont une préférence pour les récepteurs avec l’attribut j, \(p_{ij}=0\) indique qu’il n’y a pas de préférence et \(p_{ij}<0\) indique une préférence négative, c’est à dire préférant ne pas sélectionner les récepteurs avec l’attribut j.

Les préférences d’emploi sont présentées dans les figures 3 et 4 (voir les tableaux 1 et 2 dans le fichier supplémentaire 1 pour les significations des attributs et le nombre et la proportion d’hommes/femmes pour chaque emploi). Nous constatons que, par rapport aux hommes qui envoient des messages aux femmes, lorsque les utilisatrices envoient des messages aux utilisateurs, elles ont une préférence plus marquée pour les emplois de leurs partenaires potentiels. Dans la figure 3, nous constatons que les femmes qui sont étudiantes, comptables, éducatrices ou dans d’autres professions non catégorisées ne sont pas préférées par les hommes, tandis que les femmes engagées dans le design sont légèrement populaires en termes de quantité relative de messages reçus, en particulier pour les hommes dans le secteur des services aéronautiques. Dans le même temps, nous constatons également que dans ces données, les hommes engagés dans l’entretien ménager n’envoient des messages qu’aux femmes dans la comptabilité et les hommes engagés dans l’industrie de la traduction n’envoient des messages qu’aux femmes qui sont des propriétaires privés, ce qui peut être dû à la petite taille de l’échantillon du comportement des utilisateurs en ce qui concerne ces attributs.

Figure 3

Préférence d’emploi pour les utilisateurs masculins envoyant des messages aux utilisateurs féminins. L’axe vertical indique les professions masculines et l’axe horizontal indique les professions féminines. Les valeurs de préférence sont représentées par différentes couleurs

Figure 4

Préférence d’emploi pour les utilisateurs féminins envoyant des messages aux utilisateurs masculins. L’axe vertical indique les professions féminines et l’axe horizontal indique les professions masculines. Les valeurs de préférence sont représentées par différentes couleurs

D’après la Fig. 4, nous constatons que les professions les plus populaires pour les hommes sont la haute direction, la finance, l’éducation et les propriétaires privés. La plupart des personnes dans ces quatre professions ont des revenus élevés ou sont bien éduquées. Les utilisateurs masculins impopulaires sont les écoliers, les vendeurs et ceux qui exercent d’autres professions non catégorisées. Dans le même temps, les femmes engagées dans l’industrie chimique ont tendance à rechercher des hommes engagés dans l’éducation et la formation, les femmes engagées dans le sport ont tendance à rechercher des hommes qui sont des propriétaires privés, et les femmes engagées dans la police n’envoient des messages qu’aux hommes engagés dans la finance et l’immobilier dans ces données, ce qui peut également être attribué à la petite taille de l’échantillon du comportement des utilisateurs en ce qui concerne ces attributs.

Les niveaux d’éducation ont un impact significatif sur l’accouplement et le mariage . Les préférences en matière de niveau d’éducation sont illustrées dans les figures 5 et 6 (voir les tableaux 3 et 4 du fichier supplémentaire 1 pour les significations des attributs et le nombre et la proportion d’hommes/femmes pour chaque niveau d’éducation). En Chine, comme dans les autres pays, le terme « postdoctor » fait également référence à une fonction plutôt qu’à un niveau d’études. Toutefois, sur de nombreux sites web chinois, lorsqu’un utilisateur s’inscrit, le terme « postdoctor » est également considéré comme un niveau d’études supérieur à l’obtention d’un doctorat. De même, nous constatons que, par rapport aux hommes qui envoient des messages aux femmes, les femmes qui envoient des messages aux hommes ont une préférence plus marquée pour le niveau d’études de leurs partenaires potentiels. La figure 5 montre que les hommes dont le niveau d’éducation est inférieur à la licence ont tendance à rechercher des femmes ayant les mêmes qualifications académiques qu’eux ou des qualifications inférieures, les hommes ayant un niveau d’éducation supérieur à la licence mais inférieur au doctorat ont tendance à rechercher des femmes ayant une licence, et les hommes ayant un doctorat ou une formation postdoctorale ont tendance à rechercher des femmes ayant un diplôme d’études supérieures. En termes de préférence pour les niveaux d’éducation, les hommes présentent généralement une caractéristique d’attraction. Pour les utilisatrices qui envoient des messages aux utilisateurs, la figure 6 montre que les hommes ayant un diplôme de premier cycle et de deuxième cycle sont populaires et, pour la plupart des femmes, les hommes ayant un diplôme de premier cycle sont plus populaires, mais les femmes ayant un diplôme de deuxième cycle sont plus susceptibles de rechercher des partenaires potentiels ayant un diplôme de deuxième cycle. En termes de préférence pour les niveaux d’éducation, les femmes présentent généralement une caractéristique d’attraction potentielle. Une recherche sur un site de rencontres en ligne allemand a révélé que la préférence pour un milieu éducatif similaire augmente avec le niveau d’éducation. Les femmes sont réticentes à communiquer avec les hommes ayant un niveau d’éducation inférieur, cependant il n’y a pas d’obstacles pour les hommes à contacter les femmes ayant un niveau d’éducation inférieur .

Figure 5

Préférence de niveau d’éducation pour les utilisateurs masculins envoyant des messages aux utilisateurs féminins. L’axe vertical indique les niveaux d’éducation des hommes et l’axe horizontal indique les niveaux d’éducation des femmes. Les valeurs de préférence sont représentées par différentes couleurs

Figure 6

Préférence de niveau d’éducation pour les utilisateurs féminins envoyant des messages aux utilisateurs masculins. L’axe vertical indique les niveaux d’éducation des femmes et l’axe horizontal indique les niveaux d’éducation des hommes. Les valeurs de préférence sont représentées par des couleurs différentes. Les femmes postdoctorales n’ont envoyé aucun message aux hommes dans l’ensemble de données, et nous avons fixé les éléments de la ligne correspondante à 0

Le niveau d’éducation et le revenu sont deux indicateurs importants du statut social et économique d’une personne. D’après les figures 7 et 8 (voir les tableaux 5 et 6 dans le fichier additionnel 1 pour les significations des attributs et le nombre et la proportion d’hommes/femmes pour chaque niveau de revenu), nous constatons que, en termes de niveaux de revenu, il y a une préférence moins évidente sur la sélection du partenaire potentiel pour les utilisateurs masculins par rapport aux utilisateurs féminins. D’une part, comme le montre la figure 7, tous les hommes préfèrent manifestement les femmes dont le revenu mensuel est compris entre 5 000 et 10 000 RMB (le RMB est la monnaie chinoise, et 1 RMB = 0,145 dollar américain = 0,128 euro), tandis que les femmes dont le revenu est inférieur à 2 000 RMB sont évidemment exclues. Cependant, les hommes ne montrent aucune préférence ou exclusion évidente pour les femmes dont le revenu est supérieur à 10 000 RMB. D’autre part, comme le montre la figure 8, toutes les femmes n’aiment pas les hommes qui gagnent moins de 5000 RMB, et les hommes qui gagnent entre 10 000 et 20 000 RMB sont les plus populaires. En termes de préférence pour les niveaux de revenus, les femmes présentent généralement aussi une caractéristique de potentiel-attraction. Une expérience de terrain sur un site de rencontre en ligne chinois a révélé que les hommes ont visité les profils des femmes de différents revenus avec à peu près les mêmes taux, tandis que pour les femmes, plus les revenus des hommes sont élevés, plus les taux de visite de leurs profils seront , ce qui est différent de nos résultats.

Figure 7

Préférence pour les niveaux de revenus mensuels des utilisateurs masculins envoyant des messages aux utilisateurs féminins. L’axe vertical indique les niveaux de revenu des hommes et l’axe horizontal indique les niveaux de revenu des femmes. Les valeurs de préférence sont représentées par différentes couleurs

Figure 8

Préférence pour les niveaux de revenus mensuels pour les utilisateurs féminins envoyant des messages aux utilisateurs masculins. L’axe vertical indique les niveaux de revenu des femmes et l’axe horizontal indique les niveaux de revenu des hommes. Les valeurs de préférence sont représentées par différentes couleurs

Classification par régression logistique

Scores de compatibilité

Sur les pages d’accueil personnelles des utilisateurs, chaque utilisateur a montré les demandes aux compagnons potentiels, y compris les exigences pour 7 attributs, à savoir.C’est-à-dire l’âge, l’avatar, le niveau d’éducation, la taille, la cote de crédit, le lieu de résidence et l’état civil (voir les figures 1 à 4 du fichier supplémentaire 1 pour les exigences de sélection de plusieurs attributs). En ce qui concerne la cote de crédit, sur le site de rencontres, après qu’un utilisateur a passé l’étape de l’authentification rapide de l’identité ou téléchargé l’un des trois documents (carte d’identité, passeport ou carte d’accès à Hong Kong et Macao) et passé l’examen, il obtient la première étoile, c’est-à-dire une cote de crédit égale à 1. Sur la base de la première étoile, chaque fois qu’un nouveau document est téléchargé et approuvé, une étoile ou une note supplémentaire peut être ajoutée (jusqu’à cinq étoiles, c’est-à-dire un membre cinq étoiles). En outre, bien que l’âge minimum des utilisateurs soit fixé à 18 ans sur la plateforme, il y a encore très peu d’utilisateurs qui fixent leur exigence en matière d’âge minimum ou maximum en dessous de 18 ans (voir la figure 3 du fichier supplémentaire 1 pour plus de détails). Nous appliquons le concept de score de compatibilité pour décrire la correspondance entre les utilisateurs selon qu’un utilisateur répond ou non aux exigences de sélection d’un autre utilisateur. Lorsque les femmes envoient des messages aux hommes, pour chaque message et pour chaque attribut, nous pouvons obtenir la proportion de femmes qui correspondent aux préférences des hommes en matière de partenaire et la proportion d’hommes qui correspondent aux préférences des femmes, c’est-à-dire que nous pouvons obtenir deux vecteurs comprenant 7 proportions. D’après les données, nous obtenons \(\mathbf{w}_{\mathrm{FMm}}= (0.701,0.886,0.462,0.826,0.919,0.786,0.920)\), et \(\mathbf{w}_{\mathrm{FMf}}=(0.912,0.976,0.681,0.962,0.994,0.864,0.912)\), où \(\mathbf{w}_{\mathrm{FMm}}\) est la proportion d’attributs féminins correspondant aux préférences masculines et \(\mathbf{w}_{\mathrm{FMf}}\) est la proportion d’attributs masculins correspondant aux préférences féminines. De même, lorsque les hommes envoient des messages aux femmes, nous obtenons \(\mathbf{w}_{\mathrm{MFm}}=(0.877,0.977,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Ainsi les scores de compatibilité des femmes envoyant des messages aux hommes sont

$$\begin{aligned}& c_{\mathrm{FMm}} = \frac{\mathbf{w}_{\mathrm{FMm}} \cdot {(\textrm{femelle attr. en préf. masculine })}}{ (\N-textrm{femelle en préf. masculine})}}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{FMm}} )}}, \end{aligned}$$
(1)

$$\begin{aligned}& c_{\mathrm{FMf}} = \frac{\mathbf{w}_{\mathrm{FMf}} \cdot (\textrm{attr. masculin dans préf. féminin})}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{FMf}} )}}, \end{aligned}$$
(2)

et les scores de compatibilité des hommes envoyant des messages aux femmes sont

$$begin{aligned}& c_{\mathrm{MFm}} = \frac{\mathbf{w}_{\mathrm{MFm}} \cdot (\textrm{femelle attr. dans préf. masculine})}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{MFm}} )}}, \end{aligned}$$
(3)

$$\begin{aligned}& c_{\mathrm{MFf}} = \frac{\mathbf{w}_{\mathrm{MFf}} \cdot (\textrm{attr. masculin dans préf. femelle})}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{MFf}} )}}, \end{aligned}$$
(4)

où (attr. femelle dans préf. mâle) est un vecteur caractérisant le fait que les femmes soient ou non des femmes.) est un vecteur caractérisant si les attributs féminins répondent aux préférences masculines pour une paire d’utilisateurs (1 pour oui et 0 pour non), et de la même manière (attr. masculin dans pref. féminin) est un vecteur caractérisant si les attributs masculins répondent aux préférences féminines pour une paire d’utilisateurs. Les équations 1 et 3 sont les scores de compatibilité entre une préférence masculine et le profil de son partenaire choisi, et les équations 2 et 4 sont les scores de compatibilité entre une préférence féminine et le profil de son partenaire choisi. Pour une paire d’utilisateurs, \(u_{a}\) et \(u_{b}\), nous utilisons un score, c’est-à-dire un score réciproque, pour quantifier dans quelle mesure les attributs de \(u_{b}\) correspondent aux préférences de \(u_{a}\) et dans quelle mesure les attributs de \(u_{a}\) correspondent aux préférences de \(u_{b}\). Le score réciproque entre \(u_{a}\) et \(u_{b}\) est la moyenne des scores de compatibilité de ces deux utilisateurs, c’est-à-dire que pour les femmes envoyant des messages aux hommes, le score réciproque est \(\mathit{rs} = (c_{\mathrm {FMm}} + c_{\mathrm{FMf}})/2\), et pour les hommes envoyant des messages aux femmes \(\mathit{rs} = (c_{\mathrm{MFm}} + c_{\mathrm{MFf}})/2\).

Régression logistique

Disons que click est le nombre de fois où un utilisateur est cliqué, msg est le nombre de messages reçus par un utilisateur, et rec est le nombre de fois où un utilisateur est recommandé et affiché sur les pages d’accueil des autres utilisateurs, nous définissons \(\mathit{pop}_{1} = \mathit{click}/\mathit{rec}\) et \(\mathit{pop}_{2} = \mathit{msg}/\mathit{rec}\) qui peuvent caractériser la popularité d’un utilisateur en fonction des actions. Nous utilisons également la centralité PageRank (\(\mathit{pop}_{3}\)) pour quantifier la focalisation ou la popularité d’un utilisateur dans un réseau en prenant en compte toutes les connexions du réseau. Les personnes attrayantes, telles que les personnes ayant des attributs démographiques avantageux et un statut socio-économique plus élevé, ont tendance à être plus exigeantes que les personnes moyennes en termes de choix de partenaire potentiel, ce qui peut être révélé dans l’analyse de préférence du revenu et du niveau d’éducation dans la Sec. 3.1.2. Ceux qui sont perçus comme attirants par des personnes attirantes peuvent être encore plus populaires/attractifs. Les variables utilisées dans cet article et leur signification sont présentées dans le tableau 1.

Tableau 1 Variables et leurs significations correspondantes

Nous introduisons plusieurs indices de centralité, tels que \(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\), \(\mathit{pop}_{3}\), et indegree, pour évaluer leur corrélation avec les comportements de messagerie. Il convient de noter que les indices de centralité sont des indicateurs agrégés décrivant la désirabilité ou la popularité des utilisateurs, et que les utilisateurs ne connaissent pas leurs indices, ni ceux des autres. Nous utilisons l’outdegree pour caractériser le niveau d’activité des utilisateurs, et sur le site de rencontres, les utilisateurs ne connaissent pas non plus l’outdegree des autres utilisateurs. En réalité, au lieu d’utiliser les indices pour identifier ou sélectionner des partenaires attrayants, les utilisateurs enverront des messages à d’autres personnes sur la base d’indices plus spécifiques, tels que des revenus plus élevés, un meilleur niveau d’éducation, des photos attrayantes ou une bonne compatibilité démographique et socio-économique. Dans cet article, nous évaluerons si les indices sont significativement associés aux comportements de messagerie.

Supposons que \(p_{i}\) est la probabilité d’envoyer des messages pour un utilisateur féminin i, \(1-p_{i}\) est la probabilité de ne pas envoyer de messages, alors \(L_{f_{i}}=\ln(\frac{p_{i}}{1-p_{i}})\), c’est-à-dire, pour toutes les femmes, \(L_{f}=\ln(\frac{p}{1-p})\). De même, supposons que \(q_{j}\) est la probabilité d’envoyer des messages pour un utilisateur masculin i, \(1-q_{j}\) est la probabilité de ne pas envoyer de messages, alors \(L_{m_{j}}=\ln (\frac{q_{j}}{1-q_{j}})\), c’est-à-dire, pour tous les mâles, \(L_{m}= \ln(\frac{q}{1-q})\). Nous obtenons des modèles de régression logistique comme suit :

$$\begin{aligned}& L_{f} = \alpha _{1} + {\boldsymbol{\beta} }_{1} \cdot {\mathbf{attribut}} + \varepsilon _{\mathrm{1}}, \end{aligned}$$
(5)

$$begin{aligned}& L_{m} = \alpha _{2} + {\boldsymbol{\beta}}_{2} \cdot {\mathbf{attribut}} + \varepsilon _{\mathrm{2}}. \end{aligned}$$
(6)

Dans cette étude, des tests de multicollinéarité sont effectués pour trouver les variables indépendantes parmi lesquelles les coefficients de corrélation sont inférieurs à 0,5 (voir les tableaux 7 et 8 du fichier supplémentaire 1 pour plus de détails). Les résultats de la régression logistique pour les femmes envoyant des messages aux hommes sont présentés dans le tableau 2. Nous constatons que presque toutes les variables sont significatives lorsque l’on ne considère que les attributs des femmes (modèle 1), c’est-à-dire les attributs des expéditeurs, mais que seuls le logement et l’outdegré des femmes sont positivement associés à la probabilité que les femmes envoient des messages aux hommes. Lorsque l’on considère uniquement les attributs des hommes (modèle 2), à l’exception de la vérification du téléphone portable et de la cote de crédit des hommes, tous les autres sont significatifs et sont positivement associés à la probabilité que les femmes envoient des messages. Si l’on considère les attributs et les scores de compatibilité des deux parties (modèle 3), parmi les variables significatives, la vérification du téléphone portable, la possession d’une voiture, la cote de crédit et les niveaux de popularité (\(\mathit{pop}_{1}\) et \(\mathit{pop}_{3}\)) sont négativement associés à la probabilité que les femmes envoient des messages, tandis que les autres variables sont positivement associées. Nous constatons que, lorsque les femmes envoient des messages aux hommes, elles se préoccupent non seulement de savoir si elles répondent aux exigences des hommes mais aussi si les hommes répondent à leurs propres exigences.

Tableau 2 Résultats de la régression logistique pour les utilisateurs féminins envoyant des messages aux utilisateurs masculins

Les résultats de la régression logistique pour les hommes envoyant des messages aux femmes sont présentés dans le tableau 3. Nous constatons que lorsque seuls les attributs féminins sont pris en compte (modèle 1), à l’exception de la vérification du téléphone portable, de la cote de crédit et de l’outdegré de la femme, toutes les autres variables sont significatives, mais que seule la possession d’une maison par la femme affecte négativement la probabilité que les hommes envoient des messages. Lorsque seuls les attributs masculins sont pris en compte (modèle 2), toutes les variables sont significatives mais seul le degré supérieur de l’homme est positivement corrélé avec les comportements de messagerie, les autres étant négativement corrélés. Lorsque toutes les variables sont prises en compte (modèle 3), à l’exception de la cote de crédit de la femme, de l’outdegré et du score de compatibilité entre une préférence féminine et le profil de l’autre partie correspondante, toutes les autres variables sont significatives. Parmi les variables significatives, la vérification du téléphone portable féminin, la possession d’une voiture, la popularité (\(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\) et \(\mathit{pop}_{3}\)), le surdegré masculin et le score de compatibilité entre une préférence masculine et le profil de l’autre côté correspondant sont positivement corrélés avec les comportements de messagerie, tandis que toutes les autres variables sont négativement corrélées. En outre, en analysant la signification des deux scores de compatibilité, nous constatons que les hommes ne font attention qu’à ce que les femmes répondent à leurs propres exigences lorsqu’ils envoient des messages aux femmes.

Tableau 3 Résultats de la régression logistique pour les utilisateurs masculins envoyant des messages aux utilisatrices

Comme on peut le voir dans les tableaux 2 et 3, pour les hommes ou les femmes envoyant des messages, la popularité de l’autre côté est significativement associée positivement aux comportements de messagerie. D’une part, les valeurs \(\mathit{pop}_{1}\) et \(\mathit{pop}_{2}\), selon leur méthode de calcul, représentent la popularité locale d’un utilisateur. En revanche, la valeur \(\mathit{pop}_{3}\), c’est-à-dire le PageRank, représente la popularité d’un utilisateur d’un point de vue global.

Pour les femmes envoyant des messages aux hommes, \(\exp (0,390) = 1,477\) pour les hommes \(\mathit{pop}_{1}\) est plus grande que \(\exp (0.146) = 1,157\) pour les hommes \(\mathit{pop}_{3}\), et pour les hommes envoyant des messages aux femmes, \(\exp (0,462) = 1,587\) pour les femmes \(\mathit{pop}_{1}\) est également plus grand que \(\exp (0,141) = 1,151\) pour les femmes \(\mathit{pop}_{3}\). Ainsi, tant pour les hommes que pour les femmes, le \(\mathit{pop}_{1}\) de l’autre partie est plus important que le \(\mathit{pop}_{3}\). En outre, nous constatons également que, lorsque les femmes envoient des messages aux hommes, \(\exp (0,390) = 1,477\) pour le \(\mathit{pop}_{1}\) masculin est inférieur à \(\exp (0,462) = 1.587\) pour le \(\mathit{pop}_{1}\) féminin lorsque les hommes envoient des messages aux femmes, ce qui indique que par rapport aux femmes, pour les hommes, le \(\mathit{pop}_{1}\) de l’autre côté est plus associé à leurs comportements de messagerie. Cependant, lorsque les femmes envoient des messages aux hommes, \(\exp (0,146) = 1,157\) pour le \(\mathit{pop}_{3}\) masculin est plus grand que \(\exp (0,141) = 1.151\) pour le \(\mathit{pop}_{3}\) féminin lorsque les hommes envoient des messages aux femmes, ce qui indique que par rapport aux hommes, pour les femmes le \(\mathit{pop}_{3}\) de l’autre côté est plus associé à leurs comportements de messagerie.

En Chine, avoir un appartement et une voiture est un symbole de la richesse et du statut social d’une personne, et dans certaines régions, ils sont devenus des nécessités pour se marier. Lorsque les femmes envoient des messages aux hommes, il est important pour les hommes d’avoir une maison et une voiture. Lorsque les hommes envoient des messages aux femmes, il n’est pas important pour les femmes d’avoir une maison, mais il est assez important pour les femmes d’avoir une voiture. Nous constatons que \(\exp(0,038) = 1,039\) pour savoir si l’autre partie a une voiture lorsque les hommes envoient des messages aux femmes est plus petit que \(\exp (0,157) = 1,170\) pour savoir si l’autre partie a une voiture lorsque les femmes envoient des messages aux hommes, ce qui indique que les femmes font plus attention que les hommes à savoir si l’autre partie a une voiture.

Le outdegré d’un utilisateur quantifie l’activité de l’utilisateur. Une activité apparemment élevée signifie contacter de nombreux autres utilisateurs, cependant, essentiellement, cela peut impliquer que les utilisateurs investissent plus de temps et de ressources pour tenter de trouver des partenaires potentiels. L’outdegree est un attribut différent pour les hommes et les femmes. Lorsqu’une femme envoie un message à un homme, l’outdegree de l’autre partie est significativement associé de manière positive au comportement de messagerie, mais pas lorsqu’un homme envoie un message à une femme. Lorsque les femmes envoient des messages aux hommes, les mesures de réseau de la popularité et de l’activité des hommes qu’elles contactent sont significativement associées positivement à leurs comportements de messagerie, mais lorsque les hommes envoient des messages aux femmes, seules les mesures de réseau de la popularité des femmes qu’elles contactent sont significativement associées positivement à leurs comportements de messagerie.

Classification par apprentissage d’ensemble

Avec l’avènement de l’ère du big data, les méthodes de classification par apprentissage d’ensemble ont été progressivement introduites dans le domaine de la recherche sur les réseaux sociaux. Dès 1996, Breiman a proposé la méthode du bagging , et cinq ans plus tard, il a encore proposé la méthode de Random Forest . Freund a proposé la méthode AdaBoost en 1997 , et avec l’amélioration continue des classificateurs d’apprentissage automatique, en 2016, Chen et al. ont proposé un classificateur-XGBoost , qui peut grandement améliorer l’efficacité et la précision de l’algorithme dans certains cas. En tant qu’application, récemment Reece et al. ont déjà appliqué des outils d’apprentissage automatique pour identifier la dépression à partir de photos Instagram .

L’analyse de régression a souvent certaines exigences sur les variables indépendantes, telles que l’absence de multicollinéarité, cependant les méthodes de classification d’apprentissage d’ensemble relaxent les contraintes sur les variables indépendantes. Dans cette section, les méthodes de classification par apprentissage d’ensemble, notamment le bagging, Random Forest, AdaBoost et XGBoost, sont utilisées pour évaluer l’importance de chaque attribut du tableau 1. Nous utilisons le package ‘adabag’ du logiciel R pour exécuter les méthodes AdaBoost et bagging, le package ‘randomForest’ pour exécuter la méthode Random Forest et le package ‘xgboost’ pour exécuter la méthode XGBoost. Pour le jeu de données, une validation croisée 5 fois est utilisée pour évaluer les performances des classificateurs, et les paramètres de l’algorithme sont choisis pour obtenir un taux d’erreur stable. Les nombres de messages d’envoi et de non-envoi sont déséquilibrés dans l’ensemble de données, et le plus grand ensemble est sous-échantillonné de façon aléatoire pour obtenir un ensemble de la même taille que le plus petit.

Les taux d’erreur de quatre méthodes de classification par apprentissage d’ensemble sont présentés dans le tableau 4. Nous constatons que les taux d’erreur de Random Forest et d’AdaBoost sont les plus bas pour les femelles envoyant des messages aux mâles, tandis que XGBoost est le plus bas pour les mâles envoyant des messages aux femelles. Le classement par importance des attributs est illustré dans les figures 9 et 10. La figure 9 montre que lorsque les femmes envoient des messages aux hommes, les trois attributs les plus importants sont les valeurs \(\mathit{pop}_{3}\) et \(\mathit{pop}_{1}\) pour les hommes, et l’outdegree pour les femmes. De même, la figure 10 montre que lorsque les hommes envoient des messages aux femmes, les trois attributs les plus importants sont les valeurs \(\mathit{pop}_{3}\) et \(\mathit{pop}_{1}\) pour les femmes, et l’outdegree pour les hommes. Les facteurs les plus importants pour prédire la décision d’envoyer des messages des hommes et des femmes sont les valeurs \(\mathit{pop}_{3}\) et \(\mathit{pop}_{1}\) représentant la popularité des compagnons potentiels, qui sont aussi significativement associées positivement aux comportements de messagerie dans la régression logistique.

Figure 9

Les classements d’importance relative des attributs lorsque les femmes envoient des messages aux hommes pour différentes méthodes de classification. L’axe horizontal indique les attributs et l’axe vertical indique leur importance correspondante. Pour bagging, Random Forest et AdaBoost, l’importance relative de chaque variable dans la tâche de classification est mesurée par l’indice de Gini, et pour XGBoost, l’importance relative est mesurée par le paramètre Gain

Figure 10

Rangements de l’importance relative des attributs lorsque les hommes envoient des messages aux femmes pour différentes méthodes de classification. L’axe horizontal indique les attributs et l’axe vertical indique leur importance correspondante. Pour la mise en sac, Random Forest et AdaBoost, l’importance relative de chaque variable dans la tâche de classification est mesurée par l’indice de Gini, et pour XGBoost l’importance relative est mesurée par le paramètre Gain

Tableau 4 Taux d’erreur en utilisant des méthodes de classification par apprentissage d’ensemble

L’objectif de la classification par apprentissage d’ensemble est différent de l’analyse de régression logistique. D’après les tableaux 9 et 10, les indices de centralité montrent effectivement l’importance écrasante, et les autres variables montrent le manque relatif de pouvoir prédictif. Cependant, cela ne signifie pas que les autres variables sont inutiles, et elles peuvent encore être associées de manière significative aux comportements de messagerie des utilisateurs dans la régression logistique.

Analyse du comportement stratégique

Le concept de comportement stratégique dérive de l’économie, où l’implication originale est que les entreprises prennent des mesures qui affectent l’environnement du marché pour augmenter les profits (en référence au taux de réponse aux messages dans cette étude), qui est ensuite étendu aux problèmes d’appariement , tels que l’appariement des compagnons.

Dans notre recherche, le comportement stratégique se réfère au fait qu’un utilisateur enverra un message à un autre utilisateur selon que sa décision peut augmenter la probabilité de réponse du message. En l’absence de données de réponse des utilisateurs, nous souhaitons utiliser des indices de centralité caractérisant la popularité des utilisateurs pour analyser si les utilisateurs ont tendance à envoyer des messages aux personnes plus populaires qu’eux ou à celles qui sont moins populaires. Nous étudions le comportement stratégique des utilisateurs en analysant la corrélation entre les indices de centralité. Les courbes de lissage pour la corrélation avec le modèle additif généralisé montrent qu’il existe une relation non linéaire ou approximativement linéaire entre les indices de centralité des utilisateurs (voir les figures 5 et 6 du fichier supplémentaire 1 pour plus de détails), nous utilisons donc le coefficient de corrélation de Spearman pour caractériser la corrélation. Comme le montrent les tableaux 5 et 6, nous constatons que sur le site de rencontres, les hommes et les femmes présentent des comportements différents en matière de messagerie, malgré le coût réduit du rejet dans l’environnement réseau. Pour les hommes envoyant des messages aux femmes, il existe des corrélations positives faibles entre les indices de centralité, qui peuvent être caractérisées par de petits coefficients de corrélation positifs et significatifs, tandis que pour les femmes envoyant des messages aux hommes, il existe des corrélations positives faibles ou modestes entre les indices de centralité caractérisées par des coefficients de corrélation positifs et significatifs faibles ou légèrement plus importants. Les hommes ne font pas preuve d’un comportement stratégique dans une large mesure lorsqu’ils envoient des messages, tandis que pour les femmes, lorsque leurs indices de centralité augmentent, les indices correspondants des hommes qui ont reçu leurs messages pourraient également augmenter.

Tableau 5 Coefficients de corrélation de Spearman entre les indices de centralité lorsque les femmes envoient des messages aux hommes
Tableau 6 Coefficients de corrélation de Spearman entre les indices de centralité lorsque les hommes envoient des messages aux femmes

En étudiant les corrélations entre les mêmes paires d’indices de centralité pour les utilisateurs, nous analysons plus en détail si les utilisateurs ont tendance à envoyer des messages à des personnes qui sont plus populaires qu’eux ou à celles qui le sont moins. Pour chaque indice de centralité des expéditeurs, nous donnons la moyenne et l’écart-type des indices des récepteurs correspondants, ainsi que la proportion des indices de centralité des récepteurs qui sont plus grands que ceux des expéditeurs dans les figures 7 et 8 du fichier supplémentaire 1. Pour chaque indice de centralité, le tableau 7 présente la proportion des indices de centralité des récepteurs qui sont plus grands que ceux des expéditeurs lors de l’envoi des messages. A titre de comparaison, nous donnons également les résultats aléatoires. Par rapport aux hommes, les femmes sont plus nombreuses à avoir tendance à envoyer des messages à des personnes plus populaires qu’elles.

Tableau 7 Les proportions des indices de centralité des récepteurs qui sont plus grands que ceux des expéditeurs lors de l’envoi de messages

Il y a eu plusieurs études sur le comportement stratégique des utilisateurs dans les rencontres en ligne. Certaines études ont trouvé une corrélation positive significative entre la popularité des utilisateurs masculins et féminins. Par exemple, la recherche de Taylor et al. sur les utilisateurs des États-Unis a montré que, ils ont tendance à sélectionner et à être sélectionnés par d’autres utilisateurs dont la popularité relative est similaire à la leur, bien que cela ne signifie pas nécessairement un taux de réussite plus élevé, c’est-à-dire recevoir plus de réponses . Une analyse empirique récente des utilisateurs d’un site de rencontres en ligne dans quatre villes américaines a utilisé le PageRank pour caractériser leur désirabilité et a montré que les hommes et les femmes envoyaient des messages à des partenaires qui étaient en moyenne 25 % plus désirables qu’eux-mêmes. Cependant, certaines études n’ont pas trouvé de corrélation entre la popularité des utilisateurs. Par exemple, la recherche sur les utilisateurs de Boston et de San Diego n’a pas trouvé de preuve de comportement stratégique . Une autre recherche sur les données de rencontres en ligne d’une ville moyenne du sud-ouest des États-Unis a révélé que, indépendamment de leurs propres niveaux de désirabilité qui caractérisent l’attrait physique, la popularité, la personnalité et les ressources matérielles des utilisateurs, les hommes et les femmes ont tendance à envoyer des messages aux utilisateurs les plus désirables socialement. Nous constatons que les utilisateurs sur différentes plateformes ou dans différents contextes culturels ont des comportements stratégiques différents, et les mécanismes sous-jacents doivent encore être explorés plus avant.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.