Attribut præference analyse

Attribut forskel distribution

In online dating, der er betydelige kønsforskelle med hensyn til attribut præference, selv-præsentation og interaktion. Brugerne har normalt en vis præference for kammeraternes alder eller højde. For både mænd og kvinder, når de sender beskeder til deres potentielle partnere, beregner vi aldersforskellen som alder(modtager) – alder(afsender), og højdeforskellen som højde(modtager) – højde(afsender). Figur 1 og 2 viser fordelingen af henholdsvis aldersforskellen og højdeforskellen. Til sammenligning viser vi også de randomiserede resultater ved at antage, at kvindelige(mandlige) brugere tilfældigt sender meddelelser til mandlige(kvindelige) brugere.

Figur 1

Aldreforskelsfordeling. FM repræsenterer, at kvindelige brugere sender meddelelser til mandlige brugere, og MF repræsenterer, at mandlige brugere sender meddelelser til kvindelige brugere. Gennemgående linjer repræsenterer den lokalt vægtede polynomiale regressionstilpasning af deres tilsvarende datapunkter, og det grå interval repræsenterer et 95 % konfidensområde

Figur 2

Højdeforskelfordeling. FM repræsenterer, at kvindelige brugere sender meddelelser til mandlige brugere, og MF repræsenterer, at mandlige brugere sender meddelelser til kvindelige brugere. Gennemgående linjer repræsenterer den lokalt vægtede polynomiale regressionstilpasning af deres tilsvarende datapunkter, og det grå interval repræsenterer et 95 % konfidensområde

I de fleste tider og steder gifter kvinder sig normalt med ældre mænd . Figur 1 viser, at i det moderne kinesiske samfund foretrækker mænd i gennemsnit kvinder, der er to år yngre end dem selv, og kvinder foretrækker mænd, der er to år ældre end dem selv. Men det interval af aldersforskelle, som kvinder accepterer, er mindre end mændenes: den mindste alder, som kvinder accepterer, er, at mænd er 11 år yngre end dem, og den højeste alder, som de accepterer, er, at mænd er 23 år ældre end dem, mens den mindste alder, som mænd accepterer, er, at kvinder er 25 år yngre end dem, og den højeste alder, som de accepterer, er, at kvinder er 28 år ældre end dem. Hvis man kun ser på fordelingen af aldersforskelle, kan vi i overensstemmelse med tidligere resultater fra en række kulturer og religioner konstatere, at det aldersinterval, som kvinder er villige til at sende beskeder, er smallere end det aldersinterval, som mænd er villige til at sende beskeder. Mænds og kvinders præferencer er ikke tilfældige; de søger potentielle dates med en mindre aldersforskel end forudsagt ved tilfældig udvælgelse, hvilket viser karakteristikken af likes-attract.

Figur 2 viser, at generelt er højdeforskellen for kvinder, der sender beskeder til mænd (de fleste er 12 cm), større end den for mænd, der sender beskeder til kvinder (de fleste er 10 cm), når de vælger potentielle partnere. I Kina er den ideelle højdeforskel for mænd, at de er 10 cm højere end den person, de sender beskeden, mens den ideelle højdeforskel for kvinder er, at de er 12 cm kortere end den person, de sender beskeden. Ifølge data fra Yahoo! dating personlige annoncer er højden også vigtig for brugere i USA, især for kvinder, når det gælder dating. I fig. 2 er højdeforskellen for kvinder mindre end for mænd: kvinder accepterer som minimum, at mænd er 3 cm kortere end dem, og som maksimum, at mænd er 30 cm højere end dem, mens mænd accepterer som minimum, at kvinder er 13 cm kortere end dem, og som maksimum, at kvinder er 32 cm højere end dem. Kvinderne udviser en karakteristik af “likes-attract” med hensyn til præference for højde. Som det samme er tilfældet med alder, søger brugerne potentielle partnere med en mindre højdeforskel end forudsagt ved tilfældig udvælgelse, selv om forskellen ikke er så tydelig som aldersforskellen.

Det er bemærkelsesværdigt, at på datingsiden er brugernes karakteristika alle selvrapporterede. Af hensyn til indtryksstyring kan brugerne overdrive deres personlige karakteristika . For eksempel afslørede en nylig undersøgelse af online selvrapporteret højde mod objektivt målte data hos unge australske voksne, at selvrapporteret højde er signifikant overvurderet med et gennemsnit på 1,79 cm for mænd og 1,29 cm for kvinder . Mænd lyver mere end kvinder om deres højde, hvilket også ses hos online-datere i New York City . Vi bemærker, at brugerne tilsyneladende ikke har rapporteret deres fysiske højde nøjagtigt på datingsiden . I datasættet er gennemsnitshøjden for kvindelige og mandlige brugere henholdsvis 161,99 cm (\(\mathit{SD}=4,18\)) og 173,08 cm (\(\mathit{SD}=4,68\))). I den virkelige verden er gennemsnitshøjden for voksne kvinder og mænd i Kina imidlertid henholdsvis 160,88 cm og 169,00 cm, hvilket betyder, at kvindelige og mandlige brugere i gennemsnit kan overdrive deres højde med henholdsvis 1,11 cm og 4,08 cm. Efter korrektion heraf finder vi, at de reelle højdeforskelle \(10-(4,08-1,11) = 7,03\text{ cm}\) for mænd og \(12-(4,08-1,11) = 9,03\text{ cm}\) for kvinder ville være betydelige. Vi bemærker imidlertid også, at gennemsnitsalderen for mandlige og kvindelige brugere på datingsiden er henholdsvis 28,73 og 28,58 år, mens gennemsnitsalderen for mænd og kvinder i den samlede voksne befolkning i Kina ifølge folketællingsdataene er henholdsvis 40,56 og 41,01 år. Datingbefolkningen er yngre end den samlede voksne befolkning og er derfor sandsynligvis højere, og brugerne overdriver måske ikke deres højde helt så meget som beregnet.

Attributpræference

Når en bruger sender en besked til en anden bruger, er hans/hendes valg af modtager måske ikke tilfældigt, men har snarere en vis præference for visse attributter, såsom præference for beskæftigelse, uddannelse, indkomst og så videre. For at karakterisere præferencen hos afsender med egenskab i for modtager med egenskab j, lad \(m_{ij}\) være antallet af meddelelser, der sendes fra brugere med egenskab i til brugere med egenskab j, \(m_{i}\) er det samlede antal meddelelser, der er sendt fra brugere med attribut i, \(n_{j}\) er antallet af modtagere med attribut j, og n er det samlede antal modtagere, så er attributpræferencen \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0\) angiver, at i forhold til tilfældig udvælgelse har afsendere med attribut i en præference for modtagere med attribut j, \(p_{ij}=0\) angiver, at der ikke er nogen præference, og \(p_{ij}<0\) angiver en negativ præference, dvs. at de foretrækker ikke at vælge modtagere med attribut j.

Beskæftigelsespræferencerne er vist i figur 3 og 4 (se tabel 1 og 2 i Additional file 1 for betydningen af attributterne og antallet og andelen af mænd/kvinder for hver beskæftigelse). Vi finder, at sammenlignet med mænd, der sender meddelelser til kvinder, er der, når kvindelige brugere sender meddelelser til mandlige brugere, en stærkere præference for deres potentielle partneres beskæftigelse. I fig. 3 finder vi, at kvinder, der er studerende, revisorer, undervisere eller i andre ikke-kategoriserede erhverv, ikke foretrækkes af mænd, mens kvinder, der arbejder med design, er lidt populære med hensyn til den relative mængde modtagne beskeder, især for mænd i luftfarts-serviceindustrien. Samtidig finder vi også, at mænd, der arbejder som husholdningsassistenter, i disse data kun sender beskeder til kvinder, der arbejder som regnskabsførere, og at mænd, der arbejder i oversættelsesbranchen, kun sender beskeder til kvinder, der er privatejere, hvilket kan skyldes den lille stikprøve af brugeradfærd med hensyn til disse egenskaber.

Figur 3

Beskæftigelsespræference for mandlige brugere, der sender beskeder til kvindelige brugere. Den lodrette akse angiver de mandlige erhverv, og den vandrette akse angiver de kvindelige erhverv. Præferenceværdierne er repræsenteret ved forskellige farver

Figur 4

Beskæftigelsespræference for kvindelige brugere, der sender beskeder til mandlige brugere. Den lodrette akse angiver de kvindelige erhverv, og den vandrette akse angiver de mandlige erhverv. Præferenceværdierne er repræsenteret ved forskellige farver

Fra fig. 4 finder vi, at de mest populære erhverv for mænd er ledende stillinger, finans, uddannelse og private ejere. De fleste personer i disse fire erhverv har en høj indkomst eller er veluddannede. De upopulære mandlige brugere er skoleelever, sælgere og personer, der er beskæftiget med andre ikke-kategoriserede erhverv. Samtidig har kvinder, der er beskæftiget inden for kemisk industri, tendens til at søge mænd, der er beskæftiget inden for uddannelse, kvinder, der er beskæftiget inden for sport, tendens til at søge mænd, der er private ejere, og kvinder, der er beskæftiget inden for politiet, sender kun beskeder til mænd, der er beskæftiget inden for finans og fast ejendom i disse data, hvilket også kan tilskrives den lille stikprøvestørrelse af brugeradfærd med hensyn til disse attributter.

Uddannelsesniveauet har en betydelig indvirkning på parring og ægteskab . Præferencerne for uddannelsesniveauet er vist i figur 5 og 6 (se tabel 3 og 4 i Additional file 1 for betydningen af attributterne og antallet og andelen af mænd/kvinder for hvert uddannelsesniveau). I Kina, ligesom i de andre lande, henviser postdoktor også til en stilling snarere end til en uddannelsesmæssig præstation. På mange kinesiske websteder, når en bruger registrerer sig, betragtes postdoktor imidlertid også som et uddannelsesniveau, der ligger ud over en ph.d.-grad, når brugeren registrerer sig. På samme måde finder vi, at sammenlignet med mænd, der sender beskeder til kvinder, er der, når kvindelige brugere sender beskeder til mandlige brugere, en stærkere præference for uddannelsesniveauet hos deres potentielle partnere. Figur 5 viser, at mænd, hvis uddannelsesniveau er lavere end bachelorgraden, har tendens til at søge efter kvinder med samme akademiske kvalifikationer som dem selv eller lavere end deres kvalifikationer, mænd med et uddannelsesniveau, der er højere end bachelorgraden, men lavere end ph.d.-graden, har tendens til at søge efter kvinder med en bachelorgrad, og mænd med en ph.d.-grad eller en postdocuddannelse har tendens til at søge efter kvinder med en kandidatgrad. Med hensyn til præferencer for uddannelsesniveauer viser mænd generelt en “likes-attract”-karakteristik. For kvindelige brugere, der sender beskeder til mandlige brugere, viser fig. 6, at mænd med en bachelor- og kandidatgrad er populære, og for de fleste kvinder er mænd med en bachelorgrad mere populære, men kvinder med en kandidatgrad er mere tilbøjelige til at søge potentielle partnere med en kandidatgrad. Med hensyn til præference for uddannelsesniveauer viser kvinder generelt potentielt tiltrækkende karakteristika. En undersøgelse på et tysk online dating-site viste, at præferencen for lignende uddannelsesbaggrund stiger med uddannelsesniveauet. Kvinder er tilbageholdende med at kommunikere med mænd med et lavere uddannelsesniveau, men der er ingen hindringer for mænd for at kontakte kvinder med lavere uddannelseskvalifikationer .

Figur 5

Uddannelsesniveaupræference for mandlige brugere, der sender beskeder til kvindelige brugere. Den lodrette akse angiver de mandlige uddannelsesniveauer, og den vandrette akse angiver de kvindelige uddannelsesniveauer. Præferenceværdierne er repræsenteret ved forskellige farver

Figur 6

Uddannelsesniveaupræference for kvindelige brugere, der sender beskeder til mandlige brugere. Den lodrette akse angiver de kvindelige uddannelsesniveauer, og den vandrette akse angiver de mandlige uddannelsesniveauer. Præferenceværdierne er repræsenteret ved forskellige farver. Kvindelige postdocs sendte ingen meddelelser til mænd i datasættet, og vi indstiller elementerne i den tilsvarende række til 0

Uddannelsesniveau og indkomst er to vigtige indikatorer for en persons sociale og økonomiske status. Af figur 7 og 8 (se tabel 5 og 6 i Additional file 1 for betydningen af attributterne og antallet og andelen af mænd/kvinder for hvert indkomstniveau) fremgår det, at der med hensyn til indkomstniveauet er mindre tydelig præference for mandlige brugere end for kvindelige brugere i forbindelse med valg af potentiel partner i forhold til kvindelige brugere. På den ene side foretrækker alle mænd, som det fremgår af figur 7, tydeligvis kvinder, hvis månedlige indkomst ligger mellem 5 000 RMB og 10 000 RMB (RMB er den kinesiske valuta, og 1 RMB = 0,145 amerikanske dollar = 0,128 euro), mens kvinder med en indkomst på under 2 000 RMB tydeligvis er udelukket. Mænd viser imidlertid ingen åbenlys præference eller udelukkelse af kvinder, hvis indkomst er over 10 000 RMB. På den anden side, som det fremgår af fig. 8, kan alle kvinder ikke lide mænd, der tjener mindre end 5 000 RMB, og mænd, der tjener mellem 10 000 og 20 000 RMB, er de mest populære. Med hensyn til præference for indkomstniveauer viser kvinderne generelt også potentiale-attraktionsegenskaber. Et felteksperiment på et kinesisk online-datingsted viste, at mænd besøgte profiler af kvinder med forskellige indkomster med nogenlunde samme hastighed, mens det for kvindernes vedkommende er sådan, at jo højere mænds indkomst er, jo større er deres besøgsfrekvens på deres profiler , hvilket er forskelligt fra vores resultater.

Figur 7

Præference for månedlige indkomstniveauer for mandlige brugere, der sender beskeder til kvindelige brugere. Den lodrette akse angiver de mandlige indkomstniveauer, og den vandrette akse angiver de kvindelige indkomstniveauer. Præferenceværdierne er repræsenteret ved forskellige farver

Figur 8

Præference for månedlige indkomstniveauer for kvindelige brugere, der sender beskeder til mandlige brugere. Den lodrette akse angiver de kvindelige indkomstniveauer, og den vandrette akse angiver de mandlige indkomstniveauer. Præferenceværdierne er repræsenteret ved forskellige farver

Logistisk regressionsklassifikation

Kompatibilitetsscore

På brugernes personlige hjemmesider har hver bruger vist kravene til de potentielle partnere, herunder krav til 7 attributter, dvs.dvs. alder, avatar, uddannelsesniveau, højde, kreditvurdering, bopæl og civilstand (se fig. 1-4 i Additional file 1 for udvælgelseskravene til flere attributter). Hvad angår kreditværdighed, vil en bruger på datingsiden, efter at han/hun har bestået den hurtige identitetsgodkendelse eller har uploadet et af tre dokumenter (id-kort, pas eller Hongkong- og Macau-pas) og bestået anmeldelsen, få den første stjerne, dvs. kreditværdighed lig med 1, på datingsiden. På grundlag af den første stjerne kan der, hver gang et nyt dokument uploades og godkendes, tilføjes en ekstra stjerne eller kreditvurdering (op til fem stjerner, dvs. et femstjernet medlem). Selv om brugernes minimumsalder på platformen er 18 år, er der stadig meget få brugere, der stiller krav om en minimums- eller maksimumsalder på under 18 år (se fig. 3 i Additional file 1 for nærmere oplysninger). Vi anvender begrebet kompatibilitetsscore til at beskrive matchet mellem brugere på grundlag af, om en bruger opfylder en anden brugers udvælgelseskrav eller ej. Når kvinder sender meddelelser til mænd, kan vi for hver meddelelse og for hver egenskab få andelen af kvinder, der svarer til mændenes partnerpræferencer, og andelen af mænd, der svarer til kvindernes præferencer, dvs. vi kan få to vektorer, der indeholder 7 andele. I henhold til dataene får vi \(\mathbf{w}_{{\mathrm{FMm}}= (0.701,0.886,0.462,0.826,0.919,0.786,0.920)\), og \(\mathbf{w}_{\mathrm{FMf}}=(0.912,0.976,0.681,0.962,0.994,0.864,0.864,0.912)\), hvor \(\(\mathbf{w}_{\mathrm{FMm}}}\) er andelen af kvindelige attributter, der opfylder mandlige præferencer, og \(\(\mathbf{w}_{\mathrm{FMf}}}\) er andelen af mandlige attributter, der er i overensstemmelse med kvindelige præferencer. På samme måde får vi, når mænd sender meddelelser til kvinder, \(\mathbf{w}_{\mathrm{MFm}}=(0.877,0.977,0.402,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Således er kompatibilitetsscorerne for kvinder, der sender meddelelser til mænd,

$$\\begin{aligned}& c_{\mathrm{FMm}}} = \frac{\mathbf{w}_{\mathrm{FMm}}} \cdot { (\textrm{female attr. i mandlig præf.})}}}{ { {\operatorname{sum}(\mathbf{w}_{\mathrm{FMm}}} )}}, \end{aligned}}$$$
(1)

$$\begin{aligned}& c_{\mathrm{FMf}}} = \frac{\mathbf{w}_{\mathrm{FMf}} \cdot (\textrm{mandsattr. i kvindelige præf.})}{ { {\operatorname{sum}(\mathbf{w}_{\mathrm{FMf}} )}}, \end{aligned}$$$
(2)

og kompatibilitetsscorerne for mænd, der sender beskeder til kvinder, er

$$$\begin{aligned}& c_{{\mathrm{MFm}}} = \frac{\mathbf{w}_{\mathrm{MFm}} \cdot (\textrm{kvindelig attr. i mandlig præf.})}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{MFm}}} )}}, \end{aligned}}$$$
(3)

$$\begin{aligned}& c_{\mathrm{MFff}} = \frac{\mathbf{w}_{\mathrm{MFf}} \cdot (\textrm{hankønsattr. i kvindelige præf.})}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{MFff}} )}}, \end{aligned}}$$$
(4)

hvor (kvindelige attr. i mandlige præf.) er en vektor, der karakteriserer, om kvindelige attributter opfylder mandlige præferencer for et brugerpar (1 for ja og 0 for nej), og på samme måde er (male attr. in female pref.) en vektor, der karakteriserer, om mandlige attributter opfylder kvindelige præferencer for et brugerpar. Ligning 1 og 3 er kompatibilitetsscoren mellem en mandlig præference og profilen for hans valgte partner, og ligning 2 og 4 er kompatibilitetsscoren mellem en kvindelig præference og profilen for hendes valgte partner. For et brugerpar, \(u_{a}\) og \(u_{b}\), bruger vi en score, dvs. en gensidig score, til at kvantificere, hvor meget attributterne hos \(u_{b}\) stemmer overens med \(u_{a}\)’s præferencer, og hvor meget attributterne hos \(u_{a}\) stemmer overens med \(u_{b}\)’s præferencer. Den gensidige score mellem \(u_{a}\) og \(u_{b}\) er gennemsnittet af disse to brugeres kompatibilitetsscore, dvs, for kvinder, der sender meddelelser til mænd, er den gensidige score \(\mathit{rs}} = (c_{{\mathrm {FMm}} + c_{\mathrm{FMf}} )/2\), og for mænd, der sender meddelelser til kvinder \(\mathit{rs} = (c_{{\mathrm{MFm}} + c_{{\mathrm{MFf}} )/2\).

Logistisk regression

Lad click være antallet af gange, en bruger bliver klikket, msg være antallet af beskeder, som en bruger modtager, og rec være antallet af gange, en bruger bliver anbefalet og vist på de andre brugeres hjemmesider, definerer vi \(\mathit{pop}_{1} = \mathit{click}/\mathit{rec}\) og \(\mathit{pop}_{2} = \mathit{msg}/\mathit{rec}\), som kan karakterisere en brugers popularitet på grundlag af handlinger. Vi bruger også PageRank-centralitet (\(\mathit{pop}_{3}\)) til at kvantificere, hvor central eller populær en bruger er i et netværk ved at tage hensyn til alle forbindelser i netværket. Attraktive personer, såsom personer med fordelagtige demografiske attributter og højere socioøkonomisk status, har en tendens til at være mere krævende end gennemsnitsmennesker med hensyn til det potentielle partnervalg, hvilket kan afsløres i præferenceanalysen af indkomst og uddannelsesniveau i sektion. 3.1.2. De personer, der opfattes som attraktive af attraktive mennesker, kan være endnu mere populære/attraktive. De variabler, der anvendes i opgaven, og deres betydning fremgår af tabel 1.

Tabel 1 Variabler og deres tilsvarende betydninger

Vi introducerer flere centralitetsindeks, såsom \(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\), \(\(\mathit{pop}_{2}\), \(\mathit{pop}_{3}\) og indegree, for at evaluere deres korrelation med beskedadfærd. Det er værd at bemærke, at centralitetsindeksene er aggregerede indikatorer, der beskriver brugernes begærlighed eller popularitet, og at brugerne ikke kender deres indeks, ligesom de heller ikke kender andres indeks. Vi bruger outdegree til at karakterisere brugernes aktivitetsniveau, og på datingsiden kender brugerne heller ikke de andre brugeres outdegree. I stedet for at bruge indeksene til at identificere eller udvælge attraktive partnere vil brugerne i virkeligheden sende en besked til en anden bruger på grundlag af mere specifikke oplysninger, f.eks. højere indkomst, bedre uddannelsesbaggrund, attraktive billeder eller god demografisk og socioøkonomisk kompatibilitet. I artiklen vil vi evaluere, om indeksene er signifikant forbundet med beskedadfærd.

Såfremt \(p_{i}\) er sandsynligheden for at sende beskeder for en kvindelig bruger i, \(1-p_{i}\) er sandsynligheden for ikke at sende beskeder, så er \(L_{f_{i}}}=\ln(\frac{p_{i}}}{1-p_{i}})\), dvs, for alle kvinder, \(L_{f}=\ln(\frac{p}{1-p})\). Tilsvarende antages det, at \(q_{j}\) er sandsynligheden for at sende meddelelser for en mandlig bruger i, \(1-q_{j}\) er sandsynligheden for ikke at sende meddelelser, så er \(L_{m_{j}}}=\ln (\frac{q_{j}}}{1-q_{j}})\), dvs, for alle hanner er \(L_{m}= \ln(\frac{q}{1-q})\). Vi opnår logistiske regressionsmodeller på følgende måde:

$$\begin{aligned}& L_{f} = \alpha _{1} + {\boldsymbol{\beta} }_{1} \cdot {\mathbf{attribute}} + \varepsilon _{{\mathrm{1}}}, \end{aligned}}$$$
(5)

$$\begin{aligned}& L_{m} = \alpha _{2} + {\boldsymbol{\beta }}_{2} \cdot {\mathbf{attribute}} + \varepsilon _{{\mathrm{2}}}. \end{aligned}$$$
(6)

I denne undersøgelse udføres multikollinearitetstests for at finde frem til uafhængige variabler, blandt hvilke korrelationskoefficienterne er mindre end 0,5 (se tabel 7 og 8 i Additional file 1 for nærmere oplysninger). De logistiske regressionsresultater for kvinder, der sender beskeder til mænd, er vist i tabel 2. Vi finder, at næsten alle variabler er signifikante, når der kun tages hensyn til kvindernes egenskaber (model 1), dvs. afsendernes egenskaber, men kun kvindernes bolig og overgrad er positivt forbundet med sandsynligheden for, at kvinder sender beskeder til mænd. Når der kun tages hensyn til mændenes attributter (model 2), er alle de øvrige attributter, bortset fra mandlig mobiltelefonverifikation og kreditvurdering, signifikante og positivt forbundet med sandsynligheden for, at kvinder sender beskeder. Når man tager hensyn til de to parters attributter og kompatibilitetsscore (model 3), er blandt de signifikante variabler, kvindelig mobiltelefonverifikation, bilejerskab, kreditvurdering og popularitetsniveau (\(\mathit{pop}_{1}\) og \(\(\mathit{pop}_{3}\))) negativt forbundet med sandsynligheden for, at kvinder sender beskeder, mens de andre variabler er positivt forbundet. Vi finder, at når kvinder sender beskeder til mænd, er de ikke kun bekymrede for, om de opfylder mændenes krav, men også for, om mændene opfylder deres egne krav.

Tabel 2 Logistiske regressionsresultater for kvindelige brugere, der sender beskeder til mandlige brugere

De logistiske regressionsresultater for mænd, der sender beskeder til kvinder, er vist i tabel 3. Vi finder, at når der kun tages hensyn til de kvindelige egenskaber (model 1), bortset fra kvindelig mobiltelefonverifikation, kreditvurdering og outdegree, er alle de andre variabler signifikante, men kun kvindelig boligejerskab påvirker sandsynligheden for, at mænd sender beskeder på en negativ måde. Når der kun tages hensyn til mandlige attributter (model 2), er alle variabler signifikante, men kun mandlig outdegree er positivt korreleret med beskedadfærd, mens andre er negativt korreleret. Når alle variabler tages i betragtning (model 3), er alle andre variabler signifikante, bortset fra kvindelig kreditvurdering, outdegree og kompatibilitetsscore mellem en kvindelig præference og den tilsvarende anden sides profil, alle andre variabler signifikante. Blandt de signifikante variabler er kvindelig mobiltelefonverifikation, bilejerskab, popularitet (\(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\) og \(\mathit{pop}_{3}\)), mandlig outdegree og kompatibilitetsscoren mellem en mandlig præference og profilen for den tilsvarende anden side positivt korreleret med beskedadfærd, mens alle de andre variabler er negativt korreleret. Ved at analysere betydningen af de to kompatibilitetsscorer finder vi desuden, at mænd kun er opmærksomme på, om kvinder opfylder deres egne krav, når de sender beskeder til kvinder.

Tabel 3 Logistiske regressionsresultater for mandlige brugere, der sender beskeder til kvindelige brugere

Som det fremgår af tabel 2 og 3, er populariteten af den anden side for mænd eller kvinder, der sender beskeder, signifikant positivt forbundet med beskedadfærd for mænd eller kvinder, der sender beskeder. På den ene side repræsenterer \(\mathit{pop}_{pop}_{1}\) og \(\mathit{pop}_{2}\) værdierne, i henhold til deres beregningsmetode, en brugers lokale popularitet. På den anden side repræsenterer \(\mathit{pop}_{3}\)-værdien, dvs. PageRank, en brugers popularitet fra et globalt perspektiv.

For kvinder, der sender beskeder til mænd, er \(\(\exp (0,390) = 1,477\) for mandlige \(\mathit{pop}_{1}\) større end \(\(\exp (0,390) = 1,477\) for mandlige \(\mathit{pop}_{1}\).146) = 1.157\) for mandlige \(\mathit{pop}_{3}\), og for mænd, der sender beskeder til kvinder, er \(\exp (0.462) = 1.587\) for kvindelige \(\mathit{pop}_{1}\) også større end \(\exp (0.141) = 1.151\) for kvindelige \(\mathit{pop}_{3}\). For både mænd og kvinder er den anden parts \(\mathit{pop}_{1}\) således vigtigere end \(\mathit{pop}_{3}\). Desuden finder vi også, at når kvinder sender meddelelser til mænd, er \(\exp (0,390) = 1,477\) for mænds \(\mathit{pop}_{1}\) mindre end \(\exp (0,462) = 1.587\) for kvindelige \(\mathit{pop}_{1}\), når mænd sender meddelelser til kvinder, hvilket indikerer, at sammenlignet med kvinder er den anden sides \(\mathit{pop}_{1}\) for mænd mere forbundet med deres meddelelsesadfærd. Når kvinder sender beskeder til mænd, er \(\(\exp (0,146) = 1,157\) for mandlige \(\mathit{pop}_{3}\) imidlertid større end \(\(\exp (0,141) = 1,157\) for mandlige \(\mathit{pop}_{3}\).151\) for kvindelige \(\mathit{pop}_{3}\), når mænd sender meddelelser til kvinder, hvilket indikerer, at sammenlignet med mænd er den anden sides \(\mathit{pop}_{3}\) for kvinders vedkommende mere forbundet med deres meddelelsesadfærd.

I Kina er det at have en lejlighed og en bil et symbol på en persons rigdom og sociale status, og i nogle regioner er de blevet nødvendigheder for at blive gift. Når kvinder sender beskeder til mænd, er det vigtigt for mænd at have en bolig og en bil. Når mænd sender beskeder til kvinder, er det ikke vigtigt for kvinder at have et hus, men det er noget vigtigt for kvinder at have en bil. Vi finder, at \(\exp(0,038) = 1,039\) for, om den anden side har en bil, når mænd sender beskeder til kvinder, er mindre end \(\exp(0,157) = 1,170\) for, om den anden side har en bil, når kvinder sender beskeder til mænd, hvilket indikerer, at kvinder er mere opmærksomme end mænd på, om den anden side har en bil.

En brugers outdegree kvantificerer brugerens aktivitet. Tilsyneladende høj aktivitet betyder, at man kontakter mange andre brugere, men i det væsentlige kan det dog betyde, at brugerne investerer mere tid og flere ressourcer i forsøget på at finde potentielle partnere. Outdegree er en egenskab, der er forskellig for mænd og kvinder. Når en kvinde sender en besked til en mand, er den anden parts outdegree signifikant positivt forbundet med meddelelsesadfærden, mens det ikke er tilfældet, når en mand sender en besked til en kvinde. Når kvinder sender beskeder til mænd, er netværksmålinger af popularitet og aktivitet hos de mænd, de kontakter, signifikant positivt forbundet med deres beskedadfærd, men når mænd sender beskeder til kvinder, er kun netværksmålinger af popularitet hos de kvinder, de kontakter, signifikant positivt forbundet med deres beskedadfærd.

Ensemble learning klassifikation

Med fremkomsten af big data-æraen er ensemble learning-klassifikationsmetoder gradvist blevet indført i feltet for forskning i sociale netværk. Så tidligt som i 1996 foreslog Breiman metoden bagging , og fem år senere foreslog han yderligere metoden Random Forest . Freund foreslog AdaBoost-metoden i 1997 , og med den løbende forbedring af maskinlæringsklassifikatorer foreslog Chen et al. i 2016 en klassifikator-XGBoost , som i nogle tilfælde i høj grad kan forbedre algoritmens effektivitet og nøjagtighed. Som en anvendelse har Reece et al. for nylig allerede anvendt maskinlæringsværktøjer til at identificere depression fra Instagram-fotos .

Regressionsanalyse har ofte visse krav til de uafhængige variabler, såsom fravær af multikollinearitet, men ensembleindlæringsklassifikationsmetoder slapper dog af med begrænsningerne på de uafhængige variabler. I dette afsnit anvendes ensembleindlæringsklassifikationsmetoder, herunder bagging, Random Forest, AdaBoost og XGBoost, til at vurdere betydningen af hver attribut i tabel 1. Vi anvender pakken “adabag” i R-softwaren til at udføre AdaBoost- og bagging-metoderne, pakken “randomForest” til at udføre Random Forest-metoden og pakken “xgboost” til at udføre XGBoost-metoden. For datasættet anvendes 5-fold krydsvalidering til at vurdere klassifikatorernes ydeevne, og algoritmeparametrene er valgt for at opnå en stabil fejlprocent. Antallet af meddelelser, der sendes og ikke sendes, er ubalanceret i datasættet, og det større sæt underudtages tilfældigt for at opnå et sæt af samme størrelse som det mindre.

Fejleraterne for fire klassifikationsmetoder med ensembleindlæring er vist i tabel 4. Vi finder, at fejlprocenterne for Random Forest og AdaBoost er de laveste for kvinder, der sender meddelelser til mænd, mens XGBoost er den laveste for mænd, der sender meddelelser til kvinder. Rangfølgen af attributternes betydning er vist i figur 9 og 10. Figur 9 viser, at når kvinder sender meddelelser til mænd, er de tre vigtigste attributter \(\mathit{pop}_{3}\) og \(\mathit{pop}_{1}\) værdierne for mænd og outdegree-værdien for kvinder. På samme måde viser fig. 10, at når mænd sender meddelelser til kvinder, er de tre vigtigste attributter \(\mathit{pop}_{3}\) og \(\mathit{pop}_{1}\) værdierne for kvinder og outdegree for mænd. De vigtigste faktorer, der forudsiger beslutningen om at sende beskeder for både mænd og kvinder, er værdierne \(\mathit{pop}_{3}\) og \(\mathit{pop}_{1}\), der repræsenterer potentielle partneres popularitet, og som også er signifikant positivt forbundet med beskedadfærd i den logistiske regression.

Figur 9

Rangering af attributternes relative betydning, når kvinder sender beskeder til mænd for forskellige klassificeringsmetoder. Den vandrette akse angiver attributterne, og den lodrette akse angiver deres tilsvarende betydning. For bagging, Random Forest og AdaBoost måles den relative betydning af hver enkelt variabel i klassifikationsopgaven ved Gini-indekset, og for XGBoost måles den relative betydning ved Gain-parameteren

Figur 10

Rangering af attributs relative betydning, når mænd sender beskeder til kvinder for forskellige klassifikationsmetoder. Den vandrette akse angiver attributterne, og den lodrette akse angiver deres tilsvarende betydning. For bagging, Random Forest og AdaBoost måles den relative betydning af hver enkelt variabel i klassifikationsopgaven ved hjælp af Gini-indekset, og for XGBoost måles den relative betydning ved hjælp af Gain-parameteren

Tabel 4 Fejlprocenter ved hjælp af ensemble learning-klassifikationsmetoder

Sigtet med ensemble learning-klassifikation er forskelligt fra logistisk regressionsanalyse. I henhold til figur 9 og 10 viser centralitetsindeksene faktisk den overvældende betydning, og de andre variabler viser den relative mangel på forudsigelseskraft. Dette betyder dog ikke, at de andre variabler er ubrugelige, og de kan stadig være signifikant forbundet med brugernes beskedadfærd i logistisk regression.

Strategisk adfærdsanalyse

Begrebet strategisk adfærd stammer fra økonomi, hvor den oprindelige implikation er, at virksomheder træffer foranstaltninger, der påvirker markedsmiljøet for at øge profitten (med henvisning til beskedresponsraten i denne undersøgelse), som derefter udvides til matchingproblemer , såsom matchende matching.

I vores forskning henviser strategisk adfærd til, om en bruger vil sende en besked til en anden bruger, afhænger af, om hans/hendes beslutning kan øge svarsandsynligheden for beskeden. Da vi ikke har brugerens svardata, vil vi gerne bruge centralitetsindeks, der karakteriserer brugerens popularitet, til at analysere, om brugerne har tendens til at sende meddelelser til personer, der er mere populære end dem selv, eller til dem, der er mindre populære. Vi undersøger brugernes strategiske adfærd ved at analysere korrelationen mellem centralitetsindeksene. Udglattende tilpasningskurver for korrelationen med en generaliseret additiv model viser, at der er et ikke-lineært eller tilnærmelsesvis lineært forhold mellem brugernes centralitetsindeks (se fig. 5 og 6 i Additional file 1 for detaljer), og vi bruger derfor Spearman-korrelationskoefficienten til at karakterisere korrelationen. Som det fremgår af tabel 5 og 6, finder vi, at mænd og kvinder på datingwebstedet viser forskellige adfærdsmønstre i messaging på trods af de reducerede omkostninger ved afvisning i netværksmiljøet. For mænd, der sender beskeder til kvinder, findes der svage positive korrelationer mellem centralitetsindeksene, som kan karakteriseres ved små positive og signifikante korrelationskoefficienter, mens der for kvinder, der sender beskeder til mænd, findes svage eller beskedne positive korrelationer mellem centralitetsindeksene, som karakteriseres ved små eller lidt større positive og signifikante korrelationskoefficienter. Mænd udviser ikke strategisk adfærd i stort omfang, når de sender beskeder, mens kvindernes centralitetsindeks stiger i takt med, at deres centralitetsindeks stiger, kan de tilsvarende indeks for de mænd, der har modtaget deres beskeder, også stige.

Tabel 5 Spearman-korrelationskoefficienter mellem centralitetsindekser, når kvinder sender beskeder til mænd
Tabel 6 Spearman-korrelationskoefficienter mellem centralitetsindekser, når mænd sender beskeder til kvinder

Ved undersøgelse af korrelationerne mellem de samme centralitetsindeks-par for brugere, analyserer vi yderligere, om brugerne har en tendens til at sende beskeder til personer, der er mere populære end dem selv, eller til dem, der er mindre populære. For hvert centralitetsindeks for afsendere angiver vi middelværdien og standardafvigelsen af de tilsvarende modtageres indeks samt andelen af modtagernes centralitetsindeks, der er større end afsendernes, i figur 7 og 8 i Additional file 1. Tabel 7 viser for hvert centralitetsindeks den andel af modtagernes centralitetsindeks, der er større end afsendernes, når der sendes meddelelser. Til sammenligning gives også de randomiserede resultater. Sammenlignet med mænd har flere kvinder en tendens til at sende beskeder til personer, der er mere populære end dem selv.

Tabel 7 Andelene af modtagernes centralitetsindeks, der er større end afsendernes, når de sender beskeder

Der har været flere undersøgelser af brugernes strategiske adfærd i forbindelse med online dating. Nogle undersøgelser har fundet en signifikant positiv korrelation mellem mandlige og kvindelige brugeres popularitet. For eksempel viste Taylor et al.’s undersøgelse af brugere fra USA, at de har en tendens til at vælge og blive valgt af andre brugere, hvis relative popularitet svarer til deres egen, selv om det ikke nødvendigvis betyder en højere succesrate, dvs. at de modtager flere svar . En nyere empirisk analyse af brugere i fire amerikanske byer fra et online dating site brugte PageRank til at karakterisere deres begærlighed og fandt, at både mænd og kvinder sendte beskeder til partnere, der i gennemsnit er ca. 25 % mere begærlige end dem selv . Der er dog også nogle undersøgelser, som ikke har fundet en sammenhæng mellem brugernes popularitet. F.eks. fandt undersøgelsen af brugere i Boston og San Diego ikke beviser for strategisk adfærd . En anden undersøgelse af online dating-data fra en mellemstor sydvestlig by i USA viste, at uanset deres eget begærlighedsniveau, som karakteriserer brugernes fysiske tiltrækningskraft, popularitet, personlighed og materielle ressourcer, har både mænd og kvinder en tendens til at sende beskeder til de socialt mest begærlige brugere . Vi finder, at brugere på forskellige platforme eller i forskellige kulturelle kontekster har forskellig strategisk adfærd, og de underliggende mekanismer skal stadig udforskes yderligere.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.