Attribuutvoorkeursanalyse

Attribuutverschilverdeling

In online dating zijn er significante sekseverschillen in termen van attribuutvoorkeur, zelfpresentatie en interactie . Gebruikers hebben meestal een bepaalde voorkeur voor de leeftijd of lengte van de partner. Voor zowel mannen als vrouwen, wanneer ze berichten sturen naar hun potentiële partners, berekenen we het leeftijdsverschil als leeftijd(ontvanger) – leeftijd(verzender), en het lengteverschil als lengte(ontvanger) – lengte(verzender). Figuren 1 en 2 tonen respectievelijk de verdeling van het leeftijdsverschil en de verdeling van het lengteverschil. Ter vergelijking tonen we ook de gerandomiseerde resultaten door aan te nemen dat vrouwelijke(mannelijke) gebruikers willekeurig berichten sturen naar mannelijke(vrouwelijke) gebruikers.

Figuur 1

Geeftijdsverschilverdeling. FM staat voor vrouwelijke gebruikers die berichten sturen naar mannelijke gebruikers en MF staat voor mannelijke gebruikers die berichten sturen naar vrouwelijke gebruikers. De ononderbroken lijnen vertegenwoordigen de plaatselijk gewogen polynomiale regressiefitting van hun overeenkomstige gegevenspunten, en het grijze interval vertegenwoordigt een 95%-betrouwbaarheidsgebied

Figuur 2

Hoogteverschilverdeling. FM staat voor vrouwelijke gebruikers die berichten sturen naar mannelijke gebruikers en MF staat voor mannelijke gebruikers die berichten sturen naar vrouwelijke gebruikers. De ononderbroken lijnen vertegenwoordigen de plaatselijk gewogen polynomiale regressiefitting van hun overeenkomstige gegevenspunten, en het grijze interval vertegenwoordigt een 95%-betrouwbaarheidsgebied

In de meeste tijden en plaatsen trouwen vrouwen gewoonlijk met oudere mannen. Figuur 1 laat zien dat in de moderne Chinese samenleving mannen gemiddeld de voorkeur geven aan vrouwen die twee jaar jonger zijn dan zij en vrouwen aan mannen die twee jaar ouder zijn dan zij. Het leeftijdsverschil dat vrouwen accepteren is echter kleiner dan dat van mannen: de minimumleeftijd die vrouwen accepteren is dat mannen 11 jaar jonger zijn dan zij en de maximumleeftijd die zij accepteren is dat mannen 23 jaar ouder zijn dan zij, terwijl de minimumleeftijd die mannen accepteren is dat vrouwen 25 jaar jonger zijn dan zij en de maximumleeftijd die zij accepteren is dat vrouwen 28 jaar ouder zijn dan zij. Als alleen naar de verdeling van de leeftijdsverschillen wordt gekeken, vinden we, in overeenstemming met eerdere bevindingen in een reeks culturen en religies, dat het bereik van de leeftijden die vrouwen bereid zijn te berichten kleiner is dan het bereik van de leeftijden die mannen bereid zijn te berichten. Mannelijke en vrouwelijke voorkeuren zijn niet willekeurig; ze zoeken potentiële dates met een kleiner leeftijdsverschil dan voorspeld door willekeurige selectie, wat het kenmerk van ‘vind ik leuk’-aantrekkingskracht laat zien.

Figuur 2 laat zien dat over het algemeen het lengteverschil voor vrouwen die berichten sturen naar mannen (de meeste zijn 12 cm) groter is dan dat voor mannen die berichten sturen naar vrouwen (de meeste zijn 10 cm) bij het kiezen van potentiële partners. In China is het ideale lengteverschil voor mannen dat zij 10 cm langer zijn dan de persoon die zij een bericht sturen, terwijl het ideale lengteverschil voor vrouwen is dat zij 12 cm korter zijn dan de persoon die zij een bericht sturen. Volgens de gegevens van Yahoo! dating persoonlijke advertenties, voor gebruikers in de VS, lengte is ook van belang voor dating, vooral voor vrouwen . In Fig. 2 is het lengteverschil voor vrouwen kleiner dan voor mannen: de minimumlengte die vrouwen accepteren is dat mannen 3 cm korter zijn dan zij en de maximumlengte die zij accepteren is dat mannen 30 cm langer zijn dan zij, terwijl de minimumlengte die mannen accepteren is dat vrouwen 13 cm korter zijn dan zij en de maximumlengte die zij accepteren is dat vrouwen 32 cm langer zijn dan zij. Vrouwen vertonen de eigenschap van leuk-aantrekkelijk in termen van voorkeur voor lengte. Net als bij leeftijd, zoeken gebruikers potentiële partners met een kleiner lengteverschil dan voorspeld door willekeurige selectie, hoewel het verschil niet zo duidelijk is als leeftijdsverschil.

Het is opmerkelijk dat in de datingsite, alle kenmerken van gebruikers zelf worden gerapporteerd. Om indruk management overwegingen , kunnen gebruikers overdrijven hun persoonlijke kenmerken . Bijvoorbeeld, een recent onderzoek naar online zelfgerapporteerde lengte tegen objectief gemeten gegevens bij jonge Australische volwassenen toonde aan dat zelfgerapporteerde lengte aanzienlijk wordt overschat met een gemiddelde van 1,79 cm voor mannen en 1,29 cm voor vrouwen . Mannen liegen meer dan vrouwen over hun lengte, wat ook wordt gevonden bij de online daters van New York City . We merken op dat gebruikers hun fysieke lengte niet accuraat gerapporteerd lijken te hebben op de datingsite. In de dataset is de gemiddelde lengte van vrouwelijke en mannelijke gebruikers respectievelijk 161.99 cm (\(\mathit{SD}=4.18)) en 173.08 cm (\(\mathit{SD}=4.68)). In de echte wereld echter is de gemiddelde lengte van volwassen vrouwen en mannen in China respectievelijk 160,88 cm en 169,00 cm, wat betekent dat vrouwelijke en mannelijke gebruikers hun lengte gemiddeld met respectievelijk 1,11 cm en 4,08 cm kunnen overdrijven. Na correctie vinden we dat het werkelijke lengteverschil voor mannen 7,03 cm en voor vrouwen 9,03 cm zou zijn. We zien echter ook dat op de datingsite de gemiddelde leeftijd van mannelijke en vrouwelijke gebruikers respectievelijk 28,73 en 28,58 jaar is, terwijl in de totale volwassen bevolking in China de gemiddelde leeftijd van mannen en vrouwen volgens de volkstelling respectievelijk 40,56 en 41,01 jaar is. De datingpopulatie is jonger dan de algemene volwassen bevolking, en is dus waarschijnlijk groter, en gebruikers overdrijven hun lengte misschien niet zo veel als berekend.

Attribuutvoorkeur

Wanneer een gebruiker een bericht naar een andere gebruiker stuurt, is zijn/haar keuze van ontvanger misschien niet willekeurig, maar heeft hij/zij eerder een voorkeur voor bepaalde attributen, zoals voorkeur voor werkgelegenheid, opleiding, inkomen, enzovoort. Om de voorkeur van verzender met kenmerk i voor ontvanger met kenmerk j te karakteriseren, zij \(m_{ij}\) het aantal berichten dat door gebruikers met kenmerk i naar gebruikers met kenmerk j is gestuurd, \(m_{i}\) het totale aantal berichten is dat door gebruikers met kenmerk i is verzonden, \(n_{j}\) het aantal ontvangers met kenmerk j is, en n het totale aantal ontvangers, dan is de attribuutvoorkeur \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0) geeft aan dat in vergelijking met een willekeurige selectie, verzenders met kenmerk i een voorkeur hebben voor ontvangers met kenmerk j, \(p_{ij}=0) geeft aan dat er geen voorkeur is en \(p_{ij}<0) geeft een negatieve voorkeur aan, d.w.z.

De werkgelegenheidsvoorkeuren worden getoond in Figs. 3 en 4 (zie Tabellen 1 en 2 in Additional file 1 voor de betekenissen van de attributen en het aantal en aandeel mannen/vrouwen voor elke werkkring). We vinden dat in vergelijking met mannen die berichten sturen naar vrouwen, wanneer vrouwelijke gebruikers berichten sturen naar mannelijke gebruikers, er een sterkere voorkeur is voor de dienstbetrekkingen van hun potentiële partners. In fig. 3 zien we dat vrouwen die student, boekhouder, onderwijzer of een ander ongecategoriseerd beroep uitoefenen, niet de voorkeur van mannen genieten, terwijl vrouwen die zich bezighouden met design enigszins populair zijn in termen van het relatieve aantal ontvangen berichten, vooral voor mannen in de luchtvaartdienstverlening. Tegelijkertijd stellen we vast dat in deze gegevens mannen in de huishouding alleen berichten sturen naar vrouwen in de boekhouding en mannen in de vertaalindustrie alleen berichten sturen naar vrouwen die privé-eigenaar zijn, wat te wijten kan zijn aan de kleine steekproefomvang van het gebruikersgedrag met betrekking tot deze attributen.

Figuur 3

Werkgelegenheidsvoorkeur voor mannelijke gebruikers die berichten sturen naar vrouwelijke gebruikers. De verticale as geeft de mannelijke beroepen aan en de horizontale as de vrouwelijke beroepen. De voorkeurswaarden worden weergegeven met verschillende kleuren

Figuur 4

Werkgelegenheidsvoorkeur voor vrouwelijke gebruikers die berichten naar mannelijke gebruikers zenden. De verticale as geeft de vrouwelijke beroepen aan en de horizontale as de mannelijke beroepen. De voorkeurswaarden worden weergegeven met verschillende kleuren

Uit fig. 4 blijkt dat de populairste beroepen voor mannen zijn: hoger management, financiën, onderwijs en particuliere eigenaars. De meeste mensen in deze vier beroepen hebben een hoog inkomen of zijn goed opgeleid. Niet-populaire mannelijke gebruikers zijn scholieren, verkopers en mensen met andere, niet gecategoriseerde beroepen. Tegelijkertijd zijn vrouwen in de chemische industrie eerder op zoek naar mannen in onderwijs en opleiding, vrouwen in de sportwereld eerder naar mannen die privé-eigenaar zijn, en vrouwen bij de politie sturen in deze gegevens alleen berichten naar mannen die werkzaam zijn in financiën en onroerend goed, wat ook kan worden toegeschreven aan de kleine steekproefomvang van gebruikersgedrag met betrekking tot deze attributen.

Opleidingsniveau heeft een significante invloed op paren en trouwen. Voorkeuren voor opleidingsniveaus worden getoond in Fig. 5 en 6 (zie Tabellen 3 en 4 in Additional file 1 voor de betekenissen van attributen en het aantal en aandeel mannen/vrouwen voor elk opleidingsniveau). In China verwijst postdoctor, net als in de andere landen, naar een positie in plaats van naar een opleidingsniveau. Op veel Chinese websites wordt postdoctor bij de registratie van een gebruiker echter ook beschouwd als een opleidingsniveau dat verder gaat dan het behalen van een doctoraat. Op dezelfde manier vinden we dat wanneer vrouwelijke gebruikers berichten sturen naar mannelijke gebruikers, er een sterkere voorkeur is voor het opleidingsniveau van hun potentiële partners dan wanneer mannen berichten sturen naar vrouwen. Figuur 5 laat zien dat mannen met een opleidingsniveau onder het bachelordiploma geneigd zijn vrouwen te zoeken met dezelfde of lagere academische kwalificaties als zij, mannen met een opleidingsniveau hoger dan het bachelordiploma maar lager dan het doctoraatsdiploma neigen naar vrouwen met een bachelordiploma, en mannen met een doctoraatsdiploma of een postdoctorale opleiding neigen naar vrouwen met een doctoraatsdiploma. Wat de voorkeur voor opleidingsniveaus betreft, vertonen mannen over het algemeen een “vind ik leuk”-aantrekkingskenmerk. Voor vrouwelijke gebruikers die berichten sturen naar mannelijke gebruikers, toont Fig. 6 dat mannen met een undergraduate en graduate graad populair zijn en, voor de meeste vrouwen, undergraduate mannen populairder zijn, maar graduate vrouwen zoeken eerder naar potentiële partners met een graduate graad. Wat de voorkeur voor opleidingsniveaus betreft, vertonen vrouwen over het algemeen een potentieel-aantrekkelijk kenmerk. Uit onderzoek op een Duitse online datingsite bleek dat de voorkeur voor een vergelijkbare opleidingsachtergrond toeneemt met het opleidingsniveau. Vrouwen zijn terughoudend om te communiceren met mannen met lagere opleidingsniveaus, maar er zijn geen belemmeringen voor mannen om contact op te nemen met vrouwen met lagere opleidingskwalificaties.

Figuur 5

Voorkeur voor het opleidingsniveau van mannelijke gebruikers die berichten sturen naar vrouwelijke gebruikers. De verticale as geeft het opleidingsniveau van de mannen aan en de horizontale as dat van de vrouwen. De voorkeuren worden weergegeven met verschillende kleuren

Figuur 6

Voorkeuren voor het onderwijsniveau van vrouwelijke gebruikers die berichten sturen naar mannelijke gebruikers. De verticale as geeft het opleidingsniveau van vrouwen aan en de horizontale as het opleidingsniveau van mannen. De voorkeurswaarden worden weergegeven met verschillende kleuren. Vrouwelijke postdoctorale gebruikers stuurden geen berichten naar mannen in de dataset, en we zetten de elementen in de overeenkomstige rij op 0

Opleidingsniveau en inkomen zijn twee belangrijke indicatoren voor iemands sociale en economische status. Uit Fig. 7 en 8 (zie Tabellen 5 en 6 in Additional file 1 voor de betekenissen van attributen en het aantal en aandeel mannen/vrouwen voor elk inkomensniveau) blijkt dat, wat inkomensniveau betreft, er een minder duidelijke voorkeur is voor de potentiële parenkeuze voor mannelijke gebruikers dan voor vrouwelijke. Aan de ene kant, zoals te zien is in Fig. 7, hebben alle mannen een duidelijke voorkeur voor vrouwen met een maandelijks inkomen tussen RMB 5000 en RMB 10.000 (de RMB is de Chinese munteenheid, en RMB 1 = 0,145 US Dollar = 0,128 Euro), terwijl vrouwen met een inkomen onder RMB 2000 duidelijk uitgesloten zijn. Mannen hebben echter geen duidelijke voorkeur voor of uitsluiting van vrouwen met een inkomen van meer dan 10.000 RMB. Aan de andere kant, zoals te zien is in Fig. 8, hebben alle vrouwen een hekel aan mannen die minder dan RMB 5000 verdienen, en zijn mannen die RMB 10.000 tot RMB 20.000 verdienen het populairst. In termen van voorkeur voor inkomensniveaus, vertonen vrouwen over het algemeen ook een potentieel-attractief kenmerk. Uit een praktijkexperiment op een Chinese online dating site bleek dat mannen de profielen van vrouwen met verschillende inkomens met ongeveer dezelfde percentages bezochten, terwijl voor vrouwen geldt dat hoe hoger de mannelijke inkomens zijn, hoe groter de percentages van het bezoeken van hun profielen zullen zijn , wat afwijkt van onze bevindingen.

Figuur 7

Voorkeur voor maandelijkse inkomensniveaus voor mannelijke gebruikers die berichten sturen naar vrouwelijke gebruikers. De verticale as geeft het inkomensniveau van mannen aan en de horizontale as dat van vrouwen. De voorkeuren worden weergegeven met verschillende kleuren

Figuur 8

Voorkeuren voor maandelijkse inkomensniveaus voor vrouwelijke gebruikers die berichten sturen naar mannelijke gebruikers. De verticale as geeft het inkomensniveau van vrouwen aan en de horizontale as het inkomensniveau van mannen. Voorkeurwaarden worden weergegeven door verschillende kleuren

Logistische regressieclassificatie

Compatibiliteitsscores

Op de persoonlijke homepages van gebruikers heeft elke gebruiker de eisen aan de potentiële partners getoond, met inbegrip van eisen voor 7 attributen, d.w.z.leeftijd, avatar, opleidingsniveau, lengte, kredietwaardigheid, woonplaats en burgerlijke staat (zie Figs. 1-4 in Additional file 1 voor de selectie-eisen van verschillende attributen). Wat de kredietwaardigheid betreft, krijgt een gebruiker op de datingsite, nadat hij/zij de snelle identiteitsauthenticatie heeft doorlopen, of een van de drie documenten heeft geüpload (de identiteitskaart, het paspoort of de Hongkong en Macau Pas) en de beoordeling heeft doorstaan, de eerste ster, d.w.z. kredietwaardigheid gelijk aan 1. Op basis van de eerste ster kan telkens wanneer een nieuw document wordt geüpload en goedgekeurd, een extra ster of rating worden toegevoegd (tot vijf sterren, d.w.z. vijfsterrenlid). Hoewel de minimumleeftijd van gebruikers op het platform 18 jaar is, zijn er nog maar weinig gebruikers die hun minimum- of maximumleeftijd onder de 18 jaar stellen (zie Fig. 3 in Additional file 1 voor details). We passen het concept van compatibiliteitsscore toe om de match tussen gebruikers te beschrijven op basis van het feit of een gebruiker al dan niet voldoet aan de selectie-eis van een andere gebruiker. Wanneer vrouwen berichten naar mannen sturen, kunnen we voor elk bericht en voor elk attribuut het aandeel vrouwen verkrijgen dat aan de partnervoorkeuren van mannen voldoet en het aandeel mannen dat aan de voorkeuren van vrouwen voldoet, d.w.z. we kunnen twee vectoren met 7 verhoudingen verkrijgen. Volgens de gegevens verkrijgen we \(\mathbf{w}_{\mathrm{FMm}}=(0.701,0.886,0.462,0.826,0.919,0.786,0.920)\), en \(\mathbf{w}_{\mathrm{FMf}}=(0.912,0.976,0.681,0.962,0.994,0.864,0.912), waarbij (\mathbf{w}_{\mathrm{FMm}}) de verhouding is van vrouwelijke attributen die aan mannelijke voorkeuren voldoen en \(\mathbf{w}_{\mathrm{FMf}}) de verhouding van mannelijke attributen die aan vrouwelijke voorkeuren voldoen. Op dezelfde manier als mannen berichten naar vrouwen sturen, krijgen we \(\mathbf{w}_{\mathrm{MFm}}=(0.877,0.977,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). De compatibiliteitsscores van vrouwen die berichten sturen naar mannen zijn dus

$$begin{aligned}& c_{\mathrm{FMm}} = \frac{\mathbf{w}_{\mathrm{FMm}} \cdot {(vrouwelijke attr. in mannelijke pref.)}}{ {operatornaam{sum}(\mathbf{w}_{\mathrm{FMm}} )}}, \einde{aligned}$$
(1)

$$\begin{aligned}& c_{\mathrm{FMf}} = \frac{\mathbf{w}_{\mathrm{FMf}} \cdot (mannelijke attr. in vrouwelijke pref.)}{ {operatornaam{sum}(\mathbf{w}_{\mathrm{FMf}} )}},
(2)

en de compatibiliteitsscores van mannen die berichten naar vrouwen sturen zijn

$$\begin{aligned}& c_{\mathrm{MFm}} = \frac{\mathbf{w}_{\mathrm{MFm}} \cdot (vrouwelijke attr. in mannelijke pref.)}{ {operatornaam{sum}(\mathbf{w}_{\mathrm{MFm}} )}}, \einde{aligned}$$
(3)

$$\begin{aligned}& c_{\mathrm{MFf}} = \frac{\mathbf{w}_{\mathrm{MFf}} \cdot (\textrm{male attr. in vrouwelijke pref.})}{ {operatornaam{sum}(\mathbf{w}_{\mathrm{MFf}} )}}, \eind{aligned}$
(4)

waarin (vrouwelijke attr. in mannelijke pref.) een vector is die aangeeft of vrouwelijke attributen overeenkomen met mannelijke voorkeuren voor een paar gebruikers (1 voor ja en 0 voor neen), en evenzo (male attr. in female pref.) een vector die aangeeft of mannelijke attributen overeenkomen met vrouwelijke voorkeuren voor een paar gebruikers. Vergelijkingen 1 en 3 zijn de compatibiliteitsscores tussen de voorkeur van een man en het profiel van zijn gekozen partner, en vergelijkingen 2 en 4 zijn de compatibiliteitsscores tussen de voorkeur van een vrouw en het profiel van haar gekozen partner. Voor een paar gebruikers, \(u_{a}) en \(u_{b}), gebruiken we een score, d.w.z. de reciproke score, om te kwantificeren in hoeverre de attributen van \(u_{b}) overeenkomen met de voorkeuren van \(u_{a}) en in hoeverre de attributen van \(u_{a}) overeenkomen met de voorkeuren van \(u_{b}}). De wederzijdse score tussen u_{a} en u_{b} is het gemiddelde van de compatibiliteitsscores van deze twee gebruikers, d.w.z, voor vrouwen die berichten sturen naar mannen is de wederkerige score \(\mathit{rs} = (c_{\mathrm {FMm}} + c_{\mathrm{FMf}} )/2\), en voor mannen die berichten sturen naar vrouwen \(\mathit{rs} = (c_{\mathrm{MFm}} + c_{\mathrm{MFf}} )/2\).

Logistische regressie

Laat klik het aantal keren zijn dat er op een gebruiker is geklikt, msg het aantal berichten dat een gebruiker heeft ontvangen, en rec het aantal keren dat een gebruiker is aanbevolen en getoond op de homepages van andere gebruikers, definiëren we \(\mathit{pop}_{1} = \mathit{click}/\mathit{rec}}) en \(\mathit{pop}_{2} = \mathit{msg}/\mathit{rec}}) die de populariteit van een gebruiker kunnen karakteriseren op basis van acties. We gebruiken ook PageRank centraliteit (\(\mathit{pop}_{3})) om te kwantificeren hoe centraal of populair een gebruiker in een netwerk is door alle verbindingen in het netwerk te beschouwen. Aantrekkelijke mensen, zoals mensen met gunstige demografische kenmerken en een hogere sociaaleconomische status, zijn veeleisender dan gemiddelde mensen in termen van potentiële partnerkeuze, wat kan worden aangetoond in de voorkeursanalyse van inkomen en opleidingsniveau in Sect. 3.1.2. Degenen die door aantrekkelijke mensen als aantrekkelijk worden ervaren, kunnen nog populairder/aantrekkelijker zijn. De in dit artikel gebruikte variabelen en hun betekenis zijn weergegeven in tabel 1.

Tabel 1 Variabelen en hun overeenkomstige betekenissen

We introduceren verschillende centraliteitsindices, zoals \(\mathit{pop}_{1}), \(\mathit{pop}_{2}), \(\mathit{pop}_{3}), en indegree, om hun correlatie met het gedrag bij berichtenuitwisseling te evalueren. Het is opmerkelijk dat de centraliteitsindices geaggregeerde indicatoren zijn die de wenselijkheid of populariteit van gebruikers beschrijven, en gebruikers kennen hun indices niet, noch kennen ze de indices van anderen. Wij gebruiken outdegree om het activiteitsniveau van gebruikers te karakteriseren, en in de datingsite kennen gebruikers ook niet de outdegree van andere gebruikers. In werkelijkheid, in plaats van de indexen te gebruiken om aantrekkelijke partners te identificeren of te selecteren, zullen gebruikers elkaar berichten sturen op basis van meer specifieke aanwijzingen, zoals een hoger inkomen, een betere opleidingsachtergrond, aantrekkelijke foto’s of een goede demografische en socio-economische compatibiliteit. In de paper zullen we evalueren of de indexen significant geassocieerd zijn met het berichtengedrag.

Voorstel dat \(p_{i}}) de kans is om berichten te versturen voor een vrouwelijke gebruiker i, \(1-p_{i}}) is de kans om geen berichten te versturen, dan is \(L_{f_{i}}=\ln(\frac{p_{i}}{1-p_{i}})\), d.w.z., voor alle vrouwen geldt dat \(L_{f}=\ln(\frac{p}{1-p})\). Stel dat \(q_{j}} de kans is dat een mannelijke gebruiker i een bericht verzendt en \(1-q_{j}}) de kans is dat hij geen bericht verzendt, dan is \(L_{m_{j}}=\ln (\frac{q_{j}}{1-q_{j}})\), d.w.z., voor alle mannen geldt dat \(L_{m}}= \ln(\frac{q}{1-q})\). Wij verkrijgen logistische regressiemodellen als volgt:

$$begin{aligned}& L_{f} = \alpha _{1} + {\boldsymbol{\beta} }_{1} \cdot {\mathbf{attribuut}} + \varepsilon _{\mathrm{1}}, \einde{aligned}$$
(5)

$$\begin{aligned}& L_{m} = \alpha _{2} + {\boldsymbol{\beta }}_{2} \cdot {\mathbf{attribuut}} + \varepsilon _{\mathrm{2}}. \einde{aligned}$$
(6)

In deze studie zijn multicollineariteitstests uitgevoerd om onafhankelijke variabelen te vinden waarvan de correlatiecoëfficiënten kleiner zijn dan 0,5 (zie tabellen 7 en 8 in Additional file 1 voor details). De resultaten van de logistische regressie voor vrouwen die berichten naar mannen sturen, zijn weergegeven in tabel 2. We vinden dat bijna alle variabelen significant zijn wanneer alleen naar de attributen van vrouwen wordt gekeken (model 1), d.w.z. de attributen van afzenders, maar alleen huisvesting en outdegree van vrouwen hangen positief samen met de waarschijnlijkheid dat vrouwen berichten naar mannen sturen. Wanneer alleen rekening wordt gehouden met de kenmerken van mannen (model 2), zijn behalve de verificatie van de mobiele telefoon en de kredietwaardigheid van mannen, alle andere kenmerken significant en hangen zij positief samen met de waarschijnlijkheid dat vrouwen berichten zenden. Wanneer rekening wordt gehouden met de kenmerken van beide partijen en de compatibiliteitsscores (model 3), zijn van de significante variabelen de verificatie van de mobiele telefoon van vrouwen, autobezit, kredietwaardigheid en populariteit ({emathit{pop}_{1}} en {emathit{pop}_{3}})) negatief geassocieerd met de waarschijnlijkheid dat vrouwen berichten sturen, terwijl de andere variabelen positief geassocieerd zijn. We vinden dat vrouwen, wanneer ze berichten sturen naar mannen, niet alleen bezorgd zijn of ze aan de eisen van mannen voldoen, maar ook of mannen aan hun eigen eisen voldoen.

Tabel 2 Logistische regressieresultaten voor vrouwelijke gebruikers die berichten sturen naar mannelijke gebruikers

De logistische regressieresultaten voor mannen die berichten sturen naar vrouwen zijn weergegeven in tabel 3. Wij stellen vast dat wanneer alleen rekening wordt gehouden met de vrouwelijke kenmerken (model 1), behalve de verificatie van de mobiele telefoon van de vrouw, de kredietwaardigheid en de graad van afstamming, alle andere variabelen significant zijn, maar dat alleen het huisbezit van de vrouw een negatieve invloed heeft op de waarschijnlijkheid dat mannen berichten sturen. Wanneer alleen mannelijke kenmerken in aanmerking worden genomen (model 2), zijn alle variabelen significant, maar alleen de graad van de man is positief gecorreleerd met het messaginggedrag, de andere zijn negatief gecorreleerd. Met alle variabelen samen (model 3) zijn, behalve de vrouwelijke kredietwaardigheid, de dekkingsgraad, en de compatibiliteitsscore tussen een vrouwelijke voorkeur en het profiel van de overeenkomstige andere kant, alle andere variabelen significant. Van de significante variabelen zijn de verificatie van de mobiele telefoon van de vrouw, autobezit, populariteit (\(\mathit{pop}_{1}), \(\mathit{pop}_{2}) en \(\mathit{pop}_{3})), de outdegree van de man en de compatibiliteitsscore tussen een voorkeur van de man en het profiel van de overeenkomstige andere partij positief gecorreleerd met het berichtengedrag, terwijl alle andere variabelen negatief gecorreleerd zijn. Bovendien, door het analyseren van de significantie van de twee compatibiliteitsscores, vinden we dat mannen alleen aandacht besteden aan de vraag of vrouwen voldoen aan hun eigen eisen wanneer ze berichten sturen naar vrouwen.

Tabel 3 Logistische regressieresultaten voor mannelijke gebruikers die berichten sturen naar vrouwelijke gebruikers

Zoals blijkt uit de tabellen 2 en 3, hangt voor mannen of vrouwen die berichten sturen, de populariteit van de andere partij significant positief samen met het gedrag bij het sturen van berichten. Enerzijds vertegenwoordigen de waarden van \(\mathit{pop}_{1}) en \(\mathit{pop}_{2}), volgens hun berekeningswijze, de lokale populariteit van een gebruiker. Anderzijds vertegenwoordigt de waarde (\mathit{pop}_{3}}, d.w.z. PageRank, de populariteit van een gebruiker vanuit een globaal perspectief.

Voor vrouwen die berichten naar mannen sturen, is de waarde \(\exp (0.390) = 1.477) voor mannen groter dan de waarde \(\exp (0.390) = 1.157) voor mannen.

Voor vrouwen die berichten naar mannen sturen, is de waarde \(\exp (0.390) = 1.477) voor mannen groter dan de waarde \(\exp (0.390) = 1.157).146) = 1,157) voor mannelijk \(\mathit{pop}_{3}}), en voor mannetjes die berichten sturen naar vrouwtjes is \exp (0,462) = 1,587) voor vrouwelijk \(\mathit{pop}_{1}}) ook groter dan \exp (0,141) = 1,151) voor vrouwelijk \(\mathit{pop}_{3}}). Zowel voor mannen als voor vrouwen is de \(\mathit{pop}_{1}) van de andere partij dus belangrijker dan \(\mathit{pop}_{3}). Daarnaast vinden we ook dat wanneer vrouwen berichten sturen naar mannen, \exp (0.390) = 1.477) voor mannelijke \(\mathit{pop}_{1}}) minder belangrijk is dan \exp (0.462) = 1.587) voor vrouwelijke \(\mathit{pop}_{1}}).587) voor vrouwelijke \(\mathit{pop}_{1}}) wanneer mannetjes berichten sturen naar vrouwtjes, wat aangeeft dat in vergelijking met vrouwtjes, voor mannetjes de \(\mathit{pop}_{1}}) van de andere kant meer geassocieerd is met hun berichtengedrag. Wanneer vrouwtjes echter berichten sturen naar mannetjes, is \(\exp (0.146) = 1.157) voor mannelijke \(\mathit{pop}_{3}) groter dan \(\exp (0.141) = 1.151) voor vrouwelijke \(\mathit{pop}_{3}}) wanneer mannetjes berichten sturen naar vrouwtjes, wat aangeeft dat vergeleken met mannetjes, voor vrouwtjes de \(\mathit{pop}_{3}}) van de andere kant meer geassocieerd is met hun berichtengedrag.

In China is het hebben van een appartement en een auto een symbool van iemands rijkdom en sociale status, en in sommige regio’s zijn ze een noodzaak geworden om te kunnen trouwen. Wanneer vrouwen berichten sturen naar mannen, is het belangrijk dat mannen een huis en een auto hebben. Wanneer mannen boodschappen sturen naar vrouwen, is het niet belangrijk dat vrouwen een huis hebben, maar wel dat ze een auto hebben. We vinden dat \exp(0.038) = 1.039) voor de vraag of de andere partij een auto heeft wanneer mannen berichten sturen naar vrouwen, kleiner is dan \exp (0.157) = 1.170) voor de vraag of de andere partij een auto heeft wanneer vrouwen berichten sturen naar mannen, wat aangeeft dat vrouwen meer aandacht besteden dan mannen aan de vraag of de andere partij een auto heeft.

De outdegree van een gebruiker geeft de activiteit van de gebruiker aan. Een schijnbaar hoge activiteit betekent dat veel andere gebruikers contact opnemen, maar in wezen kan dit betekenen dat gebruikers meer tijd en middelen investeren in pogingen potentiële partners te vinden. Outdegree is een kenmerk dat verschilt voor mannen en vrouwen. Wanneer een vrouw een bericht stuurt naar een man, is de outdegree van de andere partij significant positief geassocieerd met het berichtgedrag, maar niet wanneer een man een bericht stuurt naar een vrouw. Wanneer vrouwen berichten sturen naar mannen, zijn netwerkmetingen van populariteit en activiteit van de mannen met wie ze contact hebben significant positief geassocieerd met hun berichtgedrag, maar wanneer mannen berichten sturen naar vrouwen, zijn alleen de netwerkmetingen van populariteit van de vrouwen met wie ze contact hebben significant positief geassocieerd met hun berichtgedrag.

Ensemble learning classification

Met de komst van het big data tijdperk, zijn ensemble learning classificatiemethoden geleidelijk geïntroduceerd op het gebied van sociaal netwerkonderzoek. Al in 1996 stelde Breiman de methode van bagging voor, en vijf jaar later stelde hij verder de methode van Random Forest voor. Freund stelde de AdaBoost-methode voor in 1997 , en met de voortdurende verbetering van machine learning classifiers, in 2016, Chen et al. stelden een classifier-XGBoost voor , die de efficiëntie en nauwkeurigheid van het algoritme in sommige gevallen sterk kan verbeteren. Als toepassing hebben Reece et al. onlangs al machine learning-tools toegepast om depressie van Instagram-foto’s te identificeren .

Regressieanalyse heeft vaak bepaalde vereisten voor de onafhankelijke variabelen, zoals de afwezigheid van multicollineariteit, maar ensemble learning classificatiemethoden ontspannen de beperkingen op onafhankelijke variabelen. In deze sectie worden ensemble-learning classificatiemethoden, waaronder bagging, Random Forest, AdaBoost en XGBoost, gebruikt om het belang van elk attribuut in tabel 1 te evalueren. We gebruiken het pakket ‘adabag’ in R-software om AdaBoost- en bagging-methoden uit te voeren, het pakket ‘randomForest’ om Random Forest-methode uit te voeren en het pakket ‘xgboost’ om XGBoost-methode uit te voeren. Voor de dataset wordt 5-voudige kruisvalidatie gebruikt om de prestaties van de classificeerders te beoordelen, en de algoritmeparameters worden zo gekozen dat een stabiel foutenpercentage wordt verkregen. De aantallen verstuurde en niet-verstuurde berichten zijn onevenwichtig in de dataset, en de grotere set wordt willekeurig gesubsampled om een set van dezelfde grootte als de kleinere te verkrijgen.

De foutenpercentages van vier classificatiemethoden voor ensembleleren worden in tabel 4 getoond. We vinden dat de foutenpercentages van Random Forest en AdaBoost het laagst zijn voor vrouwen die berichten naar mannen sturen, terwijl XGBoost het laagst is voor mannen die berichten naar vrouwen sturen. Attribuut belang ranking wordt getoond in Figs. 9 en 10. Figuur 9 laat zien dat wanneer vrouwen berichten sturen naar mannen, de drie belangrijkste attributen de \(\mathit{pop}_{3}) en \(\mathit{pop}_{1}) waarden zijn voor mannen, en de outdegree voor vrouwen. Fig. 10 laat zien dat wanneer mannen berichten sturen naar vrouwen, de drie belangrijkste attributen de \(\mathit{pop}_{3}) en \(\mathit{pop}_{1}) waarden zijn voor vrouwen, en de outdegree voor mannen. De belangrijkste factoren die de beslissing om berichten te sturen van zowel mannen als vrouwen voorspellen, zijn de waarden (\mathit{pop}_{3}}) en \(\mathit{pop}_{1}}) die de populariteit van potentiële partners vertegenwoordigen, en die ook significant positief geassocieerd zijn met het berichtengedrag in de logistische regressie.

Figuur 9

Rangschikking van het relatieve belang van de attributen wanneer vrouwen berichten sturen naar mannen voor verschillende classificatiemethoden. De horizontale as geeft de attributen aan en de verticale as het overeenkomstige belang. Voor bagging, Random Forest en AdaBoost wordt het relatieve belang van elke variabele in de classificatietaak gemeten met de Gini-index, en voor XGBoost wordt het relatieve belang gemeten met de Gain-parameter

Figuur 10

Rangschikking van het relatieve belang van de attributen wanneer mannen berichten sturen naar vrouwen voor verschillende classificatiemethoden. De horizontale as geeft de attributen aan en de verticale as het overeenkomstige belang. Voor bagging, Random Forest en AdaBoost wordt het relatieve belang van elke variabele in de classificatietaak gemeten met de Gini-index, en voor XGBoost wordt het relatieve belang gemeten met de Gain-parameter

Tabel 4 Foutenpercentages bij gebruik van classificatiemethoden met ensembleleren

Het doel van classificatie met ensembleleren is anders dan bij logistische regressieanalyse. Uit fig. 9 en 10 blijkt dat de centraliteitsindices inderdaad van overweldigend belang zijn, en dat de andere variabelen relatief weinig voorspellend vermogen hebben. Dit betekent echter niet dat de andere variabelen nutteloos zijn, en ze kunnen nog steeds significant worden geassocieerd met gebruikers messaging gedrag in logistische regressie.

Strategisch gedrag analyse

Het concept van strategisch gedrag is afkomstig uit de economie, waar de oorspronkelijke implicatie is dat bedrijven actie ondernemen die de marktomgeving beïnvloedt om de winst te verhogen (verwijzend naar het bericht respons in deze studie), die vervolgens wordt uitgebreid naar matching problemen , zoals mate matching.

In ons onderzoek verwijst strategisch gedrag naar de vraag of een gebruiker een bericht naar een andere gebruiker zal sturen, afhankelijk van de vraag of zijn/haar beslissing de antwoordkans van het bericht kan verhogen. Omdat we geen antwoordgegevens van gebruikers hebben, willen we centraliteitsindices gebruiken die de populariteit van gebruikers karakteriseren om te analyseren of gebruikers de neiging hebben berichten te sturen naar mensen die populairder zijn dan zijzelf of naar degenen die minder populair zijn. We bestuderen het strategisch gedrag van gebruikers door de correlatie tussen de centraliteitsindices te analyseren. Afvlakkende fitting curves voor de correlatie met gegeneraliseerd additief model laten zien dat er een niet-lineaire of bij benadering lineaire relatie is tussen de centraliteitsindices van gebruikers (zie Figs. 5 en 6 in Additional file 1 voor details), dus gebruiken we de Spearman correlatie coëfficiënt om de correlatie te karakteriseren. Zoals blijkt uit de tabellen 5 en 6, vinden we dat in de dating site mannen en vrouwen verschillende gedragspatronen vertonen in het berichten sturen, ondanks de verminderde kosten van afwijzing in de netwerk omgeving. Voor mannen die berichten sturen naar vrouwen, bestaan er zwakke positieve correlaties tussen de centraliteitsindices, die gekenmerkt kunnen worden door kleine positieve en significante correlatiecoëfficiënten, terwijl er voor vrouwen die berichten sturen naar mannen, zwakke of bescheiden positieve correlaties bestaan tussen de centraliteitsindices, die gekenmerkt kunnen worden door kleine of iets grotere positieve en significante correlatiecoëfficiënten. Mannen vertonen geen groot strategisch gedrag bij het zenden van berichten, terwijl voor vrouwen, naarmate hun centraliteitsindexen stijgen, de overeenkomstige indexen van mannen die hun berichten hebben ontvangen, ook kunnen stijgen.

Tabel 5 Spearman-correlatiecoëfficiënten tussen centraliteitsindices wanneer vrouwen berichten sturen naar mannen
Tabel 6 Spearman-correlatiecoëfficiënten tussen centraliteitsindices wanneer mannen berichten sturen naar vrouwen

Door de correlaties te bestuderen tussen dezelfde centraliteitsindexparen voor gebruikers, analyseren we verder of gebruikers geneigd zijn berichten te sturen naar mensen die populairder zijn dan zijzelf of naar degenen die minder populair zijn. Voor elke centraliteitsindex van de afzenders geven we het gemiddelde en de standaardafwijking van de overeenkomstige indexen van de ontvangers, en het aandeel van de centraliteitsindices van de ontvangers die groter zijn dan die van de afzenders in Figs. 7 en 8 in Additional file 1. Voor elke centraliteitsindex geeft Tabel 7 het aandeel van de centraliteitsindices van de ontvangers die groter zijn dan die van de afzenders bij het verzenden van berichten. Ter vergelijking geven we ook de gerandomiseerde resultaten. Vergeleken met mannen zijn meer vrouwen geneigd berichten te sturen naar mensen die populairder zijn dan zijzelf.

Tabel 7 De percentages van de centraliteitsindices van de ontvangers die groter zijn dan die van de verzenders bij het verzenden van berichten

Er zijn verschillende studies verricht naar het strategisch gedrag van gebruikers bij online daten. Sommige studies hebben een significante positieve correlatie gevonden tussen de populariteit van mannelijke en vrouwelijke gebruikers. Het onderzoek van Taylor et al. naar gebruikers uit de VS toonde bijvoorbeeld aan dat zij de neiging hebben te selecteren en geselecteerd te worden door andere gebruikers wier relatieve populariteit vergelijkbaar is met hun eigen populariteit, hoewel dit niet noodzakelijkerwijs een hoger succespercentage betekent, d.w.z. dat zij meer reacties ontvangen. Een recente empirische analyse van gebruikers in vier Amerikaanse steden van een online dating site gebruikte PageRank om hun wenselijkheid te karakteriseren, en ontdekte dat zowel mannen als vrouwen berichten stuurden naar partners die gemiddeld ongeveer 25% begeerlijker zijn dan zijzelf . Er zijn echter ook studies die geen correlatie hebben gevonden tussen de populariteit van gebruikers. Bijvoorbeeld, het onderzoek op gebruikers in Boston en San Diego vond geen bewijs van strategisch gedrag . Een ander onderzoek op online dating gegevens van een middelgrote zuidwestelijke stad in de VS bleek dat, ongeacht hun eigen wenselijkheid niveaus die gebruikers ‘fysieke aantrekkelijkheid, populariteit, persoonlijkheid, en materiële middelen te karakteriseren, zowel mannen als vrouwen de neiging om berichten te sturen naar de meest sociaal wenselijke gebruikers . We vinden dat gebruikers op verschillende platforms of in verschillende culturele contexten verschillend strategisch gedrag vertonen, en de onderliggende mechanismen moeten nog verder worden onderzocht.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.