Attribútum preferencia elemzés

Attribútum különbség eloszlása

Az online társkereső, vannak jelentős nemi különbségek szempontjából attribútum preferencia, önprezentáció és interakció . A felhasználók általában bizonyos preferenciát mutatnak a társak életkora vagy magassága iránt. Mind a férfiak, mind a nők esetében, amikor üzeneteket küldenek potenciális partnereiknek, a korkülönbséget kor(címzett) – kor(feladó), a magasságkülönbséget pedig magasság(címzett) – magasság(feladó) értékként számítjuk. Az 1. és 2. ábra a korkülönbség és a magasságkülönbség eloszlását mutatja. Összehasonlításképpen bemutatjuk a randomizált eredményeket is, feltételezve, hogy a női(férfi) felhasználók véletlenszerűen küldenek üzeneteket férfi(női) felhasználóknak.

1. ábra

Korkülönbség-eloszlás. Az FM azt jelenti, hogy a női felhasználók üzeneteket küldenek férfi felhasználóknak, az MF pedig azt, hogy a férfi felhasználók üzeneteket küldenek női felhasználóknak. A folytonos vonalak a megfelelő adatpontok helyileg súlyozott polinomiális regressziós illesztését jelentik, a szürke intervallum pedig a 95%-os megbízhatósági tartományt

2. ábra

Hosszúsági különbség eloszlása. Az FM azt jelenti, hogy a női felhasználók üzeneteket küldenek a férfi felhasználóknak, az MF pedig azt, hogy a férfi felhasználók üzeneteket küldenek a női felhasználóknak. A folytonos vonalak a megfelelő adatpontok helyileg súlyozott polinomiális regressziós illesztését jelentik, a szürke intervallum pedig a 95%-os megbízhatósági tartományt

A legtöbb helyen és időben a nők általában idősebb férfiakhoz mennek férjhez . Az 1. ábra azt mutatja, hogy a modern kínai társadalomban a férfiak átlagosan a náluk két évvel fiatalabb nőket, a nők pedig a náluk két évvel idősebb férfiakat részesítik előnyben. A nők által elfogadott korkülönbség tartománya azonban kisebb, mint a férfiaké: a nők minimálisan elfogadják, hogy a férfiak 11 évvel fiatalabbak náluk, és maximálisan elfogadják, hogy a férfiak 23 évvel idősebbek náluk, míg a férfiak minimálisan elfogadják, hogy a nők 25 évvel fiatalabbak náluk, és maximálisan elfogadják, hogy a nők 28 évvel idősebbek náluk. Ha csak a korkülönbségek megoszlását vesszük figyelembe, a különböző kultúrákból és vallásokból származó korábbi megállapításokkal összhangban azt találjuk, hogy az a korosztály, amelyben a nők hajlandóak üzenetet küldeni, szűkebb, mint az a korosztály, amelyben a férfiak hajlandóak üzenetet küldeni. A férfiak és a nők preferenciái nem véletlenszerűek; a véletlenszerű kiválasztás által megjósoltnál kisebb korkülönbséggel keresnek potenciális partnereket, ami a tetszik-vonzódik jellemzőjét mutatja.

A 2. ábra azt mutatja, hogy általában a férfiaknak üzeneteket küldő nők magasságkülönbsége (a legtöbbjük 12 cm) nagyobb, mint a nőknek üzeneteket küldő férfiaké (a legtöbbjük 10 cm) a potenciális társak kiválasztásakor. Kínában a férfiak számára az ideális magasságkülönbség az, hogy 10 cm-rel magasabbak az általuk üzent személynél, míg a nők számára az ideális magasságkülönbség az, hogy 12 cm-rel alacsonyabbak az általuk üzent személynél. A Yahoo! társkereső személyes hirdetések adatai szerint az amerikai felhasználók számára a magasság szintén számít a társkeresésnél, különösen a nők esetében . A 2. ábrán látható, hogy a nők esetében a magasságkülönbség tartománya kisebb, mint a férfiak esetében: a nők minimálisan elfogadják, hogy a férfiak 3 cm-rel alacsonyabbak náluk, és maximálisan elfogadják, hogy a férfiak 30 cm-rel magasabbak náluk, míg a férfiak minimálisan elfogadják, hogy a nők 13 cm-rel alacsonyabbak náluk, és maximálisan elfogadják, hogy a nők 32 cm-rel magasabbak náluk. A nők a tetszik-vonzódik jellemzőt mutatják a magasság preferálása tekintetében. Az életkorhoz hasonlóan a felhasználók a véletlenszerű szelekció által megjósoltnál kisebb magasságkülönbséggel keresnek potenciális társakat, bár a különbség nem olyan nyilvánvaló, mint a korkülönbség.

Megjegyzendő, hogy a társkereső oldalon a felhasználók jellemzői mind önbevalláson alapulnak. A benyomáskezelési megfontolások miatt , a felhasználók eltúlozhatják személyes jellemzőiket. Például egy nemrégiben végzett kutatás az online önbevallott magasságról az objektíven mért adatokkal szemben fiatal ausztrál felnőtteknél kimutatta, hogy az önbevallott magasságot jelentősen túlbecsülik, átlagosan 1,79 cm-rel a férfiak és 1,29 cm-rel a nők esetében . A férfiak többet hazudnak a magasságukról, mint a nők, ami a New York-i online randizóknál is megfigyelhető . Megjegyezzük, hogy úgy tűnik, hogy a felhasználók nem pontosan jelentették fizikai magasságukat a társkereső oldalon. Az adathalmazban a női és férfi felhasználók átlagos magassága 161,99 cm (\(\(\mathit{SD}=4,18\)) és 173,08 cm (\(\(\mathit{SD}=4,68\)). A való világban azonban a felnőtt nők és férfiak átlagos magassága Kínában 160,88 cm, illetve 169,00 cm, ami azt jelenti, hogy a női és férfi felhasználók átlagosan 1,11 cm-rel, illetve 4,08 cm-rel eltúlozhatják magasságukat. Ezek korrigálása után azt találjuk, hogy a valós magasságkülönbségek \(10-(4.08-1.11) = 7.03\text{ cm}\) a férfiak esetében, és \(12-(4.08-1.11) = 9.03\text{ cm}\) a nők esetében jelentősek lennének. Ugyanakkor azt is észrevehetjük, hogy a társkereső oldalon a férfi és női felhasználók átlagéletkora 28,73 és 28,58 év, míg a teljes kínai felnőtt népességben a férfiak és nők átlagéletkora 40,56 és 41,01 év a népszámlálási adatok szerint. A társkereső népesség fiatalabb, mint a teljes felnőtt népesség, így valószínűleg magasabb, és a felhasználók nem biztos, hogy annyira eltúlozzák a magasságukat, mint amennyire kiszámították.

Attribútum preferencia

Amikor egy felhasználó üzenetet küld egy másik felhasználónak, a címzett kiválasztása nem biztos, hogy véletlenszerű, hanem inkább bizonyos attribútumokat részesít előnyben, például a foglalkoztatás, az oktatás, a jövedelem és így tovább. Az i attribútummal rendelkező feladó j attribútummal rendelkező címzett iránti preferenciájának jellemzésére legyen \(m_{ij}\) az i attribútummal rendelkező felhasználók által a j attribútummal rendelkező felhasználóknak küldött üzenetek száma, \(m_{i}\) az i attribútummal rendelkező felhasználók által küldött üzenetek teljes száma, \(n_{j}\) a j attribútummal rendelkező vevők száma, és n a vevők teljes száma, akkor az attribútumpreferencia \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0\) azt jelzi, hogy a véletlenszerű kiválasztáshoz képest az i attribútummal rendelkező feladók előnyben részesítik a j attribútummal rendelkező vevőket, \(p_{ij}=0\) azt jelzi, hogy nincs preferencia, és \(p_{ij}<0\) negatív preferenciát jelez, azaz. nem preferálja a j attribútummal rendelkező vevők kiválasztását.

A foglalkoztatási preferenciákat a 3. és 4. ábra mutatja (az attribútumok jelentését és a férfiak/ nők számát és arányát minden egyes foglalkoztatás esetében lásd az 1. kiegészítő fájl 1. és 2. táblázatában). Azt találjuk, hogy a nőknek üzeneteket küldő férfiakkal összehasonlítva, amikor a női felhasználók férfi felhasználóknak küldenek üzeneteket, erősebb preferencia mutatkozik a potenciális társak foglalkoztatása iránt. A 3. ábrán azt találjuk, hogy a diákok, könyvelők, pedagógusok vagy más, nem kategorizált foglalkozásokkal foglalkozó nőket a férfiak nem részesítik előnyben, míg a tervezéssel foglalkozó nők kissé népszerűek a beérkezett üzenetek relatív számát tekintve, különösen a légi közlekedési szolgáltatóiparban dolgozó férfiak esetében. Ugyanakkor azt is megállapítjuk, hogy ezekben az adatokban a háztartásvezetéssel foglalkozó férfiak csak a könyveléssel foglalkozó nőknek küldenek üzeneteket, a fordítási iparban dolgozó férfiak pedig csak a magántulajdonos nőknek küldenek üzeneteket, ami a felhasználói magatartás kis mintanagyságának tudható be ezen attribútumok tekintetében.

3. ábra

A női felhasználóknak üzeneteket küldő férfi felhasználók foglalkoztatási preferenciája. A függőleges tengely a férfi foglalkozásokat, a vízszintes tengely pedig a női foglalkozásokat jelöli. A preferenciaértékeket különböző színekkel ábrázoljuk

4. ábra

A férfi felhasználóknak üzeneteket küldő női felhasználók foglalkoztatási preferenciája. A függőleges tengely a női foglalkozásokat, a vízszintes tengely pedig a férfi foglalkozásokat jelöli. A preferenciaértékeket különböző színekkel ábrázoljuk

A 4. ábrából kiderül, hogy a férfiak körében a legnépszerűbb foglalkozások a felsővezetői, a pénzügyi, az oktatási és a magántulajdonosi foglalkozások. Az ebben a négy foglalkozásban dolgozók többsége magas jövedelemmel rendelkezik vagy jól képzett. A nem népszerű férfiakat az iskolások, az eladók és az egyéb, nem kategorizált foglalkozásokban tevékenykedők alkotják. Ugyanakkor a vegyiparban dolgozó nők inkább az oktatással és képzéssel foglalkozó férfiakat keresik, a sporttal foglalkozó nők inkább a magántulajdonos férfiakat keresik, a rendőrséggel foglalkozó nők pedig csak a pénzügyekkel és ingatlanokkal foglalkozó férfiaknak küldenek üzeneteket ezekben az adatokban, ami szintén a felhasználói viselkedés kis mintanagyságának tulajdonítható ezen attribútumok tekintetében.

A képzettségi szint jelentős hatással van a párválasztásra és a házasságra . Az iskolázottsági szintű preferenciákat az 5. és 6. ábra mutatja (az attribútumok jelentését és az egyes iskolázottsági szintekhez tartozó férfiak/nők számát és arányát lásd az 1. kiegészítő fájl 3. és 4. táblázatában). Kínában, a többi országhoz hasonlóan, a posztdoktor is inkább egy pozícióra utal, mint egy iskolai végzettségre. Számos kínai weboldalon azonban a felhasználó regisztrációjakor a posztdoktor a PhD megszerzésén túli végzettségi szintnek is tekinthető. Hasonlóképpen azt találjuk, hogy a nőknek üzeneteket küldő férfiakhoz képest, amikor a női felhasználók férfi felhasználóknak küldenek üzeneteket, erősebb preferencia mutatkozik a potenciális társuk iskolai végzettségi szintje iránt. Az 5. ábra azt mutatja, hogy azok a férfiak, akiknek a végzettségi szintje alacsonyabb az alapfokozatnál, inkább a velük azonos vagy alacsonyabb végzettségű nőket keresik, az alapfokozatnál magasabb, de a doktori fokozatnál alacsonyabb végzettségű férfiak inkább az alapfokozatú nőket keresik, a PhD-fokozattal vagy posztdoktori képzéssel rendelkező férfiak pedig inkább a doktori fokozattal rendelkező nőket keresik. Az iskolai végzettségi szintek preferenciáját tekintve a férfiak általában tetszik-vonzódik jellemzőt mutatnak. A férfi felhasználóknak üzeneteket küldő női felhasználók esetében a 6. ábra azt mutatja, hogy az egyetemi és a felsőfokú végzettségű férfiak népszerűek, és a legtöbb nő esetében az egyetemi végzettségű férfiak népszerűbbek, de a felsőfokú végzettségű nők inkább a felsőfokú végzettségű potenciális társakat keresik. Az iskolai végzettségi szintek preferenciáját tekintve általában a nők mutatnak potenciális-vonzó tulajdonságot. Egy német online társkereső oldalon végzett kutatás kimutatta, hogy a hasonló iskolai végzettségűek preferenciája az iskolai végzettséggel együtt nő. A nők vonakodnak az alacsonyabb iskolai végzettségű férfiakkal való kapcsolattartástól, azonban a férfiak számára nem jelentenek akadályt az alacsonyabb iskolai végzettségű nőkkel való kapcsolatfelvétel.

5. ábra

A női felhasználóknak üzenetet küldő férfi felhasználók iskolázottsági szintjének preferenciája. A függőleges tengely a férfiak iskolázottsági szintjét, a vízszintes tengely pedig a nők iskolázottsági szintjét jelzi. A preferenciaértékeket különböző színekkel ábrázoljuk

6. ábra

A férfi felhasználóknak üzeneteket küldő női felhasználók oktatási szintjének preferenciája. A függőleges tengely a női iskolázottsági szinteket, a vízszintes tengely pedig a férfi iskolázottsági szinteket jelöli. A preferenciaértékeket különböző színekkel ábrázoljuk. A posztdoktori női felhasználók nem küldtek üzenetet férfiaknak az adatállományban, ezért a megfelelő sor elemeit 0

Az oktatási szint és a jövedelem két fontos mutatója egy személy társadalmi és gazdasági helyzetének. A 7. és 8. ábrából (az attribútumok jelentését, valamint a férfiak/ nők számát és arányát az egyes jövedelmi szintek esetében lásd az 5. és 6. táblázatot az 1. kiegészítő fájlban) azt találjuk, hogy a jövedelmi szintek tekintetében a potenciális párválasztás tekintetében a férfi felhasználók esetében kevésbé egyértelmű a preferencia a potenciális párválasztás tekintetében, mint a nők esetében. Egyrészt, ahogy a 7. ábrán látható, minden férfi nyilvánvalóan azokat a nőket részesíti előnyben, akiknek a havi jövedelme 5000 RMB és 10 000 RMB között van (az RMB a kínai valuta, és 1 RMB = 0,145 amerikai dollár = 0,128 euró), míg a 2000 RMB alatti jövedelmű nők nyilvánvalóan kizárásra kerülnek. A férfiak azonban nem mutatnak nyilvánvaló preferenciát vagy kizárást azon nőkkel szemben, akiknek a jövedelme 10 000 RMB felett van. Másrészt, ahogy a 8. ábrán látható, minden nő nem kedveli az 5000 RMB-nél kevesebbet kereső férfiakat, és a 10 000 és 20 000 RMB közötti jövedelmű férfiak a legnépszerűbbek. A jövedelmi szintek preferenciáját tekintve általában a nők is potenciál-vonzó tulajdonságot mutatnak. Egy kínai online társkereső oldalon végzett helyszíni kísérlet szerint a férfiak nagyjából azonos arányban látogatták a különböző jövedelmű nők profiljait, míg a nők esetében minél magasabb a férfiak jövedelme, annál nagyobb arányban látogatják a profiljukat , ami eltér a mi eredményeinktől.

7. ábra

A havi jövedelemszintek preferenciája a női felhasználóknak üzenetet küldő férfi felhasználók esetében. A függőleges tengely a férfiak jövedelmi szintjét, a vízszintes tengely pedig a nők jövedelmi szintjét jelzi. A preferenciaértékeket különböző színekkel ábrázoljuk

8. ábra

A havi jövedelemszintek preferenciája a férfi felhasználóknak üzeneteket küldő női felhasználók esetében. A függőleges tengely a női jövedelemszinteket, a vízszintes tengely pedig a férfi jövedelemszinteket jelzi. A preferenciaértékeket különböző színekkel ábrázoljuk

Logisztikus regressziós osztályozás

Kompatibilitási pontszámok

A felhasználók személyes honlapjain minden felhasználó megmutatta a potenciális társakkal szemben támasztott igényeit, beleértve a 7 tulajdonságra vonatkozó követelményeket, azaz.azaz életkor, avatar, iskolai végzettség, magasság, hitelképesség, lakóhely és családi állapot (lásd az 1. kiegészítő fájl 1-4. ábráját a több attribútum kiválasztási követelményeiről). Ami a hitelminősítést illeti, a társkereső oldalon, miután a felhasználó átesett a gyors személyazonosság-hitelesítésen, vagy feltöltötte a három dokumentum egyikét (a személyi igazolványt, az útlevelet vagy a hongkongi és makaói útlevelet), és átment az értékelésen, megkapja az első csillagot, azaz a hitelminősítés egyenlő az 1-gyel. Az első csillag alapján minden egyes alkalommal, amikor újabb dokumentumot tölt fel és hagy jóvá, egy további csillag vagy minősítés adható hozzá (legfeljebb öt csillag, azaz ötcsillagos tag). Emellett, bár a platformon a felhasználók alsó korhatára 18 év, még mindig nagyon kevés olyan felhasználó van, aki 18 évnél alacsonyabb minimális vagy maximális életkort határoz meg (a részleteket lásd az 1. kiegészítő fájl 3. ábráján). A kompatibilitási pontszám fogalmát alkalmazzuk a felhasználók közötti egyezés leírására az alapján, hogy egy felhasználó megfelel-e egy másik felhasználó kiválasztási követelményének. Amikor a nők üzeneteket küldenek a férfiaknak, minden egyes üzenet és minden egyes attribútum esetében megkaphatjuk azon nők arányát, akik megfelelnek a férfiak párválasztási preferenciáinak, és azon férfiak arányát, akik megfelelnek a nők preferenciáinak, azaz két vektort kapunk, amelyek 7 arányt tartalmaznak. Az adatok alapján \(\mathbf{w}_{\mathrm{FMm}}= (0,701,0,886,0,462,0,826,0,919,0,786,0,920)\), és \(\(\mathbf{w}_{\mathrm{FMf}}=(0,912,0,976,0,681,0,962,0,994,0,864,0.912)\), ahol \(\mathbf{w}_{\mathrm{FMm}}\) a férfi preferenciáknak megfelelő női attribútumok aránya és \(\(\mathbf{w}_{\mathrm{FMf}}\) a női preferenciáknak megfelelő férfi attribútumok aránya. Hasonlóképpen, amikor a férfiak üzeneteket küldenek a nőknek, akkor \(\mathbf{w}_{\mathrm{MFm}}}=(0.877,0.977,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Így a férfiaknak üzenetet küldő nők kompatibilitási pontszámai

$$\\begin{aligned}& c_{\mathrm{FMm}} = \frac{\mathbf{w}_{\mathrm{FMm}}} \cdot { (\textrm{női attr. a férfi pref.})}}}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{FMm}} )}}, \end{aligned}$$
(1)

$$\begin{aligned}& c_{\mathrm{FMf}} = \frac{\mathbf{w}_{\mathrm{FMf}}} \cdot (\textrm{férfi attr. a női pref.})}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{FMf}} )}}, \end{aligned}$$
(2)

és a nőknek üzenetet küldő férfiak kompatibilitási pontszámai

$$\\begin{aligned}& c_{\\mathrm{MFm}} = \frac{\\mathbf{w}_{\mathrm{MFm}} \cdot (\textrm{női attr. a férfi pref.})}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{MFm}} )}}, \end{aligned}$$
(3)

$$\begin{aligned}& c_{\mathrm{MFf}} = \frac{\mathbf{w}_{{\mathrm{MFf}} \cdot (\textrm{férfi attr. a női pref.})}{ {\operatorname{sum}(\mathbf{w}_{\mathrm{MFf}} )}}, \end{aligned}$$
(4)

ahol (női attr. a férfi pref.) egy vektor, amely azt jellemzi, hogy a női attribútumok megfelelnek-e a férfi preferenciáknak egy felhasználói pár esetében (1, ha igen, és 0, ha nem), és hasonlóképpen (male attr. in female pref.) egy vektor, amely azt jellemzi, hogy a férfi attribútumok megfelelnek-e a női preferenciáknak egy felhasználói pár esetében. Az 1. és 3. egyenlet a férfi preferencia és a választott párja profilja közötti kompatibilitási pontszámok, a 2. és 4. egyenlet pedig a női preferencia és a választott párja profilja közötti kompatibilitási pontszámok. Egy \(u_{a}\) és \(u_{b}\) felhasználói pár esetében egy pontszámot, azaz reciprok pontszámot használunk annak számszerűsítésére, hogy \(u_{b}\) attribútumai mennyire egyeznek \(u_{a}\) preferenciáival, és \(u_{a}\) attribútumai mennyire egyeznek \(u_{b}\) preferenciáival. Az \(u_{a}\) és \(u_{b}\) közötti kölcsönös pontszám a két felhasználó kompatibilitási pontszámának átlaga, azaz, a férfiaknak üzenetet küldő nők esetében a kölcsönös pontszám \(\mathit{rs} = (c_{\mathrm {FMm}} + c_{\mathrm{FMf}} )/2\), a nőknek üzenetet küldő férfiak esetében pedig \(\mathit{rs} = (c_{\mathrm{MFm}} + c_{\mathrm{MFf}} )/2\).

Logisztikus regresszió

Legyen click a felhasználóra kattintások száma, msg a felhasználó által kapott üzenetek száma, rec pedig a felhasználó által ajánlott és más felhasználók honlapjain megjelenő üzenetek száma, definiáljuk \(\mathit{pop}_{1} = \mathit{klikk}/\mathit{rec}\) és \(\mathit{pop}_{2} = \mathit{msg}/\mathit{rec}\), amelyek egy felhasználó népszerűségét jellemezhetik a műveletek alapján. A PageRank centralitást (\(\mathit{pop}_{3}\)) is használjuk annak számszerűsítésére, hogy egy felhasználó mennyire fókuszált vagy népszerű a hálózatban, figyelembe véve a hálózat összes kapcsolatát. A vonzó emberek, például az előnyös demográfiai jellemzőkkel és magasabb társadalmi-gazdasági státusszal rendelkező emberek általában igényesebbek, mint az átlagos emberek a potenciális társválasztás szempontjából, ami a jövedelem és az iskolai végzettség szintjének preferenciaelemzéséből derül ki a Szakaszban. 3.1.2. Azok, akiket a vonzó emberek vonzónak tartanak, még népszerűbbek/vonzóbbak lehetnek. A dolgozatban használt változókat és jelentésüket az 1. táblázat tartalmazza.

1. táblázat Változók és a hozzájuk tartozó jelentések

Elvezetünk több centralitási indexet, például a \(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\), \(\mathit{pop}_{3}\) és indegree-t, hogy értékeljük az üzenetküldő magatartással való összefüggésüket. Megjegyzendő, hogy a centralitási indexek a felhasználók kívánatosságát vagy népszerűségét leíró aggregált mutatók, és a felhasználók nem ismerik saját indexeiket, és nem ismerik mások indexeit sem. Az outdegree-t a felhasználók aktivitási szintjének jellemzésére használjuk, és a társkereső oldalon a felhasználók szintén nem ismerik a többi felhasználó outdegree-jét. A valóságban ahelyett, hogy az indexek segítségével azonosítanák vagy választanák ki a vonzó partnereket, a felhasználók konkrétabb támpontok, például magasabb jövedelem, jobb iskolai végzettség, vonzó fényképek vagy jó demográfiai és társadalmi-gazdasági kompatibilitás alapján küldenek üzenetet a másiknak. A dolgozatban azt vizsgáljuk, hogy az indexek szignifikánsan összefüggnek-e az üzenetküldési viselkedéssel.

Tegyük fel, hogy \(p_{i}\) az i női felhasználó üzenetküldésének valószínűsége, \(1-p_{i}\) pedig az üzenetküldés elmaradásának valószínűsége, akkor \(L_{f_{i}}=\ln(\frac{p_{i}}}{1-p_{i}})\), azaz, minden nő esetében \(L_{f}=\ln(\frac{p}{1-p})\). Hasonlóképpen, tegyük fel, hogy \(q_{j}\) az i férfi felhasználó számára az üzenetküldés valószínűsége, \(1-q_{j}\) pedig az üzenet el nem küldésének valószínűsége, akkor \(L_{m_{j}}=\ln (\frac{q_{j}}}{1-q_{j}})\), azaz, minden férfi esetében \(L_{m}= \ln(\frac{q}{1-q})\). A logisztikus regressziós modelleket a következőképpen kapjuk:

$$\\begin{aligned}& L_{f} = \alpha _{1} + {\boldsymbol{\beta} }_{1} \cdot {\mathbf{attribútum}} + \varepsilon _{\mathrm{1}}, \end{aligned}$$
(5)

$$\begin{aligned}& L_{m} = \alpha _{2} + {\boldsymbol{\beta }}_{2} \cdot {\mathbf{attribútum}} + \varepsilon _{\mathrm{2}}. \end{aligned}$$
(6)

Ebben a tanulmányban multikollinearitási teszteket végeztünk, hogy megtaláljuk azokat a független változókat, amelyek között a korrelációs együtthatók 0,5-nél kisebbek (a részleteket lásd a 7. és 8. táblázatban az 1. kiegészítő fájlban). A férfiaknak üzeneteket küldő nőkre vonatkozó logisztikus regressziós eredményeket a 2. táblázat mutatja. Azt találjuk, hogy szinte minden változó szignifikáns, ha csak a nők attribútumait vesszük figyelembe (1. modell), azaz a küldő attribútumait, de csak a nők lakhatása és outdegree-je van pozitív kapcsolatban a férfiaknak üzeneteket küldő nők valószínűségével. Ha csak a férfi attribútumokat vesszük figyelembe (2. modell), a férfi mobiltelefon-ellenőrzés és a hitelképesség kivételével az összes többi szignifikáns, és pozitívan kapcsolódik a nők üzenetküldésének valószínűségéhez. Ha a két fél attribútumait és a kompatibilitási pontszámokat vesszük figyelembe (3. modell), a szignifikáns változók közül a női mobiltelefon ellenőrzése, az autótulajdonlás, a hitelképesség és a népszerűségi szint (\(\mathit{pop}_{1}\) és \(\mathit{pop}_{3}\)) negatívan, míg a többi változó pozitívan kapcsolódik a nők üzenetküldésének valószínűségéhez. Azt találjuk, hogy amikor a nők üzeneteket küldenek a férfiaknak, nemcsak az foglalkoztatja őket, hogy megfelelnek-e a férfiak igényeinek, hanem az is, hogy a férfiak megfelelnek-e a saját igényeiknek.

2. táblázat Logisztikus regressziós eredmények a férfiaknak üzeneteket küldő női felhasználókra vonatkozóan

A 3. táblázatban a nőknek üzeneteket küldő férfiakra vonatkozó logisztikus regressziós eredményeket mutatjuk be. Azt találjuk, hogy ha csak a női attribútumokat vesszük figyelembe (1. modell), a női mobiltelefon-ellenőrzés, a hitelképesség és az outdegree kivételével az összes többi változó szignifikáns, de csak a női lakástulajdon befolyásolja negatívan a férfi üzenetküldés valószínűségét. Ha csak a férfi attribútumokat vesszük figyelembe (2. modell), minden változó szignifikáns, de csak a férfi outdegree korrelál pozitívan az üzenetküldő magatartással, a többi negatívan. Az összes változót figyelembe véve (3. modell), a női hitelképesség, az outdegree és a női preferencia és a megfelelő másik oldal profilja közötti kompatibilitási pontszám kivételével az összes többi változó szignifikáns. A szignifikáns változók közül a női mobiltelefon-ellenőrzés, az autótulajdonlás, a népszerűség (\(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\) és \(\mathit{pop}_{3}\)), a férfi outdegree és a férfi preferencia és a megfelelő másik oldal profilja közötti kompatibilitási pontszám pozitívan korrelál az üzenetküldő magatartással, míg az összes többi változó negatívan korrelál. Emellett a két kompatibilitási pontszám szignifikanciáját elemezve azt találjuk, hogy a férfiak csak arra figyelnek, hogy a nők megfelelnek-e a saját igényeiknek, amikor üzeneteket küldenek a nőknek.

3. táblázat Logisztikus regresszió eredményei a női felhasználóknak üzeneteket küldő férfi felhasználókra vonatkozóan

Amint a 2. és 3. táblázatból látható, az üzeneteket küldő férfiak vagy nők esetében a másik fél népszerűsége szignifikánsan pozitívan összefügg az üzenetküldő magatartással. Egyrészt a \(\mathit{pop}_{1}\) és \(\mathit{pop}_{2}\) értékek a számítási módszerük szerint egy felhasználó helyi népszerűségét jelentik. Másrészt az \(\mathit{pop}_{3}\) érték, azaz a PageRank a felhasználó népszerűségét globális szempontból reprezentálja.

A férfiaknak üzeneteket küldő nők esetében az \(\exp (0.390) = 1.477\) férfi \(\mathit{pop}_{1}\) nagyobb, mint az \(\exp (0.146) = 1,157\) a férfi \(\mathit{pop}_{3}\) esetében, és a nőknek üzeneteket küldő férfiak esetében a \(\exp (0,462) = 1,587\) a női \(\mathit{pop}_{1}\) esetében szintén nagyobb, mint a \(\exp (0,141) = 1,151\) a női \(\mathit{pop}_{3}\) esetében. Tehát mind a férfiak, mind a nők esetében a másik fél \(\mathit{pop}_{1}\) fontosabb, mint az \(\mathit{pop}_{3}\). Emellett azt is megállapítjuk, hogy amikor a nők üzeneteket küldenek férfiaknak, a férfiak \(\exp (0,390) = 1,477\) \(\mathit{pop}_{1}\) kisebb, mint az \(\exp (0,462) = 1.587\) a női \(\mathit{pop}_{1}\), amikor a férfiak üzeneteket küldenek a nőknek, ami azt jelzi, hogy a nőkhöz képest a férfiak esetében a másik fél \(\mathit{pop}_{1}\) jobban kapcsolódik az üzenetküldő magatartásukhoz. Amikor azonban a nők üzeneteket küldenek férfiaknak, akkor a férfiak \(\exp (0,146) = 1,157\) \(\mathit{pop}_{3}\) nagyobb, mint az \(\exp (0,141) = 1.151\) a női \(\mathit{pop}_{3}\) esetében, amikor a férfiak üzeneteket küldenek a nőknek, ami azt jelzi, hogy a férfiakhoz képest a nők esetében a másik fél \(\mathit{pop}_{3}\) jobban kapcsolódik az üzenetküldő magatartásukhoz.

Kínában a lakás és az autó megléte a gazdagság és a társadalmi státusz szimbóluma, és egyes régiókban ezek a házasságkötéshez elengedhetetlenekké váltak. Amikor a nők üzeneteket küldenek a férfiaknak, fontos, hogy a férfiaknak legyen lakásuk és autójuk. Amikor a férfiak üzeneteket küldenek a nőknek, a nők számára nem fontos, hogy legyen házuk, de a nők számára valamennyire fontos, hogy legyen autójuk. Azt találjuk, hogy \(\exp(0,038) = 1,039\) arra vonatkozóan, hogy a másik félnek van-e autója, amikor férfiak küldenek üzeneteket nőknek, kisebb, mint \(\exp(0,157) = 1,170\) arra vonatkozóan, hogy a másik félnek van-e autója, amikor nők küldenek üzeneteket férfiaknak, ami azt jelzi, hogy a nők a férfiaknál jobban figyelnek arra, hogy a másik félnek van-e autója.

A felhasználó outdegree-je a felhasználó aktivitását számszerűsíti. A látszólag magas aktivitás sok más felhasználóval való kapcsolatfelvételt jelent, alapvetően azonban arra utalhat, hogy a felhasználók több időt és erőforrást fektetnek abba, hogy megpróbáljanak potenciális partnereket találni. Az outdegree a férfiak és a nők esetében eltérő attribútum. Amikor egy nő üzenetet küld egy férfinak, a másik fél outdegree-je szignifikánsan pozitívan kapcsolódik az üzenetküldő magatartáshoz, míg amikor egy férfi küld üzenetet egy nőnek, akkor nem. Amikor nők küldenek üzenetet férfiaknak, az általuk megkeresett férfiak népszerűségének és aktivitásának hálózati mérései szignifikánsan pozitívan kapcsolódnak az üzenetküldő viselkedésükhöz, de amikor férfiak küldenek üzenetet nőknek, csak a megkeresett nők népszerűségének hálózati mérései kapcsolódnak szignifikánsan pozitívan az üzenetküldő viselkedésükhöz.

Ensemble learning osztályozás

A nagy adatok korának beköszöntével az ensemble learning osztályozási módszerek fokozatosan megjelentek a társadalmi hálózatok kutatásának területén. Breiman már 1996-ban javasolta a zsákolás módszerét , majd öt évvel később tovább javasolta a Random Forest módszerét. Freund 1997-ben javasolta az AdaBoost módszert , és a gépi tanulási osztályozók folyamatos fejlesztésével 2016-ban Chen et al. javasolt egy osztályozót-XGBoost , amely bizonyos esetekben jelentősen javíthatja az algoritmus hatékonyságát és pontosságát. Alkalmazásként a közelmúltban Reece et al. már alkalmazta a gépi tanulási eszközöket a depresszió azonosítására az Instagram-fotókból .

A regressziós elemzésnek gyakran vannak bizonyos követelményei a független változókkal szemben, például a multikollinearitás hiánya, azonban az ensemble learning osztályozási módszerek lazítják a független változókra vonatkozó korlátozásokat. Ebben a szakaszban az ensemble learning osztályozási módszereket, köztük a bagging, a Random Forest, az AdaBoost és az XGBoost módszereket használjuk az 1. táblázatban szereplő egyes attribútumok fontosságának értékelésére. Az AdaBoost és a bagging módszerek végrehajtásához az R szoftver “adabag” csomagját, a Random Forest módszer végrehajtásához a “randomForest” csomagot, az XGBoost módszer végrehajtásához pedig az “xgboost” csomagot használjuk. Az adatkészlet esetében az osztályozók teljesítményének értékelésére 5-szörös keresztellenőrzést alkalmazunk, és az algoritmus paramétereit úgy választjuk meg, hogy stabil hibaarányt érjünk el. A küldő és nem küldő üzenetek száma kiegyensúlyozatlan az adathalmazban, és a nagyobb halmazból véletlenszerű almintavételezés történik, hogy a kisebb halmazzal azonos méretű halmazt kapjunk.

A négy ensemble learning osztályozó módszer hibaarányait a 4. táblázat mutatja. Azt találjuk, hogy a Random Forest és az AdaBoost hibaaránya a legalacsonyabb a férfiaknak üzeneteket küldő nők esetében, míg az XGBoosté a legalacsonyabb a nőknek üzeneteket küldő férfiak esetében. Az attribútumok fontossági sorrendjét a 9. és 10. ábra mutatja. A 9. ábra azt mutatja, hogy amikor nők küldenek üzeneteket férfiaknak, a három legfontosabb attribútum a férfiak esetében a \(\mathit{pop}_{3}\) és \(\mathit{pop}_{1}\) értékek, a nők esetében pedig az outdegree. Hasonlóképpen, a 10. ábra azt mutatja, hogy amikor a férfiak üzeneteket küldenek nőknek, a három legfontosabb attribútum a \(\mathit{pop}_{3}\) és \(\mathit{pop}_{1}\) értékek a nők esetében, és a outdegree a férfiak esetében. Mind a férfiak, mind a nők üzenetküldési döntését előrejelző legfontosabb tényezők a potenciális társak népszerűségét jelentő \(\mathit{pop}_{3}\) és \(\mathit{pop}_{1}\) értékek, amelyek a logisztikus regresszióban is szignifikánsan pozitívan kapcsolódnak az üzenetküldési viselkedéshez.

9. ábra

Az attribútumok relatív fontossági sorrendje, amikor a nők üzeneteket küldenek a férfiaknak a különböző osztályozási módszerek esetében. A vízszintes tengely az attribútumokat, a függőleges tengely pedig a hozzájuk tartozó fontosságot jelöli. A bagging, a Random Forest és az AdaBoost esetében az egyes változók relatív fontosságát az osztályozási feladatban a Gini-index, az XGBoost esetében pedig a Gain paraméter

10. ábra

Attribútumok relatív fontossági rangsora, amikor férfiak üzeneteket küldenek nőknek különböző osztályozási módszerek esetén. A vízszintes tengely az attribútumokat, a függőleges tengely pedig a megfelelő fontosságukat jelzi. A bagging, a Random Forest és az AdaBoost esetében az egyes változók relatív fontosságát az osztályozási feladatban a Gini-index, az XGBoost esetében pedig a Gain paraméter

4. táblázat Hibaarányok ensemble learning osztályozási módszerekkel

Az ensemble learning osztályozás célja eltér a logisztikus regresszió elemzésétől. A 9. és 10. ábra szerint a centralitási mutatók valóban a túlnyomó fontosságot, a többi változó pedig a relatív előrejelző képesség hiányát mutatja. Ez azonban nem jelenti azt, hogy a többi változó haszontalan, és a logisztikus regresszióban még mindig szignifikánsan összefüggésbe hozhatók a felhasználók üzenetküldési viselkedésével.

Stratégiai viselkedéselemzés

A stratégiai viselkedés fogalma a közgazdaságtanból származik, ahol az eredeti implikáció az, hogy a vállalatok a piaci környezetet befolyásoló intézkedéseket tesznek a nyereség növelése érdekében (ebben a tanulmányban az üzenetválaszolási arányra utalva), amelyet aztán kiterjesztettek a párosítási problémákra , például a párválasztásra.

Kutatásunkban a stratégiai viselkedés arra utal, hogy egy felhasználó üzenetet küld-e egy másik felhasználónak attól függően, hogy döntése növelheti-e az üzenet válaszadási valószínűségét. Mivel nincsenek felhasználói válaszadatok, a felhasználók népszerűségét jellemző centralitási indexek segítségével szeretnénk elemezni, hogy a felhasználók hajlamosak-e olyan embereknek küldeni üzenetet, akik népszerűbbek náluk, vagy olyanoknak, akik kevésbé népszerűek. A felhasználók stratégiai viselkedését a centralitásindexek közötti korreláció elemzésével vizsgáljuk. Az általánosított additív modellel való korrelációra vonatkozó simító illesztési görbék azt mutatják, hogy a felhasználók centralitásindexei között nemlineáris vagy közelítőleg lineáris kapcsolat van (a részleteket lásd az 1. kiegészítő fájl 5. és 6. ábráján), ezért a Spearman-féle korrelációs együtthatót használjuk a korreláció jellemzésére. Amint az 5. és 6. táblázatban látható, Azt találjuk, hogy a társkereső oldalon a férfiak és a nők eltérő viselkedési mintákat mutatnak az üzenetküldésben, annak ellenére, hogy a hálózati környezetben az elutasítás költségei csökkentek. A nőknek üzeneteket küldő férfiak esetében gyenge pozitív korrelációk léteznek a centralitásindexek között, amelyek kis pozitív és szignifikáns korrelációs együtthatókkal jellemezhetők, míg a férfiaknak üzeneteket küldő nők esetében gyenge vagy szerény pozitív korrelációk léteznek a centralitásindexek között, amelyeket kis vagy kissé nagyobb pozitív és szignifikáns korrelációs együtthatók jellemeznek. A férfiak nem mutatnak nagymértékben stratégiai viselkedést az üzenetek küldésekor, míg a nők esetében a centralitási indexek növekedésével az üzeneteiket fogadó férfiak megfelelő indexei is növekedhetnek.

5. táblázat Spearman-féle korrelációs együtthatók a centralitásindexek között, amikor a nők üzeneteket küldenek férfiaknak
6. táblázat Spearman-féle korrelációs együtthatók a centralitásindexek között, amikor a férfiak üzeneteket küldenek nőknek

A felhasználók azonos centralitásindexpárjai közötti korrelációkat vizsgálva, tovább elemezzük, hogy a felhasználók hajlamosak-e olyan embereknek üzeneteket küldeni, akik népszerűbbek náluk, vagy olyanoknak, akik kevésbé népszerűek. Az 1. kiegészítő fájl 7. és 8. ábráján a küldő minden egyes centralitásindexe esetében megadjuk a megfelelő címzettek indexeinek átlagát és szórását, valamint azt, hogy a címzettek centralitásindexeinek hány százaléka nagyobb, mint a küldőé. A 7. táblázat minden egyes centralitási index esetében bemutatja, hogy a címzettek centralitási indexeinek hány százaléka nagyobb, mint a küldőé az üzenetek küldésekor. Összehasonlításként megadjuk a véletlenszerű eredményeket is. A férfiakhoz képest több nő hajlamos arra, hogy olyan embereknek küldjön üzenetet, akik népszerűbbek náluk.

7. táblázat A címzettek üzenetek küldésekor a küldőnél nagyobb centralitásindexek arányai

A felhasználók stratégiai viselkedéséről az online társkeresésben több tanulmány is született. Egyes tanulmányok szignifikáns pozitív korrelációt találtak a férfi és női felhasználók népszerűsége között. Például a Taylor et al. által az amerikai felhasználókon végzett kutatás kimutatta, hogy, hajlamosak kiválasztani és kiválasztani más olyan felhasználókat, akiknek relatív népszerűsége hasonló a sajátjukhoz, bár ez nem feltétlenül jelent magasabb sikerességi arányt, azaz több választ kapnak . A közelmúltban egy online társkereső oldal négy amerikai város felhasználóinak empirikus elemzése a PageRank segítségével jellemezte a felhasználók kívánatosságát, és megállapította, hogy mind a férfiak, mind a nők olyan partnereknek küldtek üzeneteket, akik átlagosan mintegy 25%-kal kívánatosabbak náluk . Vannak azonban olyan tanulmányok is, amelyek nem találtak összefüggést a felhasználók népszerűsége között. Például a bostoni és San Diegó-i felhasználókkal végzett kutatás nem talált bizonyítékot a stratégiai viselkedésre . Egy másik, az Egyesült Államok egyik közepes méretű délnyugati városának online társkereső adataira vonatkozó kutatás kimutatta, hogy a felhasználók fizikai vonzerejét, népszerűségét, személyiségét és anyagi erőforrásait jellemző saját kívánatossági szintjüktől függetlenül mind a férfiak, mind a nők hajlamosak üzeneteket küldeni a társadalmilag legkívánatosabb felhasználóknak . Úgy találjuk, hogy a különböző platformokon vagy különböző kulturális kontextusokban élő felhasználók eltérő stratégiai magatartást tanúsítanak, és a mögöttes mechanizmusok még további kutatásra szorulnak.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.