Analiza preferencji atrybutów

Rozkład różnic atrybutów

W randkach online występują znaczące różnice między płciami w zakresie preferencji atrybutów, autoprezentacji i interakcji . Użytkownicy zazwyczaj mają pewne preferencje dotyczące wieku lub wzrostu kolegów. Zarówno dla mężczyzn jak i kobiet, kiedy wysyłają wiadomości do swoich potencjalnych partnerów, obliczamy różnicę wieku jako wiek(odbiorca) – wiek(nadawca), oraz różnicę wzrostu jako wzrost(odbiorca) – wzrost(nadawca). Rysunki 1 i 2 przedstawiają odpowiednio rozkłady różnicy wieku i różnicy wzrostu. Dla porównania, pokazujemy również wyniki randomizowane, zakładając, że użytkownicy płci żeńskiej (męskiej) losowo wysyłają wiadomości do użytkowników płci męskiej (żeńskiej).

Rysunek 1

Rozkład różnicy wieku. FM oznacza, że kobiety wysyłają wiadomości do mężczyzn, a MF oznacza, że mężczyźni wysyłają wiadomości do kobiet. Linie ciągłe reprezentują dopasowanie lokalnie ważonej regresji wielomianowej do odpowiadających im punktów danych, a szary przedział reprezentuje 95% obszar ufności

Rysunek 2

Rozkład różnicy wzrostu. FM oznacza, że użytkownicy płci żeńskiej wysyłają wiadomości do użytkowników płci męskiej, a MF oznacza, że użytkownicy płci męskiej wysyłają wiadomości do użytkowników płci żeńskiej. Linie ciągłe reprezentują dopasowanie lokalnie ważonej regresji wielomianowej do odpowiadających im punktów danych, a szary przedział reprezentuje 95% region ufności

W większości czasów i miejsc kobiety zazwyczaj wychodzą za mąż za starszych mężczyzn. Rysunek 1 pokazuje, że w nowoczesnym społeczeństwie chińskim, średnio, mężczyźni wolą kobiety o dwa lata młodsze od nich, a kobiety wolą mężczyzn o dwa lata starszych od nich. Jednakże zakres różnicy wieku akceptowany przez kobiety jest mniejszy niż przez mężczyzn: minimalny wiek akceptowany przez kobiety to taki, w którym mężczyźni są od nich młodsi o 11 lat, a maksymalny to taki, w którym mężczyźni są od nich starsi o 23 lata, podczas gdy minimalny wiek akceptowany przez mężczyzn to taki, w którym kobiety są od nich młodsze o 25 lat, a maksymalny to taki, w którym kobiety są od nich starsze o 28 lat. Jeśli tylko rozkłady różnic wiekowych są brane pod uwagę, zgodnie z wcześniejszymi ustaleniami z zakresu kultur i religii, stwierdzamy, że zakres wieku, w którym kobiety są skłonne do wysyłania wiadomości jest węższy niż zakres wieku, w którym mężczyźni są skłonni do wysyłania wiadomości. Preferencje mężczyzn i kobiet nie są przypadkowe; szukają potencjalnych dat z mniejszą różnicą wieku niż przewidywana przez losowy wybór, co pokazuje charakterystykę lubienia-atrakcji.

Rysunek 2 pokazuje, że generalnie różnica wysokości dla kobiet wysyłających wiadomości do mężczyzn (większość to 12 cm) są większe niż dla mężczyzn wysyłających wiadomości do kobiet (większość to 10 cm) przy wyborze potencjalnych kolegów. W Chinach dla mężczyzn idealną różnicą wzrostu jest to, że są o 10 cm wyżsi od osoby, do której wysyłają wiadomość, natomiast dla kobiet idealną różnicą wzrostu jest to, że są o 12 cm niższe od osoby, do której wysyłają wiadomość. Według danych z osobistych ogłoszeń randkowych Yahoo!, dla użytkowników w USA wzrost również ma znaczenie przy randkowaniu, szczególnie dla kobiet. Na Rys. 2 widać, że zakres różnic wzrostu dla kobiet jest mniejszy niż dla mężczyzn: minimalny wzrost akceptowany przez kobiety to taki, że mężczyźni są od nich niżsi o 3 cm, a maksymalny akceptowany przez nie wzrost to taki, że mężczyźni są od nich wyżsi o 30 cm, podczas gdy minimalny wzrost akceptowany przez mężczyzn to taki, że kobiety są od nich niższe o 13 cm, a maksymalny akceptowany przez nich wzrost to taki, że kobiety są od nich wyższe o 32 cm. Kobiety wykazują cechę lubienia-atrakcji w zakresie preferencji co do wzrostu. Podobnie jak w przypadku wieku, użytkownicy szukają potencjalnych partnerów z mniejszą różnicą wzrostu niż przewidywana przez losowy dobór, chociaż różnica nie jest tak oczywista jak różnica wieku.

Warto zauważyć, że w serwisie randkowym, charakterystyka użytkowników jest podawana samodzielnie. Dla względów zarządzania wrażeniem , użytkownicy mogą wyolbrzymiać swoje cechy osobowe . Na przykład, ostatnie badania na temat online self-reported wysokość przeciwko obiektywnie mierzone dane w młodych australijskich dorosłych ujawniły, że self-reported wysokość jest znacznie zawyżona o średnio 1,79 cm dla mężczyzn i 1,29 cm dla kobiet . Mężczyźni kłamią więcej niż kobiety na temat swojego wzrostu, co stwierdzono również u internetowych randkowiczów z Nowego Jorku. Zauważamy, że wydaje się, że użytkownicy nie podawali dokładnie swojego wzrostu fizycznego w serwisie randkowym. W zbiorze danych, średnia wysokość kobiet i mężczyzn wynosi odpowiednio 161.99 cm (\u2009=4.18) i 173.08 cm (\u2009=4.68). Jednak w rzeczywistym świecie średni wzrost dorosłych kobiet i mężczyzn w Chinach wynosi odpowiednio 160,88 cm i 169,00 cm, co oznacza, że użytkownicy mogą zawyżać swój wzrost o średnio 1,11 cm i 4,08 cm. Po skorygowaniu tych danych stwierdzamy, że rzeczywiste różnice wzrostu ∙(10-(4,08-1,11) = 7,03 cm) dla mężczyzn i ∙(12-(4,08-1,11) = 9,03 cm) dla kobiet byłyby znaczące. Jednakże zauważamy również, że w serwisie randkowym średni wiek użytkowników płci męskiej i żeńskiej wynosi odpowiednio 28,73 i 28,58 lat, podczas gdy w ogólnej populacji dorosłych w Chinach średni wiek mężczyzn i kobiet wynosi odpowiednio 40,56 i 41,01 lat, zgodnie z danymi spisu ludności. Populacja randkowiczów jest młodsza niż ogólna populacja dorosłych, a zatem jest prawdopodobnie wyższa, a użytkownicy nie mogą przesadzać ze swoim wzrostem o tyle, ile zostało obliczone.

Preferencje atrybutów

Gdy użytkownik wysyła wiadomość do innego użytkownika, jego wybór odbiorcy może nie być przypadkowy, ale raczej ma pewne preferencje dotyczące pewnych atrybutów, takich jak preferencje dotyczące zatrudnienia, wykształcenia, dochodów i tak dalej. Aby scharakteryzować preferencje nadawcy z atrybutem i w stosunku do odbiorcy z atrybutem j, niech \(m_{ij}}będzie liczbą wiadomości wysłanych od użytkowników z atrybutem i do użytkowników z atrybutem j, \(m_{i}} oznacza całkowitą liczbę wiadomości wysłanych od użytkowników z atrybutem i, \(n_{j}} oznacza liczbę odbiorców z atrybutem j, a n oznacza całkowitą liczbę odbiorców, wówczas preferencja atrybutu wynosi \(p_{ij} = m_{ij} /m_{i} – n_{j} /n\). \(p_{ij}>0\) oznacza, że w porównaniu z losowym wyborem, nadawcy z atrybutem i mają preferencję dla odbiorców z atrybutem j, \(p_{ij}=0\) oznacza brak preferencji, a \(p_{ij}<0\) oznacza negatywną preferencję, tzn. Preferencje dotyczące zatrudnienia pokazane są na rys. 3 i 4 (zob. tabele 1 i 2 w pliku dodatkowym 1 dla znaczenia atrybutów oraz liczby i proporcji mężczyzn/kobiet dla każdego zatrudnienia). Stwierdziliśmy, że w porównaniu z mężczyznami wysyłającymi wiadomości do kobiet, gdy kobiety wysyłają wiadomości do mężczyzn, istnieje silniejsza preferencja dla zatrudnienia ich potencjalnych kolegów. Na Rys. 3 widzimy, że kobiety będące studentkami, księgowymi, nauczycielkami lub wykonujące inne nieskategoryzowane zawody nie są preferowane przez mężczyzn, natomiast kobiety zajmujące się projektowaniem są nieco popularniejsze pod względem względnej ilości otrzymywanych wiadomości, szczególnie w przypadku mężczyzn z branży usług lotniczych. Jednocześnie stwierdzamy, że w tych danych mężczyźni zajmujący się prowadzeniem domu wysyłają wiadomości tylko do kobiet zajmujących się księgowością, a mężczyźni zajmujący się tłumaczeniami wysyłają wiadomości tylko do kobiet, które są prywatnymi właścicielami, co może wynikać z małej próby zachowań użytkowników w odniesieniu do tych atrybutów.

Wykres 3

Preferencje zawodowe użytkowników płci męskiej wysyłających wiadomości do użytkowników płci żeńskiej. Na osi pionowej zaznaczono zawody męskie, a na osi poziomej zawody kobiece. Wartości preferencji są reprezentowane przez różne kolory

Rysunek 4

Preferencje zatrudnienia dla użytkowników płci żeńskiej wysyłających wiadomości do użytkowników płci męskiej. Na osi pionowej zaznaczono zawody kobiece, a na osi poziomej zawody męskie. Wartości preferencji reprezentowane są przez różne kolory

Z rys. 4 wynika, że najpopularniejsze zawody dla mężczyzn to wyższa kadra zarządzająca, finanse, edukacja i prywatni właściciele. Większość osób w tych czterech zawodach ma wysokie dochody lub jest dobrze wykształcona. Mało popularni użytkownicy płci męskiej to uczniowie, sprzedawcy i osoby wykonujące inne nieskategoryzowane zawody. W tym samym czasie, kobiety zaangażowane w przemysł chemiczny mają tendencję do poszukiwania mężczyzn zaangażowanych w edukację i szkolenia, kobiety zaangażowane w sport mają tendencję do poszukiwania mężczyzn, którzy są prywatnymi właścicielami, a kobiety zaangażowane w policję wysyłają wiadomości tylko do mężczyzn zaangażowanych w finanse i nieruchomości w tych danych, co może być również przypisane do małej wielkości próby zachowań użytkowników w odniesieniu do tych atrybutów.

Poziomy wykształcenia mają znaczący wpływ na kojarzenie i małżeństwo . Preferencje dotyczące poziomu wykształcenia są pokazane na Rys. 5 i 6 (zobacz Tabele 3 i 4 w Dodatkowym pliku 1 dla znaczenia atrybutów oraz liczby i proporcji mężczyzn/kobiet dla każdego poziomu wykształcenia). W Chinach, podobnie jak w innych krajach, postdoctor również odnosi się raczej do stanowiska niż do osiągnięcia edukacyjnego. Jednak na wielu chińskich stronach internetowych, gdy użytkownik się rejestruje, postdoktor jest również uważany za poziom wykształcenia wykraczający poza uzyskanie tytułu doktora. Podobnie zauważamy, że w porównaniu z mężczyznami wysyłającymi wiadomości do kobiet, gdy kobiety wysyłają wiadomości do mężczyzn, istnieje silniejsza preferencja dotycząca poziomu wykształcenia ich potencjalnych partnerów. Wykres 5 pokazuje, że mężczyźni, których poziom wykształcenia jest niższy niż licencjat, szukają kobiet o takich samych lub niższych kwalifikacjach, mężczyźni z wykształceniem wyższym niż licencjat, ale niższym niż doktorat szukają kobiet z licencjatem, a mężczyźni z doktoratem lub habilitacją szukają kobiet z dyplomem. Jeśli chodzi o preferencje dotyczące poziomu wykształcenia, to generalnie mężczyźni wykazują cechę „lubię – przyciągam”. W przypadku kobiet wysyłających wiadomości do mężczyzn, rys. 6 pokazuje, że mężczyźni z dyplomem licencjata i magistra są popularni, przy czym dla większości kobiet bardziej popularni są mężczyźni z dyplomem licencjata, natomiast kobiety z dyplomem magistra częściej szukają potencjalnych partnerów z dyplomem magistra. Jeśli chodzi o preferencje dotyczące poziomu wykształcenia, to generalnie kobiety wykazują cechę atrakcyjności potencjalnej. Badania na niemieckim portalu randkowym ujawniły, że preferencje dotyczące podobnego wykształcenia wzrastają wraz z poziomem wykształcenia. Kobiety niechętnie komunikują się z mężczyznami o niższym poziomie wykształcenia, natomiast nie ma barier dla mężczyzn w kontaktach z kobietami o niższym wykształceniu.

Wykres 5

Preferencje poziomu wykształcenia użytkowników płci męskiej wysyłających wiadomości do użytkowników płci żeńskiej. Na osi pionowej zaznaczono poziom wykształcenia mężczyzn, a na osi poziomej poziom wykształcenia kobiet. Wartości preferencji są reprezentowane przez różne kolory

Rysunek 6

Preferencje poziomu wykształcenia dla użytkowników płci żeńskiej wysyłających wiadomości do użytkowników płci męskiej. Na osi pionowej zaznaczono poziom wykształcenia kobiet, a na osi poziomej poziom wykształcenia mężczyzn. Wartości preferencji są reprezentowane przez różne kolory. Habilitantki nie wysyłały żadnych wiadomości do mężczyzn w zbiorze danych, więc ustawiliśmy elementy w odpowiednim wierszu na 0

Poziom wykształcenia i dochód są dwoma ważnymi wskaźnikami statusu społecznego i ekonomicznego osoby. Na rysunkach 7 i 8 (patrz tabele 5 i 6 w pliku dodatkowym 1 dla znaczenia atrybutów oraz liczby i proporcji mężczyzn/kobiet dla każdego poziomu dochodów) widzimy, że jeśli chodzi o poziomy dochodów, istnieje mniej oczywista preferencja w wyborze potencjalnego partnera dla użytkowników płci męskiej w porównaniu z żeńską. Z jednej strony, jak pokazano na Rys. 7, wszyscy mężczyźni oczywiście preferują kobiety, których miesięczny dochód wynosi od 5000 RMB do 10 000 RMB (RMB jest chińską walutą, a 1 RMB = 0,145 dolara = 0,128 euro), podczas gdy kobiety, których dochód jest niższy niż 2000 RMB są oczywiście wykluczone. Jednak mężczyźni nie wykazują oczywistych preferencji lub wykluczenia w stosunku do kobiet, których dochód wynosi powyżej 10 000 RMB. Z drugiej strony, jak pokazano na Rys. 8, wszystkie kobiety nie lubią mężczyzn, którzy zarabiają mniej niż 5000 RMB, a mężczyźni, którzy zarabiają od 10 000 RMB do 20 000 RMB są najbardziej popularni. Jeśli chodzi o preferencje dotyczące poziomu dochodów, generalnie kobiety również wykazują cechy potencjału-atrakcji. Eksperyment terenowy na chińskiej stronie randkowej online odkrył, że mężczyźni odwiedzili profile kobiet o różnych dochodach z mniej więcej takich samych stawek, podczas gdy dla kobiet, wyższe dochody mężczyzn są, tym większe stawki odwiedzania ich profili będzie , co różni się od naszych ustaleń.

Wykres 7

Preferencje poziomów miesięcznych dochodów dla użytkowników płci męskiej wysyłających wiadomości do użytkowniczek płci żeńskiej. Na osi pionowej zaznaczono poziom dochodów mężczyzn, a na osi poziomej poziom dochodów kobiet. Wartości preferencji są reprezentowane przez różne kolory

Rysunek 8

Preferencje dotyczące poziomów miesięcznych dochodów dla użytkowników płci żeńskiej wysyłających wiadomości do użytkowników płci męskiej. Na osi pionowej zaznaczono poziom dochodów kobiet, a na osi poziomej poziom dochodów mężczyzn. Wartości preferencji są reprezentowane przez różne kolory

Klasyfikacja regresji logistycznej

Wyniki zgodności

Na osobistych stronach domowych użytkowników, każdy użytkownik przedstawił wymagania wobec potencjalnych kolegów, w tym wymagania dotyczące 7 atrybutów, tj.wieku, awatara, poziomu wykształcenia, wzrostu, ratingu kredytowego, miejsca zamieszkania i stanu cywilnego (zobacz Rys. 1-4 w Dodatkowym pliku 1 dla wymagań wyboru kilku atrybutów). Jeśli chodzi o ocenę kredytową, na portalu randkowym, po tym jak użytkownik przejdzie szybkie uwierzytelnienie tożsamości lub załaduje jeden z trzech dokumentów (dowód osobisty, paszport lub kartę Hongkongu i Makao) i przejdzie przegląd, otrzyma pierwszą gwiazdkę, tj. ocenę kredytową równą 1. Na podstawie pierwszej gwiazdki, za każdym razem, gdy nowy dokument zostanie przesłany i zatwierdzony, można dodać dodatkową gwiazdkę lub ocenę (aż do pięciu gwiazdek, tj. pięciogwiazdkowego członka). Poza tym, mimo że na platformie minimalny wiek użytkowników wynosi 18 lat, nadal jest bardzo niewielu użytkowników, którzy ustalają swoje wymagania dotyczące minimalnego lub maksymalnego wieku poniżej 18 lat (patrz rys. 3 w pliku dodatkowym 1 w celu uzyskania szczegółowych informacji). Stosujemy koncepcję wyniku zgodności, aby opisać dopasowanie pomiędzy użytkownikami na podstawie tego, czy użytkownik spełnia lub nie spełnia wymagania dotyczące wyboru innego użytkownika. Gdy kobiety wysyłają wiadomości do mężczyzn, dla każdej wiadomości i dla każdego atrybutu możemy uzyskać proporcję kobiet, które odpowiadają preferencjom mężczyzn w zakresie kojarzenia oraz proporcję mężczyzn, którzy odpowiadają preferencjom kobiet, tj. możemy otrzymać dwa wektory zawierające 7 proporcji. Zgodnie z danymi otrzymujemy \(\mathbf{w}_{mathrm{FMm}}= (0.701,0.886,0.462,0.826,0.919,0.786,0.920)\), oraz \(\mathbf{w}_{mathrm{FMf}}=(0.912,0.976,0.681,0.962,0.994,0.864,0.912)\), gdzie \(\mathbf{w}_{mathrm{FMm}}) to proporcje atrybutów kobiecych odpowiadających preferencjom męskim, a \(\mathbf{w}_{mathrm{FMf}}) to proporcje atrybutów męskich zgodnych z preferencjami kobiecymi. Podobnie, gdy mężczyźni wysyłają wiadomości do kobiet, otrzymujemy \(\mathbf{w}_{mathrm{MFm}}=(0.877,0.977,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). Zatem wyniki zgodności kobiet wysyłających wiadomości do mężczyzn wynoszą

$$begin{aligned}& c_{mathrm{FMm}} = \frac{mathbf{w}_{mathrm{FMm}} \cdot { (\textrm{kobieta attr. w męskim pref.})}}{ { {operatorname{sum}(\mathbf{w}_{mathrm{FM}} )}}, \end{aligned}$$
(1)

$$begin{aligned}& c_{mathrm{FMf}} = \frac{mathbf{w}_{mathrm{FM}} \cdot (\textrm{male attr. in female pref.)}{ { {operatorname{sum}(\mathbf{w}_{mathrm{FMf} )}}, \end{aligned}$$
(2)

a wyniki zgodności mężczyzn wysyłających wiadomości do kobiet wynoszą

$$$begin{aligned}& c_{mathrm{MFm}} = \frac{mathbf{w}_{mathrm{MFm}} \cdot (\textrm{kobiecy attr. w męskim pref.})}{ { {operatorname{sum}(\mathbf{w}_{mathrm{MFm}} )}}, \end{aligned}$$
(3)

$${begin{aligned}& c_{mathrm{MFf}} = \frac{mathbf{w}_{mathrm{MFf}} \cdot (\textrm{male attr. in female pref.})}{ { {operatorname{sum}(\mathbf{w}_{mathrm{MFf}} )}}, \end{aligned}$$
(4)

gdzie (female attr. in male pref.) to wektor charakteryzujący, czy atrybuty żeńskie spełniają preferencje męskie dla pary użytkowników (1 dla tak i 0 dla nie), i analogicznie (male attr. in female pref.) to wektor charakteryzujący, czy atrybuty męskie spełniają preferencje żeńskie dla pary użytkowników. Równania 1 i 3 są punktami zgodności między preferencjami mężczyzny a profilem jego wybranej partnerki, a równania 2 i 4 są punktami zgodności między preferencjami kobiety a profilem jej wybranej partnerki. Dla pary użytkowników, \(u_{a}} i \(u_{b}}, używamy wyniku, tj. wyniku wzajemnego, aby określić jak bardzo atrybuty \(u_{b}} pasują do preferencji \(u_{a}} i jak bardzo atrybuty \(u_{a}} pasują do preferencji \(u_{b}}). Wynik wzajemności między \u_{a}} i \u_{b}} jest średnią wyników zgodności tych dwóch użytkowników, tzn, dla kobiet wysyłających wiadomości do mężczyzn wynik wzajemności wynosi \(\mathit{rs} = (c_{mathrm {FMm}} + c_{mathrm{FMf}} )/2}), a dla mężczyzn wysyłających wiadomości do kobiet \(\mathit{rs} = (c_{mathrm{MFm}} + c_{mathrm{MFf} )/2}).

Regresja logistyczna

Niech click oznacza liczbę kliknięć użytkownika, msg oznacza liczbę wiadomości otrzymanych przez użytkownika, a rec oznacza liczbę razy, kiedy użytkownik jest polecany i pokazywany na stronach głównych innych użytkowników, definiujemy \(\mathit{pop}_{1} = \mathit{click}/ \mathit{rec}}) oraz \(\mathit{pop}_{2} = \mathit{msg}/ \mathit{rec}}), które mogą charakteryzować popularność użytkownika w oparciu o działania. Używamy również PageRank centrality (\(\mathit{pop}_{3}}), aby określić, jak centralny lub popularny jest użytkownik w sieci, biorąc pod uwagę wszystkie połączenia w sieci. Osoby atrakcyjne, takie jak osoby o korzystnych cechach demograficznych i wyższym statusie społeczno-ekonomicznym, są zazwyczaj bardziej wymagające niż osoby przeciętne, jeśli chodzi o wybór potencjalnego partnera, co można wykazać w analizie preferencji dotyczących dochodu i poziomu wykształcenia w podrozdziale 3.1.2. 3.1.2. Osoby, które są postrzegane jako atrakcyjne przez osoby atrakcyjne, mogą być jeszcze bardziej popularne/atrakcyjne. Użyte w pracy zmienne i ich znaczenia przedstawiono w tabeli 1.

Tabela 1 Zmienne i odpowiadające im znaczenia

Wprowadzamy kilka indeksów centralności, takich jak \mathit{pop}_{1}, \mathit{pop}_{2}}, \mathit{pop}_{3}}, i indegree, aby ocenić ich korelację z zachowaniami związanymi z przesyłaniem wiadomości. Warto zauważyć, że indeksy centralności są zagregowanymi wskaźnikami opisującymi pożądanie lub popularność użytkowników, a użytkownicy nie znają swoich indeksów, ani indeksów innych osób. Używamy outdegree, aby scharakteryzować poziom aktywności użytkowników, a w serwisie randkowym, użytkownicy również nie znają outdegree innych użytkowników. W rzeczywistości, zamiast używać indeksów do identyfikacji lub wyboru atrakcyjnych partnerów, użytkownicy będą wysyłać sobie wiadomości na podstawie bardziej szczegółowych wskazówek, takich jak wyższe dochody, lepsze wykształcenie, atrakcyjne zdjęcia lub dobra kompatybilność demograficzna i społeczno-ekonomiczna. W artykule ocenimy, czy wskaźniki są istotnie związane z zachowaniami związanymi z wysyłaniem wiadomości.

Załóżmy, że \(p_{i}} jest prawdopodobieństwem wysyłania wiadomości dla użytkownika i, \(1-p_{i}} jest prawdopodobieństwem niewysyłania wiadomości, wtedy \(L_{f_{i}}= \ln(\frac{p_{i}}{1-p_{i}})\), tj, dla wszystkich kobiet, \(L_{f}= \ln(\frac{p}{1-p})\). Podobnie, załóżmy, że \(q_{j}} jest prawdopodobieństwem wysłania wiadomości dla użytkownika płci męskiej i, \(1-q_{j}} jest prawdopodobieństwem niewysłania wiadomości, wtedy \(L_{m_{j}}= \ln (\frac{q_{j}}{1-q_{j}})\), tzn, dla wszystkich mężczyzn, \(L_{m}= \ln(\frac{q}{1-q})\). Modele regresji logistycznej otrzymujemy w następujący sposób:

$$begin{aligned}& L_{f} = ≥alfa _{1} + {{boldsymbol{beta} }_{1} \\\ {\i0} + \varepsilon _{mathrm{1}}, \end{aligned}$$
(5)

$$$begin{aligned}& L_{m} = \alpha _{2} + {{boldsymbol{beta }}_{2} \\\ {\i0} + \varepsilon {{mathrm{2}}. \end{aligned}$$
(6)

W tym badaniu przeprowadzono testy wieloliniowości, aby znaleźć zmienne niezależne, wśród których współczynniki korelacji są mniejsze niż 0,5 (patrz tabele 7 i 8 w pliku dodatkowym 1 dla szczegółów). Wyniki regresji logistycznej dla kobiet wysyłających wiadomości do mężczyzn przedstawiono w tabeli 2. Stwierdzamy, że prawie wszystkie zmienne są istotne, gdy bierzemy pod uwagę tylko atrybuty kobiet (model 1), tj. atrybuty nadawców, ale tylko mieszkanie i stopień naukowy kobiet są pozytywnie związane z prawdopodobieństwem wysyłania wiadomości przez kobiety do mężczyzn. W przypadku uwzględniania tylko atrybutów mężczyzn (model 2), z wyjątkiem weryfikacji męskiego telefonu komórkowego i zdolności kredytowej, wszystkie pozostałe są istotne i pozytywnie związane z prawdopodobieństwem wysyłania wiadomości przez kobiety. Jeśli wziąć pod uwagę atrybuty obu stron i wyniki zgodności (model 3), wśród istotnych zmiennych weryfikacja telefonu komórkowego przez kobietę, posiadanie samochodu, zdolność kredytowa i poziom popularności (\(\mathit{pop}_{1}\) i \(\mathit{pop}_{3}\)) są negatywnie związane z prawdopodobieństwem wysyłania wiadomości przez kobiety, podczas gdy pozostałe zmienne są związane pozytywnie. Stwierdzamy, że kiedy kobiety wysyłają wiadomości do mężczyzn, zależy im nie tylko na tym, czy spełniają wymagania mężczyzn, ale także czy mężczyźni spełniają ich własne wymagania.

Tabela 2 Wyniki regresji logistycznej dla użytkowników płci żeńskiej wysyłających wiadomości do użytkowników płci męskiej

Wyniki regresji logistycznej dla mężczyzn wysyłających wiadomości do kobiet są przedstawione w Tabeli 3. Stwierdzamy, że gdy brane są pod uwagę tylko atrybuty kobiece (model 1), z wyjątkiem weryfikacji telefonu komórkowego, zdolności kredytowej i stopnia naukowego, wszystkie pozostałe zmienne są istotne, ale tylko własność domu kobiety wpływa na prawdopodobieństwo wysyłania wiadomości przez mężczyzn w sposób negatywny. When only male attributes are considered (model 2), all the variables are significant but only male outdegree is positively correlated with messaging behaviors, others negatively correlated. Przy uwzględnieniu wszystkich zmiennych (model 3), z wyjątkiem ratingu kredytowego kobiet, stopnia pokrewieństwa i wyniku zgodności między preferencjami kobiet a profilem odpowiadającej im drugiej strony, wszystkie pozostałe zmienne są istotne. Wśród istotnych zmiennych, weryfikacja telefonu komórkowego przez kobietę, posiadanie samochodu, popularność (\(\mathit{pop}_{1}\), \(\mathit{pop}_{2}\) i \(\mathit{pop}_{3}\)), stopień wyprzedania mężczyzny i wynik zgodności między preferencjami mężczyzny a profilem odpowiadającej mu drugiej strony są pozytywnie skorelowane z zachowaniami związanymi z przesyłaniem wiadomości, podczas gdy wszystkie pozostałe zmienne są skorelowane negatywnie. Ponadto, analizując znaczenie dwóch wyników zgodności, stwierdzamy, że mężczyźni zwracają uwagę tylko na to, czy kobiety spełniają ich własne wymagania podczas wysyłania wiadomości do kobiet.

Tabela 3 Wyniki regresji logistycznej dla użytkowników płci męskiej wysyłających wiadomości do użytkowników płci żeńskiej

Jak widać z Tabel 2 i 3, dla mężczyzn lub kobiet wysyłających wiadomości, popularność drugiej strony jest znacząco pozytywnie związana z zachowaniami związanymi z wysyłaniem wiadomości. Z jednej strony, wartości \(\mathit{pop}_{1}) i \(\mathit{pop}_{2}}), zgodnie z ich metodą obliczania, reprezentują lokalną popularność użytkownika. Z drugiej strony, wartość \(\mathit{pop}_{3}), czyli PageRank, reprezentuje popularność użytkownika z perspektywy globalnej.

Dla kobiet wysyłających wiadomości do mężczyzn, \(\exp (0.390) = 1.477) dla mężczyzn \(\mathit{pop}_{1}) jest większa niż \(\exp (0.146) = 1.157) dla mężczyzn \(\mathit{pop}_{3}), a dla mężczyzn wysyłających wiadomości do kobiet \(\exp (0.462) = 1.587) dla kobiet \(\mathit{pop}_{1}) jest również większe niż \(\exp (0.141) = 1.151) dla kobiet \(\mathit{pop}_{3}). Ponadto, gdy kobiety wysyłają wiadomości do mężczyzn, \(\exp (0,390) = 1,477) dla męskiego \(\mathit{pop}_{1}}jest mniejsze niż \(\exp (0,462) = 1. Jednakże, gdy samice wysyłają wiadomości do samców, \(\exp (0,146) = 1,157) dla samców \(\mathit{pop}_{3}) jest większe niż \(\exp (0,141) = 1.

W Chinach, posiadanie mieszkania i samochodu jest symbolem bogactwa osoby i statusu społecznego, a w niektórych regionach, stały się one koniecznością do zawarcia małżeństwa. Kiedy kobiety wysyłają wiadomości do mężczyzn, ważne jest dla mężczyzn, aby mieć dom i samochód. Kiedy mężczyźni wysyłają wiadomości do kobiet, nie jest ważne, aby kobiety posiadały dom, ale jest nieco ważne, aby kobiety posiadały samochód. Pozornie wysoka aktywność oznacza kontaktowanie się z wieloma innymi użytkownikami, jednak zasadniczo może sugerować, że użytkownicy inwestują więcej czasu i zasobów w próby znalezienia potencjalnych partnerów. Outdegree jest atrybutem różnym dla kobiet i mężczyzn. Kiedy kobieta wysyła wiadomość do mężczyzny, outdegree drugiej strony jest istotnie pozytywnie związane z zachowaniem komunikatora, podczas gdy nie jest tak, gdy mężczyzna wysyła wiadomość do kobiety. Kiedy kobiety wysyłają wiadomości do mężczyzn, sieciowe miary popularności i aktywności mężczyzn, z którymi się kontaktują, są istotnie pozytywnie związane z ich zachowaniami w zakresie przesyłania wiadomości, ale kiedy mężczyźni wysyłają wiadomości do kobiet, tylko sieciowe miary popularności kobiet, z którymi się kontaktują, są istotnie pozytywnie związane z ich zachowaniami w zakresie przesyłania wiadomości.

Ensemble learning classification

Z nadejściem ery big data, metody klasyfikacji ensemble learning zostały stopniowo wprowadzone do dziedziny badań sieci społecznych. Już w 1996 roku Breiman zaproponował metodę bagging , a pięć lat później zaproponował metodę Random Forest . Freund zaproponował metodę AdaBoost w 1997 roku , a wraz z ciągłym doskonaleniem klasyfikatorów uczenia maszynowego, w 2016 roku Chen et al. zaproponował klasyfikator-XGBoost , który może znacznie poprawić wydajność i dokładność algorytmu w niektórych przypadkach. Jako aplikacja, ostatnio Reece et al. zastosowali już narzędzia uczenia maszynowego do identyfikacji depresji ze zdjęć Instagram .

Analiza regresji często ma pewne wymagania dotyczące zmiennych niezależnych, takich jak brak wieloliniowości, jednak metody klasyfikacji uczenia zespołowego rozluźniają ograniczenia dotyczące zmiennych niezależnych. W tym rozdziale, metody klasyfikacji uczenia zespołowego, w tym bagging, Random Forest, AdaBoost i XGBoost są wykorzystywane do oceny ważności każdego atrybutu w tabeli 1. Używamy pakietu 'adabag’ w oprogramowaniu R do wykonania metod AdaBoost i bagging, pakietu 'randomForest’ do wykonania metody Random Forest oraz pakietu 'xgboost’ do wykonania metody XGBoost. Dla zbioru danych, 5-krotna walidacja krzyżowa jest używana do oceny wydajności klasyfikatorów, a parametry algorytmu są tak dobrane, aby uzyskać stabilny poziom błędu. Liczby wysyłanych i niewysyłanych wiadomości są niezrównoważone w zbiorze danych, a większy zbiór jest podpróbkowany losowo w celu uzyskania zbioru o takim samym rozmiarze jak mniejszy.

Stopy błędów czterech metod klasyfikacji uczenia zespołowego są pokazane w Tabeli 4. Stwierdzamy, że stopy błędów Random Forest i AdaBoost są najniższe dla kobiet wysyłających wiadomości do mężczyzn, podczas gdy XGBoost jest najniższy dla mężczyzn wysyłających wiadomości do kobiet. Ranking ważności atrybutów został przedstawiony na rysunkach 9 i 10. Rys. 9 pokazuje, że gdy kobiety wysyłają wiadomości do mężczyzn, trzema najważniejszymi atrybutami są wartości \mathit{pop}_{3} i \mathit{pop}_{1} dla mężczyzn oraz outdegree dla kobiet. Podobnie na rys. 10 widać, że gdy mężczyźni wysyłają wiadomości do kobiet, trzema najważniejszymi atrybutami są wartości \(\mathit{pop}_{3}} i \(\mathit{pop}_{1}} dla kobiet oraz stopień przewyższenia dla mężczyzn. Najważniejszymi czynnikami predykcyjnymi decyzji o wysyłaniu wiadomości zarówno wśród kobiet, jak i mężczyzn są wartości \(\mathit{pop}_{3}\) i \(\mathit{pop}_{1}\) reprezentujące popularność potencjalnych partnerów, które są również istotnie pozytywnie związane z zachowaniami związanymi z wysyłaniem wiadomości w regresji logistycznej.

Wykres 9

Rangi względnej ważności atrybutów, gdy kobiety wysyłają wiadomości do mężczyzn dla różnych metod klasyfikacji. Na osi poziomej zaznaczono atrybuty, a na osi pionowej odpowiadające im znaczenie. W przypadku metod Bagging, Random Forest i AdaBoost względne znaczenie każdej zmiennej w zadaniu klasyfikacji jest mierzone za pomocą indeksu Giniego, a w przypadku XGBoost względne znaczenie jest mierzone za pomocą parametru Gain

Rysunek 10

Rangi względnego znaczenia atrybutów, gdy mężczyźni wysyłają wiadomości do kobiet, dla różnych metod klasyfikacji. Na osi poziomej zaznaczono atrybuty, a na osi pionowej odpowiadające im znaczenie. W przypadku metod bagging, Random Forest i AdaBoost względne znaczenie każdej zmiennej w zadaniu klasyfikacji jest mierzone za pomocą wskaźnika Giniego, a w przypadku XGBoost względne znaczenie jest mierzone za pomocą parametru Gain

Tabela 4 Wskaźniki błędów przy użyciu metod klasyfikacji opartych na uczeniu zespołowym

Cel klasyfikacji opartej na uczeniu zespołowym różni się od analizy regresji logistycznej. Jak wynika z rys. 9 i 10, wskaźniki centralności rzeczywiście wykazują przeważające znaczenie, a pozostałe zmienne wykazują względny brak mocy predykcyjnej. Jednak to nie znaczy, że inne zmienne są bezużyteczne, i nadal mogą być znacząco związane z zachowaniami użytkowników wiadomości w regresji logistycznej.

Strategiczna analiza zachowania

Koncepcja strategicznego zachowania wywodzi się z ekonomii, gdzie oryginalna implikacja jest taka, że firmy podejmują działania, które wpływają na środowisko rynkowe, aby zwiększyć zyski (odnosząc się do wskaźnika odpowiedzi na wiadomości w tym badaniu), który jest następnie rozszerzony na problemy dopasowania, takie jak dopasowanie kolegi.

W naszych badaniach, strategiczne zachowanie odnosi się do tego, czy użytkownik wyśle wiadomość do innego użytkownika zależy od tego, czy jego decyzja może zwiększyć prawdopodobieństwo odpowiedzi wiadomości. Ponieważ bez danych odpowiedzi użytkownika, chcielibyśmy użyć wskaźników centralności charakteryzujących popularność użytkownika, aby przeanalizować, czy użytkownicy mają tendencję do wysyłania wiadomości do osób, które są bardziej popularne niż oni sami lub do tych, którzy są mniej popularni. Badamy strategiczne zachowania użytkowników poprzez analizę korelacji pomiędzy wskaźnikami centralności. Wygładzone krzywe dopasowania dla korelacji z uogólnionym modelem addytywnym pokazują, że istnieje nieliniowa lub przybliżona liniowa zależność pomiędzy wskaźnikami centralności użytkowników (szczegóły na rys. 5 i 6 w pliku dodatkowym 1), dlatego do scharakteryzowania korelacji używamy współczynnika korelacji Spearmana. Jak pokazano w tabelach 5 i 6, stwierdzamy, że w serwisie randkowym mężczyźni i kobiety wykazują różne wzorce zachowań w wysyłaniu wiadomości pomimo obniżonego kosztu odrzucenia w środowisku sieciowym. Dla mężczyzn wysyłających wiadomości do kobiet istnieją słabe dodatnie korelacje między wskaźnikami centralności, które można scharakteryzować małymi dodatnimi i znaczącymi współczynnikami korelacji, natomiast dla kobiet wysyłających wiadomości do mężczyzn istnieją słabe lub umiarkowane dodatnie korelacje między wskaźnikami centralności, które można scharakteryzować małymi lub nieco większymi dodatnimi i znaczącymi współczynnikami korelacji. Mężczyźni nie wykazują w dużym stopniu zachowań strategicznych przy wysyłaniu wiadomości, natomiast w przypadku kobiet, wraz ze wzrostem ich wskaźników centralności, mogą wzrastać również odpowiednie wskaźniki mężczyzn, którzy otrzymali ich wiadomości.

Tabela 5 Współczynniki korelacji Spearmana pomiędzy wskaźnikami centralności, gdy kobiety wysyłają wiadomości do mężczyzn
Tabela 6 Współczynniki korelacji Spearmana pomiędzy wskaźnikami centralności, gdy mężczyźni wysyłają wiadomości do kobiet

Badając korelacje pomiędzy tymi samymi parami wskaźników centralności dla użytkowników, dalej analizujemy, czy użytkownicy mają tendencję do wysyłania wiadomości do ludzi, którzy są bardziej popularni od nich samych, czy do tych, którzy są mniej popularni. Dla każdego indeksu centralności nadawców, podajemy średnią i odchylenie standardowe odpowiadających im indeksów odbiorców oraz proporcję indeksów centralności odbiorców, które są większe niż indeksy nadawców na rysunkach 7 i 8 w pliku dodatkowym 1. Dla każdego wskaźnika centralności w tabeli 7 przedstawiono odsetek wskaźników centralności odbiorców, które są większe od wskaźników centralności nadawców podczas wysyłania wiadomości. Dla porównania podajemy również wyniki randomizowane. W porównaniu z mężczyznami, więcej kobiet ma tendencję do wysyłania wiadomości do osób, które są bardziej popularne od nich samych.

Tabela 7 Proporcje wskaźników centralności odbiorców, które są większe niż wskaźniki centralności nadawców podczas wysyłania wiadomości

Było kilka badań na temat strategicznych zachowań użytkowników w randkach internetowych. Niektóre badania wykazały znaczącą pozytywną korelację pomiędzy popularnością użytkowników płci męskiej i żeńskiej. Na przykład, badania Taylor et al. na użytkownikach z USA wykazały, że mają oni tendencję do wybierania i bycia wybieranymi przez innych użytkowników, których względna popularność jest podobna do ich własnej, chociaż niekoniecznie oznacza to wyższy wskaźnik sukcesu, tj. otrzymywanie większej liczby odpowiedzi. Niedawna analiza empiryczna użytkowników w czterech miastach USA z internetowego serwisu randkowego wykorzystała PageRank do scharakteryzowania ich pożądliwości i wykazała, że zarówno mężczyźni, jak i kobiety wysyłali wiadomości do partnerów, którzy są średnio o 25% bardziej pożądani niż oni sami. Istnieją jednak również badania, które nie znalazły korelacji pomiędzy popularnością użytkowników. Na przykład, badania nad użytkownikami w Bostonie i San Diego nie znalazły dowodów na strategiczne zachowania. Inne badanie dotyczące danych z randek internetowych w średniej wielkości południowo-zachodnim mieście w USA wykazało, że niezależnie od ich własnych poziomów pożądania, które charakteryzują atrakcyjność fizyczną, popularność, osobowość i zasoby materialne użytkowników, zarówno mężczyźni, jak i kobiety mają tendencję do wysyłania wiadomości do najbardziej pożądanych społecznie użytkowników. Stwierdziliśmy, że użytkownicy na różnych platformach lub w różnych kontekstach kulturowych mają różne zachowania strategiczne, a mechanizmy leżące u ich podstaw nadal wymagają dalszego zbadania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.