ユーザーの個人ホームページでは、各ユーザーが潜在的なパートナーに対する要求を示している。年齢、アバター、教育レベル、身長、信用度、居住地、配偶者の有無である(各属性の選択条件は、Additional file 1の図1-4を参照)。 信用度については、出会い系サイトでは、簡単な本人認証に合格するか、3つの書類(IDカード、パスポート、香港・マカオパス)のいずれかをアップロードして審査に合格すると、最初の星、すなわち信用度1が得られる。 最初の星を基準に、新しい書類がアップロードされ承認されるたびに、星や評価が追加されます(最大5つの星、すなわち5つ星会員)。 また、本プラットフォームでは、最低年齢を18歳としていますが、18歳未満に設定しているユーザーはまだほとんどいません(詳細は、Additional file 1のFig.3を参照)。 そこで、あるユーザーが他のユーザーの選択条件を満たしているかどうかで、ユーザー間のマッチングを表す「相性スコア」の概念を適用する。 女性が男性にメッセージを送る場合、各メッセージ、各属性について、男性の交際相手の好みに合う女性の割合と、女性の好みに合う男性の割合、つまり7つの割合を含む2つのベクトルを得ることができます。 このデータから、Ⓐ(Ⓐ_{mathbf{w}= (0.701,0.886,0.462,0.826,0.919,0.786,0.920)) Ⓕ(Ⓕ_{mathbf{w}= (0.912,0.976,0.681,0.962,0.994,0.864,0.)) が得られ、ⒸⒻはⒸⒸⒸⒻとⒸⒻで表される。912)\), ここで, \(\mathbf{w}_{mathrm{FMm}}) は男性の好みに合う女性属性の割合, \(\mathbf{w}_{mathrm{FMf}}) は女性の好みに合う男性属性の割合である. 同様に、男性が女性にメッセージを送る場合、 \(0.877,0.977,0.402,0.980,0.992,0.831,0.960)\) and \(\mathbf{w}_{\mathrm{MFf}}=(0.671,0.867,0.572,0.678,0.758,0.771,0.892)\). したがって、女性が男性にメッセージを送るときの相性スコアは、
$$begin{aligned}& c_{mathrm{FMm}} = \frac{THMATSBF{W}_{mathrm{FMm}}} となる。 \⑭テキストム{男性用プリフライトの中の女性用プリフライト})}}{ {operatorname{sum}(\mathbf{w}_{mathrm{FMm}} )}}, \end{aligned}$$
$$begin{aligned}& c_{mathrm{FMf}} = \frac{Thematbuf{w}_{Mathrm}} {Matbf{FMf}} {mathbf} {Mathmf} {Mathmf} {Mathmf} {Mathb} {Mathmf} {Mathmf} {Mathmf} } }}, {Mathmf}
(2)
また、男性が女性にメッセージを送る際の相性スコアは
$$begin{aligned}& c_{mathrm{MFm}} = \frac{Tathbf{w}_{mathrm{MFm}}} 。 \ⅳtextrm{male attr. in male pref.(})}{ {operatorname{sum}(\mathbf{w}_{mathrm{MFm}} )}}, \end{aligned}$$
(3)
$$begin{aligned}& c_mathrm{MFf} = \frac{THMATSBF{w}_{Mathrm{MFf}} {THMATSBF{mFm}} {THMATSBF{W}} {THMATSBF}} {THMATSBF{W}} {THMATSBF{MFm}} {THMATSBF{MFm \cdot (\textrm{male attr. in female pref. })}{ {operatorname{sum}(\mathbf{w}_{mathrm{MFf} )}}, \end{aligned}$
(4)
where (female attr. in male pref.(female attr. in male pref.)は、2人のユーザーに対して、女性の属性が男性の好みに合っているかどうかを特徴付けるベクトル(1ならYes、0ならNo)であり、同様に(male attr. in female pref.)は、2人のユーザーに対して、男性の属性が女性の好みに合っているかを特徴付けるベクトルである。 式1と式3は、男性の好みと選んだ相手のプロフィールの相性スコアであり、式2と式4は、女性の好みと選んだ相手のプロフィールの相性スコアである。 また、2人のユーザー( \(u_{a}}), \(u_{b}) )に対して、 \(u_{b}) の属性がどれだけ \(u_{a}) のpreferences と一致するか、また、 \(u_{a}) の属性がどれだけ u_{b}) のpreferences と一致するかを定量的に表すスコア、つまりreciprocal scoreを使用します。 また、(u_{a}}と(u_{b}})の相性スコアの平均は、(u_{a}}と(u_{b})の相性スコアの平均となります。 女性が男性にメッセージを送る場合の相互得点は、 \(\mathit{rs} = (c_{mathrm{FMm}} + c_{mathrm{FMf}} )/2})、男性が女性にメッセージを送る場合は、 \(\mathit{rs} = (c_{MFm} + c_{mathrm{MFf}} )/2})となります。
ロジスティック回帰
あるユーザーがクリックされた回数をclick、あるユーザーが受け取ったメッセージの数をmsg、あるユーザーが他のユーザーのホームページに推薦されて表示された回数をrecとすると、recは、あるユーザーが他のユーザーのホームページに推薦された回数を示す。 を定義し、行動によるユーザーの人気度を特徴付けることができる。 また、PageRank中心性( \mathit{pop}_{3}) は、ネットワーク上の全ての接続を考慮し、あるユーザーがネットワーク上でどれだけ中心的で人気があるかを定量化するものである。 このことは、Sect.3 の収入と教育レベルの嗜好分析で明らかにすることができる。 3.1.2. 魅力的な人から魅力的だと思われる人は、さらにモテる/モテるようになる可能性がある。 本稿で使用した変数とその意味は表1の通りである。
中心性指標である \(\mathit{pop}_{1}), \(\mathit{pop}_{2}), indegree, and indegree を導入し、メッセージ行動との相関を評価する。 ただし,中心性指標はユーザの好感度や人気度を表す集計指標であり,ユーザは自分の指標を知らず,他人の指標も知らない. また、ユーザの活動度を表す指標として外延度を用いるが、出会い系サイトでは、ユーザは他のユーザの外延度を知らない。 現実には、魅力的な相手を特定・選択するために指標を用いるのではなく、より具体的な手がかり、例えば高収入、高学歴、魅力的な写真、人口学的・社会経済的な相性の良さなどに基づいて、ユーザーは別の相手にメッセージを送ることになるのです。
女性ユーザーiのメッセージ送信確率を \(p_{i}) 、メッセージを送信しない確率を \(1-p_{i}) とすると、L_{f_{i}}= \ln(\frac{p_{i}}{1-p_{i}})、すなわち, の場合、すべての女性で、 \(L_{f}=Thanky(\frac{p}{1-p})\) となります。 同様に、男性ユーザiのメッセージ送信確率を \(q_{j}) 、メッセージ送信しない確率を \(1-q_{j}) とすると、 \(L_{m_{j}}=(\frac{q_{j}}{1-q_{j})\) 、即ち。 の場合、男性全体では、 \(L_{m}= \ln(\frac{q}{1-q})\) となる。 というロジスティック回帰モデルを得ることができる。
$$begin{aligned}& L_{f} = \alpha _{1}. + {boldsymbol{beta} }_{1} \ȂȂȂ + \varepsilon _{mathrm}, \end{aligned}$$
(5)
$$begin{aligned}& L_{m} = \alpha _{2}, L_{m} = L_{2}, L_{m} = L_{2}, L_{3}
本研究では,相関係数が 0.5 未満の独立変数を見つけるために多重共線性検定を行っている(詳細は追加ファイル 1 の表 7,8 を参照). 女性が男性にメッセージを送る場合のロジスティック回帰の結果を表2に示す。 女性の属性(送信者の属性)のみを考慮した場合(モデル1)、ほぼすべての変数が有意であることがわかるが、女性の住居と外延のみが、女性が男性にメッセージを送信する確率と正の相関を持つことがわかる。 男性の属性のみを考慮した場合(モデル2)、男性の携帯電話認証と信用度以外は有意であり、女性のメッセージ送信確率と正の相関があることがわかる。 両者の属性と相性スコアを考慮した場合(モデル3)、有意な変数のうち、女性の携帯電話認証、車所有、信用度、人気度( \mathit{pop}_{1}, \mathit{pop}_{3} )が女性のメッセージ送信確率と負に、他の変数が正に関連することが分かりました。 このことから、女性は男性にメッセージを送る際に、男性の要求を満たしているかだけでなく、男性が自分の要求を満たしているかどうかを気にしていることがわかった。
男性が女性にメッセージを送る場合のロジスティック回帰結果は表3に示す通りである。 女性の属性のみを考慮した場合(モデル1)、女性の携帯電話認証、信用度、学位以外の変数はすべて有意であるが、女性の住居所有のみが男性のメッセージ送信確率に負の影響を与えることが分かる。 男性の属性のみを考慮した場合(モデル2)、すべての変数が有意であるが、男性の学位のみがメッセージング行動と正の相関を持ち、その他は負の相関を持つ。 すべての変数を考慮した場合(モデル3)、女性の信用度、外見度、女性の好みと対応する相手側のプロファイルの互換性スコアを除き、他のすべての変数が有意であった。 有意な変数のうち、女性の携帯電話認証、車所有、人気度( \(\mathit{pop}_{1}), \(\mathit{pop}_{2}), \(\mathit{pop}_{3}) )、男性のoutdegree、男性の好みと対応する相手プロファイルの相性スコアはメッセージング行動と正相関、他の変数はすべて負相関であることがわかる。 また、2つの相性スコアの有意性を分析することで、男性は女性にメッセージを送る際に、女性が自分の条件を満たしているかどうかにのみ注目していることがわかった。
表2、3からわかるように、メッセージを送る男性または女性にとって、相手方の人気はメッセージング行動と有意に正の相関があることがわかる。 3538>
女性が男性にメッセージを送る場合、男性用の \(\exp (0.390) = 1.477} が、男性用の \(exp (0.) = 1.477}) より大きい。146) = 1.157)、男性から女性へのメッセージ送信では、女性(˶‾‾‾˵)の \(\exp (0.462) = 1.587) は、女性(˶‾‾‾˵)の \(\exp (0.141) = 1.151) より大きくなっています。 このように、男性、女性ともに、相手方の \(\mathit{pop}_{1}) は \(\mathit{pop}_{3}) よりも重要であることがわかる。 また、女性から男性へメッセージを送る場合、男性側の \(\exp (0.390) = 1.477***) は、男性側の \(\exp (0.462) = 1.477***) よりも小さいことが分かりました。587)よりも小さいことから、男性は女性に比べ、相手のメッセージ行動との関連性が高いことが分かる。 しかし、女性が男性にメッセージを送る場合、男性の \(\exp (0.146) = 1.157***) は、男性の \(\exp (0.141) = 1.157***) よりも大きくなることが分かりました。151)よりも大きく、男性から女性へのメッセージ送信では、女性 の \(\mathit{pop}_{3}) の方がメッセージ行動との関連性が高いこ とが分かる。
中国では、マンションや車を持つことはその人の富や社会的地位の象徴であり、地域によっては結婚するための必需品になっている。 女性が男性にメッセージを送るとき、男性が家と車を持っていることが重要なのです。 男性が女性にメッセージを送るとき、女性が家を持っていることは重要ではないが、女性が車を持っていることは多少重要である。 男性から女性へのメッセージの場合、相手が車を持っているかどうかの \exp(0.038) = 1.039 は、女性から男性へのメッセージの場合、相手が車を持っているかどうかの \exp(0.157) = 1.170 より小さく、女性は男性よりも相手が車を持っているかどうかに注目することが分かる。 一見、活動度が高いように見えるのは、他の多くのユーザーと接触していることを意味するが、本来は、潜在的なパートナーを見つけようとするために、より多くの時間とリソースを投資していることを意味するのかもしれない。 Outdegreeは、男性と女性で異なる属性です。 女性が男性にメッセージを送る場合、相手のoutdegreeはメッセージング行動と有意に正の相関を示すが、男性が女性にメッセージを送る場合には、そのようなことはない。 女性が男性にメッセージを送る場合、接触した男性の人気度や活動度などのネットワーク指標がメッセージング行動と有意に正の相関を示すが、男性が女性にメッセージを送る場合、接触した女性の人気度などのネットワーク指標のみがメッセージング行動と有意に正の相関を示す。
Ensemble Learning classification
ビッグデータ時代の到来とともに、ソーシャルネットワーク研究分野において、徐々にensemble learning classification methodが導入され始めている。 1996年にはBreimanがbaggingを提案し、その5年後にはさらにRandom Forestを提案した。 Freundは1997年にAdaBoost法を提案し 、機械学習分類器の継続的な改良に伴い、2016年にChenらは分類器-XGBoostを提案し、いくつかのケースでアルゴリズムの効率と正確さを大幅に向上させることができます。 アプリケーションとして、最近ReeceらはすでにInstagramの写真からうつ病を識別するために機械学習ツールを適用しました。
回帰分析では、多重共線性がないなど、独立変数に一定の要件があることが多いですが、アンサンブル学習分類法は独立変数に対する制約を緩和しています。 ここでは、バギング、ランダムフォレスト、AdaBoost、XGBoostなどのアンサンブル学習による分類法を用いて、表1の各属性の重要度を評価する。 AdaBoost 法と bagging 法を行うために R ソフトウェアのパッケージ ‘adabag’ を、Random Forest 法を行うためにパッケージ ‘randomForest’ を、XGBoost 法を行うためにパッケージ ‘xgboost’ を使用する。 データセットについては,5-fold cross validation を用いて分類器の性能を評価し,安定したエラーレートが得られるようにアルゴリズムのパラメータを選択した. 3538>
4つのアンサンブル学習分類法の誤差を表4に示す。 女性が男性にメッセージを送る場合はRandom ForestとAdaBoostの誤差率が最も低く、男性が女性にメッセージを送る場合はXGBoostの誤差率が最も低いことが分かる。 属性の重要度ランキングを図9、図10に示す。 図9より、女性が男性にメッセージを送る場合、最も重要な3つの属性は、男性は “outdegree”、女性は” \mathit{pop}_{1}}” の値であり、”outdegree “は “outdegree “であることが分かる。 同様に、図10より、男性が女性にメッセージを送る場合、最も重要な3つの属性は、女性の場合は \(⊖mathit{pop}_{3}) とoutdegree、男性の場合は \(⊖mathit{pop}_{1}) であることがわかる。 男女ともにメッセージ送信の意思決定を予測する最も重要な要因は、ロジスティック回帰においてもメッセージ送信行動と有意に正の相関を示した、潜在的な交際相手の人気度を表す「 \mathit{pop}_{3} 」「 \mathit{pop}_{1} 」値であった。