অনলাইন ডেটিং সাইটের জন্য পরিসংখ্যান


10

আমি আগ্রহী যে কোনও অনলাইন ডেটিং সিস্টেমগুলি ম্যাচগুলি নির্ধারণ করতে জরিপের ডেটা কীভাবে ব্যবহার করতে পারে।

ধরুন তাদের কাছে অতীতের ম্যাচগুলির ফলাফল তথ্য রয়েছে (যেমন, 1 = সুখে বিবাহিত, 0 = 2 র্থ তারিখ নয়)।

এর পরে, ধরুন তাদের 2 টি পছন্দসই প্রশ্ন রয়েছে,

  • "আপনি বাইরের ক্রিয়াকলাপটি কতটা উপভোগ করেন? (1 = দৃ dis়ভাবে অপছন্দ, 5 = দৃ like়ভাবে পছন্দ করুন)"
  • "আপনি জীবন সম্পর্কে কতটা আশাবাদী? (1 = দৃ dis়ভাবে অপছন্দ, 5 = জোরালো পছন্দ)"

মনে করুন যে প্রতিটি পছন্দসই প্রশ্নের জন্য তাদের একটি সূচক রয়েছে "আপনার স্ত্রী আপনার পছন্দটি ভাগ করে নেওয়া কতটা গুরুত্বপূর্ণ? (1 = গুরুত্বপূর্ণ নয়, 3 = খুব গুরুত্বপূর্ণ)"

যদি তাদের প্রতিটি জুটির জন্য এই 4 টি প্রশ্ন থাকে এবং ম্যাচটি একটি সাফল্য ছিল কিনা তার ফলাফল, ভবিষ্যতের ম্যাচের পূর্বাভাস দেওয়ার জন্য সেই তথ্যটি কী ব্যবহার করবে এমন একটি মৌলিক মডেল কী?


2
আমি ভেবেছিলাম যখন মেয়েটি সুন্দরী বা পুরুষ সমৃদ্ধ তখন একটি সাফল্য ম্যাচ হয়। বাকি সবই গৌণ।
user4951

4
পরীক্ষা করে দেখুন blog.okcupid.com - কোথাও তারা অন্তর্নিহিত ম্যাচিং মডেল সম্পর্কে কথা বলুন।
ফেলিক্স এস

আপনি কী ধরণের জিনিসগুলির উপর আরও গভীরতা চান তা উল্লেখ করতে পারেন? মাইকের উত্তরটি বেশ শক্ত ওভারভিউ।
ড্যান

আপনি যদি ইহার্মোনির জন্য পেটেন্ট (পেটেন্ট 6,735,568 - google.com/… ) পড়ে থাকেন তবে তাদের সিস্টেম নীতিগত উপাদান বিশ্লেষণ, ফ্যাক্টর বিশ্লেষণের সংমিশ্রণ ব্যবহার করে এবং নিউরাল নেটওয়ার্ক ব্যবহার করে। অন্যরা যেমন কে-এনএন, কার্টস এবং জিএলএম এর মতো পদ্ধতিগুলি উল্লেখ করেছে তেমন ভালভাবে কাজ করবে।
ক্রিস সিমোকট

@ ক্রিসিসমোকাত - বাহ! আশ্চর্যজনক লিঙ্কের জন্য অনেক ধন্যবাদ। যদিও এটি আকর্ষণীয়। আমি কখনও ভাবিনি যে আপনি পরিসংখ্যান পদ্ধতি এবং অ্যালগরিদম "কপিরাইট" করতে পারেন।
d_a_c321

উত্তর:


4

আমি একবার এমন একজনের সাথে কথা বলেছি যারা পরিসংখ্যান কৌশলগুলি ব্যবহার করে এমন একটি অনলাইন ডেটিং সাইটের জন্য কাজ করে (তারা সম্ভবত আমি কাকে বলিনি)। এটি বেশ আকর্ষণীয় ছিল - তারা খুব সহজ জিনিসগুলি ব্যবহার করে শুরু করত, যেমন নিকটস্থ প্রতিবেশীদের সাথে ইউক্যালিডিয়ান বা L_1 (সিটি ব্লক) প্রোফাইল ভেক্টরগুলির মধ্যে দূরত্ব ছিল, তবে এই বিষয়ে বিতর্ক হয়েছিল যে দুটি লোকের সাথে খুব মিল ছিল কিনা তা ভাল বা খারাপ ছিল কিনা? জিনিস। তারপরে তিনি আরও বলেছিলেন যে এখন তারা প্রচুর ডেটা সংগ্রহ করেছে (কারা আগ্রহী ছিল কে, কার তারিখে কে, কারা বিয়ে করেছেন ইত্যাদি ইত্যাদি), তারা নিয়মিত মডেলগুলি পুনরায় প্রশিক্ষণে এটি ব্যবহার করছেন। একটি ইনক্রিমেন্টাল ব্যাচের ফ্রেমওয়ার্কে কাজ করা হয়, যেখানে তারা পর্যায়ক্রমে ডেটাগুলির ব্যাচগুলি ব্যবহার করে তাদের মডেলগুলি আপডেট করে এবং তারপরে ডেটাবেসে ম্যাচের সম্ভাব্যতাগুলি পুনরায় গণনা করে। বেশ আকর্ষণীয় জিনিস, কিন্তু আমি '


3

আপনি একটি সহজ মডেল চেয়েছিলেন। এখানে আমি কীভাবে আর কোড দিয়ে শুরু করব:

 glm(match ~ outdoorDif*outdoorImport + optimistDif*optimistImport,
     family=binomial(link="logit"))

আউটডোরডিফ = তারা বাইরের ক্রিয়াকলাপটি কতটা উপভোগ করে সে সম্পর্কে দু'জনের জবাবের পার্থক্য। আউটডোর ইমপোর্ট = বহিরঙ্গন ক্রিয়াকলাপ উপভোগ সংক্রান্ত উত্তর সম্পর্কিত ম্যাচের গুরুত্বের উপর দুটি উত্তরের গড়।

* * ইঙ্গিত দেয় যে পূর্ববর্তী এবং নিম্নলিখিত শর্তগুলি আন্তঃক্রিয়াযুক্ত এবং পৃথকভাবে অন্তর্ভুক্ত।

আপনি পরামর্শ দিচ্ছেন যে ম্যাচের তথ্যগুলি কেবল দুটি বিকল্পের সাথে বাইনারি, "আনন্দের সাথে বিবাহিত" এবং "দ্বিতীয় তারিখ নয়," তাই লজিট মডেলটি বেছে নেওয়ার ক্ষেত্রে আমি ধরে নিয়েছিলাম এটিই। এটি বাস্তববাদী বলে মনে হচ্ছে না। আপনার যদি দুটিরও বেশি সম্ভাব্য ফলাফল থাকে তবে আপনাকে বহুজাতিক বা অর্ডারযুক্ত লজিট বা এই জাতীয় কোনও মডেলের স্যুইচ করতে হবে।

যদি আপনার পরামর্শ অনুসারে, কিছু লোকের একাধিক চেষ্টা করা ম্যাচ থাকে তবে মডেলটিতে অ্যাকাউন্ট নেওয়ার চেষ্টা করা খুব গুরুত্বপূর্ণ বিষয় হবে। এটি করার একটি উপায় হ'ল প্রতিটি ব্যক্তির জন্য পূর্ববর্তী প্রয়াসের ম্যাচের # টি ইঙ্গিত করে পৃথক ভেরিয়েবল থাকা এবং তারপরে দুটিটি ইন্টারঅ্যাক্ট করুন।


দুর্দান্ত উত্তরের জন্য ধন্যবাদ .. আমি আপনাকে অনুগ্রহ দিচ্ছি! :) এটি একটি ভাল পদ্ধতির মত বলে মনে হচ্ছে। সম্ভবত আপনার যদি এম এর মতো বিভাগগুলির মতো এন সম্পর্কিত প্রশ্ন থাকে (যেমন, অ্যাথলেটিক্স প্রশ্ন) আপনি সেই বিভাগের মধ্যে গুরুত্ব এবং পার্থক্যগুলির গড় ব্যবহার করে মডেলটিকে সমৃদ্ধ করতে এবং এটি একটি অতিরিক্ত শব্দ হিসাবে যুক্ত করতে পারেন। এটি নিখুঁত নয়, তবে বেশ কয়েকটি পরস্পর সম্পর্কিত ভেরিয়েবলের মিথস্ক্রিয়া ক্যাপচার করার এটি সহজ উপায়। আবারও ধন্যবাদ, আমি আপনার উত্তরটি দেয়নি এমন অন্য কোনও ধারণা শুনে খুশি হব;)।
d_a_c321

আপনি কি উত্তরগুলি প্রথমে স্বাভাবিক করবেন না? যদি প্রত্যেকে বাইরের দিকে উপভোগ করে তবে আউটডোর উত্তরটি কম প্রাসঙ্গিক হওয়া উচিত, কারণ এটি সামঞ্জস্যের দুর্বল ভবিষ্যদ্বাণী হবে।
Sklivvz

@ স্ক্লিজ, আপনি একাধিক পছন্দ (অর্ডিনাল) উত্তর কীভাবে স্বাভাবিক করবেন তা আমি নিশ্চিত নই। এছাড়াও, মনে রাখবেন যে ধারাবাহিক পূর্বাভাসকারী ভেরিয়েবলগুলির লিনিয়ার রূপান্তরগুলি এখানে আলোচিত কারণগুলির জন্য মাঝে মাঝে পছন্দসই: stats.stackexchange.com/q/7112/3748 এবং এখানে: stats.stackexchange.com/q/19216/3748 তবে তারা পরিবর্তন করবে না কিছু অসাধারণ গণনার সমস্যা বাদ দিয়ে মডেলগুলির পূর্বাভাস। যদি প্রত্যেকে বাইরের দিকে উপভোগ করেন তবে বাইরের দিকের সমানভাবে বহিরঙ্গন উত্তর কম প্রাসঙ্গিক তবে আমি এটি নির্দিষ্ট করেছিলাম বলে মডেলটির পক্ষে এটি আসলেই কোনও সমস্যা বলে মনে হয় না। (আমার মডেলটি নিখুঁত নয়)
মাইকেল বিশপ

1

একটি সহজ পদ্ধতির নীচে হবে।

দুটি অগ্রাধিকার প্রশ্নের জন্য, দুটি উত্তরদাতাদের প্রতিক্রিয়াগুলির মধ্যে সম্পূর্ণ পার্থক্য নিন, দুটি ভেরিয়েবল প্রদান করুন, চারটির পরিবর্তে z1 এবং z2 বলুন।

গুরুত্বের প্রশ্নগুলির জন্য, আমি একটি স্কোর তৈরি করতে পারি যা দুটি প্রতিক্রিয়া একত্রিত করে। যদি প্রতিক্রিয়াগুলি হয়, বলুন, (1,1), আমি একটি 1, একটি (1,2) বা (2,1) একটি পেয়েছিলাম 2, একটি (1,3) বা (3,1) পেয়েছি 3, এ (2,3) বা (3,2) একটি 4 পায়, এবং একটি (3,3) পাবে 5 that যাকে বলা হয় "গুরুত্বের স্কোর"। একটি বিকল্পটি সর্বাধিক (প্রতিক্রিয়া) ব্যবহার করা হবে, 5 এর পরিবর্তে 3 বিভাগ দেওয়া, তবে আমি মনে করি 5 বিভাগের সংস্করণটি আরও ভাল।

আমি এখন দশটি ভেরিয়েবল তৈরি করব, x1 - x10 (একযোগে), সমস্ত শূন্যের ডিফল্ট মান সহ। প্রথম প্রশ্নটি = 1, এক্স 1 = জেড 1 এর জন্য গুরুত্বপূর্ণ স্কোরযুক্ত সেই পর্যবেক্ষণগুলির জন্য। দ্বিতীয় প্রশ্নেরও যদি গুরুত্ব স্কোর হয় = 1, x2 = z2। এই প্রথম পর্যালোচনা = 2, x3 = z1 এর জন্য গুরুত্বপূর্ণ স্কোরযুক্ত পর্যবেক্ষণগুলির জন্য এবং যদি দ্বিতীয় প্রশ্নটির জন্য গুরুত্বের স্কোর = 2, x4 = z2, এবং আরও on প্রতিটি পর্যবেক্ষণের জন্য, এক্স 1, এক্স 3, এক্স 5, এক্স 7, এক্স 9! = 0 এর ঠিক এক এবং এক্স 2, এক্স 4, এক্স 6, এক্স 8, এক্স 10 এর জন্য।

সমস্ত কিছু করে, আমি বাইনারি ফলাফলকে টার্গেট ভেরিয়েবল হিসাবে এবং এক্স 1 - এক্স 10 হিসাবে রেজিস্ট্রার হিসাবে একটি লজিস্টিক রিগ্রেশন চালাতাম।

এর আরও পরিশীলিত সংস্করণগুলি পুরুষ এবং মহিলা উত্তরদাতাদের গুরুত্বকে আলাদাভাবে বিবেচনা করার অনুমতি দিয়ে আরও গুরুত্বপূর্ণ স্কোর তৈরি করতে পারে, যেমন, একটি (1,2)! = A (2,1), যেখানে আমরা লিঙ্গ দ্বারা প্রতিক্রিয়াগুলি অর্ডার করেছি।

এই মডেলের একটি ঘাটতি হ'ল আপনার একই ব্যক্তির একাধিক পর্যবেক্ষণ থাকতে পারে, যার অর্থ "ত্রুটি" হওয়া উচিত, আলগাভাবে বলতে গেলে, পর্যবেক্ষণের বাইরে স্বতন্ত্র নয়। তবে, নমুনায় প্রচুর লোকের সাথে আমি সম্ভবত প্রথম পাসের জন্য এটিকে এড়িয়ে যাব, বা এমন কোনও নমুনা তৈরি করব যেখানে কোনও নকল ছিল না।

আর একটি ঘাটতি হ'ল এটি প্রশংসনীয় যে গুরুত্ব বাড়ার সাথে সাথে পি (ব্যর্থ) এর উপর অগ্রাধিকারের মধ্যে প্রদত্ত পার্থক্যের প্রভাবও বৃদ্ধি পাবে, যা (x1, x3, x5, x7, x9) এবং এর সহগের মধ্যে একটি সম্পর্ককে বোঝায় (x2, x4, x6, x8, x10) এর সহগের মধ্যে। (সম্ভবত একটি সম্পূর্ণ অর্ডারিং নয়, কারণ এটি একটি (২,২) গুরুত্বপূর্ন স্কোর কীভাবে একটি (1,3) গুরুত্বপূর্ন স্কোরের সাথে সম্পর্কিত me এটি আমার কাছে পরিষ্কার নয়) তবে আমরা মডেলটিতে এটি আরোপ করি নি। আমি সম্ভবত প্রথমে এটিকে উপেক্ষা করব এবং ফলাফলগুলি দেখে আমি অবাক হয়েছি কিনা।

এই পদ্ধতির সুবিধা হ'ল এটি "গুরুত্ব" এবং পছন্দনীয় প্রতিক্রিয়াগুলির মধ্যে পার্থক্যের মধ্যে সম্পর্কের কার্যকরী ফর্ম সম্পর্কে কোনও ধারণা চাপিয়ে দেয় না। এটি পূর্ববর্তী সংক্ষিপ্তর মন্তব্যটির সাথে বিরোধী, তবে আমি মনে করি যে কার্যকর সংস্থাগুলির মধ্যে প্রত্যাশিত সম্পর্কগুলি বিবেচনায় নিতে ব্যর্থতার চেয়ে কার্যকর কার্যকর ফর্মের অভাব সম্ভবত আরও বেশি উপকারী।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.