আমাদের কি “করুণা বাড়ানোর” সমস্যা আছে?


51

আমি জানি, এটি শব্দহীন বলে মনে হতে পারে তবে শুনুন।

স্ট্যাক ওভারফ্লোতে এবং এখানে আমরা পোস্টগুলিতে ভোট পাই, এটি সমস্ত একটি সারণী আকারে সঞ্চিত।

উদাহরণ:

পোস্ট আইডি ভোটার আইডি ভোট টাইপ তারিখের সময়
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... ইত্যাদি। ভোট প্রকার 2 একটি উঁচু ভোট, ভোটের প্রকার 3 একটি ডাউনভোট। আপনি এই ডেটাটির একটি অনামী সংস্করণটি http://data.stackexchange.com এ জিজ্ঞাসা করতে পারেন

এমন একটি ধারণা রয়েছে যে কোনও পোস্ট যদি -1 এর স্কোর বা তার চেয়ে কম হয় তবে এটি আপগ্রেটেড হওয়ার সম্ভাবনা বেশি। এটি কেবল নিশ্চিতকরণ পক্ষপাত হতে পারে বা এটি বাস্তবে মূল হতে পারে।

এই অনুমানটিকে নিশ্চিত বা অস্বীকার করার জন্য আমরা কীভাবে এই ডেটা বিশ্লেষণ করব? কীভাবে আমরা এই পক্ষপাতিত্বের প্রভাব পরিমাপ করব?


1
আমরা কি ক্যোয়ারির উদাহরণ পেতে পারি? সকলেই এসকিউএল স্টেটমেন্ট লিখতে পারদর্শী নয়। নমুনা ডেটা থাকলে লোকেরা এটির সাথে খেলতে চেষ্টা করতে উত্সাহিত করতে পারে। প্রশ্নের জন্য +1।
এমপিক্টাস

@ জেফ ভোটগুলি বেনামে রাখা হয়েছে আপনি কেবলমাত্র ডেটা ডাম্প থেকে আংশিক তথ্য পেতে পারেন, এটিতে সমস্ত রূপান্তর অন্তর্ভুক্ত রয়েছে যদিও এখানে একটি দ্রুত নমুনা ডেটা রয়েছে st স্ট্যাকেক্সেঞ্জ / স্ট্যাকওভারফ্লো / কিউ 1010738 সম্পূর্ণ বেনামে তথ্য জনসাধারণের ডেটা ডাম্পে উপলব্ধ
স্যাম জাফরান

কেন শুধু আপভোটস? প্রতিটি নির্দিষ্ট মানের চারপাশে আপ-ডাউন-ভোটিং বিভক্ত হওয়ার সম্ভাবনা কীভাবে অবশ্যই আকর্ষণীয় হবে?
বব ডুরান্ট

@ Bob, নিশ্চিত তারা সম্মতি জানায়
স্যাম

1
আমি বিভিন্ন ধরণের সাইটগুলি ভোটকে অবলম্বন করে দেখেছি (অর্থাত্‍ প্রদর্শন করার আগে শব্দটি যোগ করুন) এবং কখনও কখনও এমনকি স্বল্প সময়ের জন্য সম্পূর্ণভাবে লুকিয়ে রাখে- এবং বিভিন্ন ধরণের ব্যান্ডউইগেনিং, করুণাময় ভোট এবং অন্যান্য 'সামাজিক' এড়ানোর জন্য ভোটিং এর উপাদান।
Glen_b

উত্তর:


32

আপনি কোনও মাল্টিস্টেট মডেল বা মার্কভ চেইন ব্যবহার করতে পারেন (এমএসএম প্যাকেজটি আর এগুলির সাথে মানিয়ে নেওয়ার এক উপায়)। তারপরে আপনি দেখতে পেলেন যে -1 থেকে 0-তে পরিবর্তনের সম্ভাবনা 0 থেকে 1, 1 থেকে 2 ইত্যাদির চেয়ে বেশি কিনা ইত্যাদি। আপনি অন্যের তুলনায় গড় সময় -1 এও দেখতে পারেন এটি আরও সংক্ষিপ্ত কিনা তা দেখতে ।


3
+1 দুর্দান্ত রেফারেন্স। এমএসএম প্যাকেজ সম্পর্কে জার্নাল অফ স্ট্যাটিস্টিকাল সফটওয়্যারটিতে একটি নিবন্ধ রয়েছে। মডেলটি আদর্শভাবে এই ধরণের কাজের জন্য উপযুক্ত বলে মনে হয়।
এমপিটকাস

3
মার্কভ চেইন মডেল ধারণাটি দেখতে একদম ভালো লাগছে, তবে -1 এ গড় সময় পুরো গল্পটি দেয় না। এটি সম্ভব (এবং প্রশ্রয়যোগ্য - খারাপ প্রশ্ন ভাবেন) যে অন্য কোথাওও তুলনায় -1 এ নেমে যাওয়ার সম্ভাবনা বেশি।
বব ডুরান্ট

আমি অনুমান করি যে কেউ প্রথমে যা করতে চায় তা হ'ল ভোট-ট্র্যাজেকোরিজগুলি - যেগুলি (প্রায়) কেবল আপ / ডাউনভোটেড (খুব জনপ্রিয় / খুব খারাপ প্রশ্ন) পায় এবং সেগুলি আরও বিতর্কিত হয়। তারপরে আপনি তিনটি ক্লাসে মার্কভ চেইন করতে পারেন।
জোনাস

13

একটি গবেষণা পরিচালনা করুন. প্রতিদিন একটি নির্দিষ্ট সময়ে এলোমেলোভাবে নতুন পোস্টগুলির অর্ধেকটি নিচে নামান।


5
শীতল, আমাদের "সমালোচক" ব্যাজগুলির উল্লেখযোগ্য বৃদ্ধি এবং সম্ভবত নতুন ব্যবহারকারীদের অনুপ্রেরণা হ্রাস লক্ষ্য করা উচিত :-) উচ্চ-প্রতিনিধি ব্যবহারকারীদের সাথে শুরু করা ভাল,
এক্ষেত্রে

14
প্রকৃতপক্ষে আমরা এর চেয়ে আরও ভাল করতে পারি ... এবি পরীক্ষার সাহায্যে আমরা সাইটে1 -1 ভোট দেওয়া প্রশ্নের অর্ধেক 0 এবং অর্ধেক -1 হিসাবে প্রদর্শন করতে পারি ... এবং দেখুন যে কোনও গ্রুপেরই সম্ভবত বেশি upvoted! প্রতিভাশালী।
স্যাম জাফরন

4
পরীক্ষামূলক ধারণা পোস্টগুলির গুণমানকে নিয়ন্ত্রণ করে, তবে (1) নিম্নস্তরিত হওয়া ব্যক্তিরা পরীক্ষায় অংশগ্রহণের জন্য আগাম সম্মত হওয়া উচিত এবং (২) অল্প সময়ের পরে ডাউনগ্রেডগুলি সরানো উচিত।
zbicyclist

2
+1 (এবং এখানে সমস্ত মন্তব্যেও +1): একটি নিয়ন্ত্রিত রিভার্সিবল পরীক্ষা, সমস্ত ব্যবহারকারী যারা আগত এবং তাদের অনুমোদনের সাথে পরিচালিত হতে পারে তাদের কাছে আগাম যোগাযোগ করা, এই তথ্যটি প্রাপ্তির অন্যতম শক্তিশালী উপায়।
শুক্র

13

আমার উত্তরের সংক্ষিপ্তসার। আমি মার্কভ চেইন মডেলিং পছন্দ করি তবে এটি "অস্থায়ী" দিকটি মিস করে। অন্য প্রান্তে, অস্থায়ী দিকটির উপর দৃষ্টি নিবদ্ধ করা (উদাহরণস্বরূপ গড় সময় ) "সংক্রমণ" দিকটি মিস করে। আমি নিম্নলিখিত সাধারণ মডেলিংয়ে যাব (উপযুক্ত অনুমানের ফলে [মার্কভ প্রক্রিয়া] [1] হতে পারে)। এছাড়াও এই সমস্যার পিছনে রয়েছে অনেকগুলি "সেন্সরযুক্ত" পরিসংখ্যান (যা অবশ্যই সফ্টওয়্যার নির্ভরযোগ্যতার একটি শাস্ত্রীয় সমস্যা?) আমার উত্তরের শেষ সমীকরণটি প্রদত্ত ভোটের নির্বাচনের জন্য ভোটের তীব্রতার সর্বাধিক সম্ভাবনার প্রাক্কলনকারী ("+" এবং ডউ "-" দিয়ে) দেয়। যেমন আমরা সমীকরণ থেকে দেখতে পারি, আপনি কেবলমাত্র স্থানান্তরের সম্ভাবনা এবং কেস যখন কোনও প্রদত্ত রাজ্যে ব্যয় করা সময় পরিমাপ করেন তখন কেসটি কেবল মধ্যবর্তী হয় the এই সাহায্য আশা করি।1

জেনারেল মডেলিং (প্রশ্ন এবং অনুমান পুনরায় করা) আসুন এবং respectively যথাক্রমে ভোটিং তারিখ এবং সম্পর্কিত ভোট সাইন (উর্ধ্বকরণের জন্য +1, ডাউনভোটের জন্য -1) হয়ে উঠুন rand ভোটদান প্রক্রিয়া সহজভাবে(VDi)i1(Si)i1

Yt=Yt+Yt
কোথায়

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

গুরুত্বপূর্ণ পরিমাণ এখান থেকে intentity হয় -jump যেখানে হতে পারে বা এবং ক্ষেত্রে একটি ভাল পরিস্রাবণ, অন্য জ্ঞান ছাড়াই এটি হবে : ।ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

তবে আপনার প্রশ্নের পংক্তি বরাবর, আমি মনে করি আপনি যে এর অর্থ জন্য সেখানে একটি নির্ণায়ক ক্রম রয়েছে যেমন যে ।

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

এই আনুষ্ঠানিকতার মধ্যে আপনার প্রশ্নটি পুনরায় পুনরুদ্ধার করা যেতে পারে: "সম্ভবত " (বা কমপক্ষে পার্থক্য একটির চেয়ে বড় প্রদত্ত প্রান্তিকতা)।μ1+μ0+>0

এই ধৃষ্টতা অধীনে, এটা দেখানোর জন্য যে সহজ একটি [সজাতি মার্কভ প্রক্রিয়া] হল [3] এ জেনারেটরের সঙ্গে কর্তৃক প্রদত্তYtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

প্রশ্নের উত্তর (পরিসংখ্যানগত সমস্যার সর্বাধিক সম্ভাবনা অনুমানের প্রস্তাবের মাধ্যমে) এই সংশোধনীর মাধ্যমে, সমস্যার সমাধানটি অনুমান করে এবং এর মানগুলি একটি পরীক্ষা তৈরি করে তৈরি করা হয়। আসুন সাধারণতার ক্ষতি ছাড়াই সূচকটি ঠিক করি এবং ভুলে যাই । হিসেব (এবং ) পর্যবেক্ষণ uppon কাজ করা যেতে পারে(μi+)iμ+μ

(T1,η1),,(Tp,ηp) যেখানে এর লেন্থ হয় এর সময়সীমার রাজ্যের অতিবাহিত (সঙ্গে অর্থাত ধারাবাহিক বার এবং) হয় , যদি প্রশ্ন upvoted ছিল যদি এটা downvoted করা হয় এবং যদি এটা পর্যবেক্ষণ শেষ দশা ছিল।TjjthpiYt=iηj+110

আপনি যদি পর্যবেক্ষণের সর্বশেষ অবস্থার সাথে কেসটি ভুলে যান তবে উল্লিখিত দম্পতিরা a এবং উপর নির্ভরশীল এমন একটি বিতরণ থেকে iid হয় : এটি হিসাবে বিতরণ করা হয় (যেখানে মেপুঃ একটি সূচকীয় বিতরণ এবং থেকে একটি র্যান্ডম Var হয় হয় + বা -1 যারা সর্বোচ্চ বুঝতে পারবেন উপর নির্ভর করে)। তারপরে, আপনি নিম্নোক্ত সরল লেমা ব্যবহার করতে পারেন (প্রমাণটি সোজাসাপ্টা): μ - আমি ( মিনিট ( এক্স পি পি ( μ + আই )) , এক্স পি ( μ - i ) ) , η ) ημi+μi(min(Exp(μi+),Exp(μi)),η)η

থিম যদি এবং তারপর, এবং । X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

এর অর্থ হলো ঘনত্ব এর কর্তৃক প্রদত্ত হয়: যেখানে জন্য হ'ল ঘনত্বের ক্রিয়াকলাপটি র্যান্ডম ভেরিয়েবলের পরামিতি সহ । এই অভিব্যক্তিটি থেকে, এবং এর সর্বাধিক সম্ভাবনা অনুমানকারীটি পাওয়া সহজ :f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
যেখানেএবং।p=|i:δi=1|p+=|i:δi=+1|

আরও উন্নত পদ্ধতির জন্য মন্তব্য

যখন সর্বশেষ পর্যবেক্ষণের রাজ্য হয় তখন আপনি যদি অ্যাকসেন্ট কেসগুলি গ্রহণ করতে চান (অবশ্যই স্মার্ট কারণ আপনি যখন মধ্য দিয়ে যাবেন , এটি প্রায়শই আপনার শেষ স্কোর ...) আপনাকে কিছুটা যুক্তি সংশোধন করতে হবে। সম্পর্কিত সেন্সরিং তুলনামূলকভাবে ধ্রুপদী ...i1

সম্ভাব্য অন্যান্য পদ্ধতির সম্ভাবনার অন্তর্ভুক্ত থাকতে পারে

  • একটি তীব্রতা যা সময়ের সাথে হ্রাস পায় Having
  • সর্বশেষ ভোটের পর থেকে ব্যয় করা সময়ের সাথে কমে যাওয়ার তীব্রতা থাকা (আমি এটিকে পছন্দ করি this এক্ষেত্রে ঘনত্ব কীভাবে হ্রাস পায় তার মডেলিংয়ের ধ্রুপদী উপায় রয়েছে ...
  • আপনি ধরে নিতে পারেন যে একটি মসৃণ ফাংশনμi+i
  • .... আপনি অন্যান্য ধারণা প্রস্তাব করতে পারেন!
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.