ভোটদানের উপর খ্যাতির প্রভাব সম্পর্কে কীভাবে আমি আমার বিশ্লেষণ উন্নত করতে পারি?

15

সম্প্রতি আমি আপভোটগুলিতে সুনামের প্রভাবগুলির কিছু বিশ্লেষণ করেছি ( ব্লগ-পোস্ট দেখুন ) এবং পরবর্তীকালে আমার সম্ভবত আরও আলোকিতকরণ (বা আরও উপযুক্ত) বিশ্লেষণ এবং গ্রাফিক্স সম্পর্কে কয়েকটি প্রশ্ন ছিল।

সুতরাং কয়েকটি প্রশ্ন (এবং বিশেষত কারও কাছে সাড়া দিতে নির্দ্বিধায় এবং অন্যকে উপেক্ষা করুন):

অবতারের বর্তমানটিতে, আমি পোস্ট নম্বরটি কেন্দ্র করে বোঝাতে চাইছি না। আমি মনে করি এটি যা করে তা স্ক্র্যাপপ্লোটে নেতিবাচক সম্পর্কের মিথ্যা চেহারা দেয়, কারণ পোস্টের গণনার নীচের প্রান্তে আরও পোস্ট রয়েছে (আপনি দেখেন যে জোন স্কিট প্যানেলে এটি ঘটে না, কেবল নশ্বর ব্যবহারকারীদের মধ্যে প্যানেল)। পোস্ট নম্বরটি কেন্দ্রীভূত না করা (যেহেতু আমি ব্যবহারকারীর গড় স্কোরকে কেন্দ্র করে স্কোর কেন্দ্রিক) তার অর্থ কি অপ্রয়োজনীয়?
এটি গ্রাফগুলি থেকে স্পষ্ট হওয়া উচিত যে স্কোরটি খুব সঠিক স্কিউড (এবং কেন্দ্রীকরণের অর্থ এটি কোনও পরিবর্তন হয়নি)। কোনও রিগ্রেশন লাইনের সাথে ফিট করার সময় আমি হুবার-হোয়াইট স্যান্ডউইচ ত্রুটিগুলি ব্যবহার করে লিনিয়ার মডেল এবং একটি মডেল উভয়ই ফিট করি ( rlmMASS আর প্যাকেজের মাধ্যমে ) এবং এটি opeালের অনুমানগুলিতে কোনও পার্থক্য করে না। আমার কি শক্তিশালী রিগ্রেশন পরিবর্তে ডেটাতে রূপান্তর বিবেচনা করা উচিত? নোট করুন যে কোনও রূপান্তরকে 0 এবং নেতিবাচক স্কোরগুলির সম্ভাবনা বিবেচনা করতে হবে। বা ওএলএসের পরিবর্তে আমার কি অন্য কোনও ধরণের মডেল ব্যবহার করা উচিত?
আমি বিশ্বাস করি সর্বশেষে দুটি গ্রাফিক্স উন্নত হতে পারে (এবং পাশাপাশি উন্নত মডেলিং কৌশলগুলির সাথে সম্পর্কিত)। আমার (জ্যাকেড) মতামতে, আমি সন্দেহ করব যে খ্যাতির প্রভাবগুলি বাস্তব কিনা সেগুলি পোস্টারের ইতিহাসে খুব তাড়াতাড়ি উপলব্ধি করা সম্ভব হবে (আমি মনে করি যদি এটি সত্য হয় তবে এগুলি পুনর্বিবেচনা করা যেতে পারে "আপনি কিছু চমৎকার উত্তর দিয়েছেন তাই এখন আমি আপনার সকলকে আপগ্রেটেড করব "সম্পূর্ণ স্কোর দ্বারা খ্যাতি" প্রভাবের পরিবর্তে "পোস্টগুলি)। অতিরিক্ত প্লট করার জন্য আমলে নেওয়ার সময় আমি কীভাবে এটি সত্য কিনা তা প্রদর্শনের জন্য একটি গ্রাফিক তৈরি করতে পারি? আমি ভেবেছিলাম সম্ভবত এটির প্রদর্শনের একটি ভাল উপায় হ'ল ফর্মের কোনও মডেল মাপসই করা যায়;

Y = β_{0} + β_{1} (X_{1}) + α_{1} (Z_{1}) + α_{2} (Z_{2}) \dots α_{k} (Z_{k}) + γ_{1} (Z_{1} * X_{1}) \dots γ_{k} (Z_{k} * X_{1}) + ϵ

$Y = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon$

যেখানে হয় (বর্তমান স্ক্রেটারপ্লটগুলিতে যেমন রয়েছে), হ'ল , এবং হ'ল পোস্ট সংখ্যার কিছু স্বেচ্ছাসেবী পরিসীমা উপস্থাপনকারী ডামি ভেরিয়েবল (উদাহরণস্বরূপ সমপরিমাণ পোস্টের সংখ্যাটি হলে , পোস্ট সংখ্যা ইত্যাদি হলে সমান )) এবং গ্র্যান্ড পথিমধ্যে এবং ত্রুটি মেয়াদ যথাক্রমে। তারপরে আমি কেবল আনুমানিক পরীক্ষা করব $Y$ score - (mean score per user) $X_1$ post number $Z_1 \cdots Z_k$ $Z_1$ 11 through 25 $Z_2$ 126 through 50 $\beta_0$ $\epsilon$ $\gamma$ কোনও পোস্টারের ইতিহাসে খ্যাতি প্রভাবগুলি প্রথম দিকে প্রদর্শিত হয়েছিল কিনা তা নির্ধারণ করার জন্য opালগুলি (বা তাদের চিত্রক্রমে প্রদর্শিত হবে)। এটি কি যুক্তিসঙ্গত (এবং উপযুক্ত) দৃষ্টিভঙ্গি?

এ জাতীয় স্ক্র্যাটারপ্লটগুলিতে কিছু ধরণের নন-প্যারাম্যাট্রিক স্মুথিং লাইনের ফিট করা জনপ্রিয় বলে মনে হয় (যেমন: লাউস বা স্প্লাইজস) তবে স্প্লাইসের সাথে আমার পরীক্ষা-নিরীক্ষণ কিছু আলোকিত করে না (পোস্টার ইতিহাসের প্রথম দিকে প্যাসিভ এফেক্টের কোনও প্রমাণই সামান্য এবং মেজাজী ছিল) আমি অন্তর্ভুক্ত স্প্লাইন সংখ্যা)। যেহেতু আমার একটি অনুমান আছে যে প্রভাবগুলি শুরুতে ঘটে, তাই আমার মডেলিং পদ্ধতির স্প্লিংসের চেয়ে বেশি যুক্তিসঙ্গত?

এছাড়াও নোট করুন যদিও আমি এই সমস্ত ডেটা ড্রেস করেছি, এখনও পরীক্ষা করার জন্য প্রচুর পরিমাণে অন্যান্য সম্প্রদায় রয়েছে (এবং সুপারভাইজার এবং সার্ভারফাল্টের মতো কিছু একই ধরণের বড় নমুনাগুলি থেকে আঁকতে পারে), সুতরাং ভবিষ্যতে এটি পরামর্শ দেওয়া যথেষ্ট যুক্তিসঙ্গত বিশ্লেষণ যে আমি কোনও সম্পর্ক পরীক্ষা করার জন্য হোল্ড-আউট নমুনা ব্যবহার করি।

data-visualization large-data fixed-effects-model

— অ্যান্ডি ডাব্লু
সূত্র

আমি বর্তমানে আমার প্রথম প্রশ্নে কিছু নোট তৈরি করেছি এবং সেগুলি এখানে পাওয়া যাবে । আমি এই মুহূর্তে নিশ্চিত নই যে আমার কেবল নিজের প্রশ্নের উত্তর হিসাবে এটি পোস্ট করা উচিত বা একটি পৃথক প্রশ্ন খুলতে হবে (কারণ এটি মূলত ডেটা ভিজ্যুয়ালাইজেশনের উপর নিবদ্ধ)। তবে আমাকে এখানে বা চ্যাট রুমে গুগল ডকুমেন্ট সম্পর্কে মন্তব্য করতে দ্বিধা বোধ করবেন না ।

— অ্যান্ডি ডব্লিউ

14

এটি একটি সাহসী চেষ্টা, তবে কেবলমাত্র এই তথ্যগুলির সাহায্যে "উর্ধ্বে সুনামের প্রভাব" সম্পর্কিত আপনার গবেষণা প্রশ্নের উত্তর দেওয়া কঠিন বা অসম্ভব হবে । সমস্যাটি অন্যান্য ঘটনাগুলির প্রভাবগুলি পৃথক করার মধ্যে রয়েছে, যা আমি তাদের কীভাবে সম্বোধন করা যেতে পারে তার সংক্ষিপ্ত ইঙ্গিত সহ তালিকাবদ্ধ করি।

প্রভাব শেখার । খ্যাতি যত বাড়ছে তত অভিজ্ঞতা বাড়ছে; অভিজ্ঞতা বাড়ার সাথে সাথে আমরা একজন ব্যক্তির আরও ভাল প্রশ্ন এবং উত্তর পোস্ট করার আশা করব; তাদের মান যেমন উন্নত হয়, আমরা প্রতি পোস্টে আরও বেশি ভোট আশা করি। সম্ভবত, বিশ্লেষণে এটি পরিচালনা করার একটি উপায় হ'ল একাধিক এসই সাইটে সক্রিয় ব্যক্তিদের চিহ্নিত করা । যে কোনও সাইটে তাদের খ্যাতি তাদের অভিজ্ঞতার পরিমাণের চেয়ে ধীরে ধীরে বৃদ্ধি পাবে, এইভাবে খ্যাতি এবং শেখার প্রভাবগুলি ছড়িয়ে দেওয়ার জন্য একটি হ্যান্ডেল সরবরাহ করে।
প্রসঙ্গে সাময়িক পরিবর্তন। এগুলি অবিচ্ছিন্ন, তবে স্পষ্টতই এতে অন্তর্ভুক্ত থাকবে
- সামগ্রিক wardর্ধ্বমুখী প্রবণতা, মৌসুমী প্রবণতা (প্রায়শই একাডেমিক চক্রের সাথে যুক্ত) এবং আউটলিয়ার্স (নির্দিষ্ট থ্রেডের লিঙ্কের মতো বাহ্যিক প্রচার থেকে উদ্ভূত) সহ সময়ের সাথে সাথে ভোটার সংখ্যার পরিবর্তন । যে কোনও ব্যক্তির খ্যাতির প্রবণতাগুলি মূল্যায়ন করার সময় কোনও বিশ্লেষণে এটির কারণ হতে পারে ।
- সময়ের সাথে সাথে একটি সম্প্রদায়ের সীমাবদ্ধতা পরিবর্তন । সম্প্রদায়গুলি এবং কীভাবে তারা মিথস্ক্রিয়া করে, বিকশিত হয় এবং বিকাশ করে। সময়ের সাথে সাথে তারা কম-বেশি বার ভোট দেওয়ার প্রবণতা থাকতে পারে। যে কোনও বিশ্লেষণে এই প্রভাবটি মূল্যায়ন করতে হবে এবং এর মধ্যে ফ্যাক্টর তৈরি করতে হবে ।
- সময় নিজেই। সময়ের সাথে সাথে, পূর্ববর্তী পোস্টগুলি অনুসন্ধানের জন্য উপলব্ধ থাকে এবং ভোট সংগ্রহ করতে থাকবে। সুতরাং, ক্যাটারিস পারিবাস , পুরাতন পোস্টগুলিতে নতুনদের চেয়ে বেশি ভোট উত্পাদন করা উচিত। (এটি একটি শক্তিশালী প্রভাব: মাসিক খ্যাতি লিগের ধারাবাহিকভাবে উচ্চতর কিছু লোক সারা বছর এই সাইটটি পরিদর্শন করেনি!) এটি মাস্ক বা এমনকি কোনও সত্যিকারের ইতিবাচক খ্যাতি প্রভাবকে উল্টে দেবে। যে কোনও বিশ্লেষণের জন্য প্রতিটি পোস্ট সাইটে উপস্থিত থাকার সময়কালের ফ্যাক্টর দরকার ।
বিষয় জনপ্রিয়তা। কিছু ট্যাগ (যেমন, আর ) অন্যদের তুলনায় অনেক বেশি জনপ্রিয়। সুতরাং, কোনও ব্যক্তির যে ধরণের প্রশ্নের উত্তর দেয় সেগুলির পরিবর্তনগুলি সাময়িক পরিবর্তনের সাথে মিশ্রিত হতে পারে, যেমন খ্যাতি প্রভাব। অতএব, যে কোনও বিশ্লেষণের উত্তর দেওয়া হচ্ছে এমন প্রশ্নগুলির প্রকৃতিতে ফ্যাক্টর থাকা দরকার।
দর্শন [সম্পাদনা হিসাবে যুক্ত করা হয়েছে]। প্রশ্নগুলি বিভিন্ন কারণে বিভিন্ন কারণে (ফিল্টার, লিঙ্ক, ইত্যাদি) দেখা হয়। উত্তরের দ্বারা প্রাপ্ত ভোটের সংখ্যা দর্শনের সংখ্যার সাথে সম্পর্কিত, যদিও মতামতের সংখ্যা বাড়ার সাথে সাথে হ্রাস অনুপাতের আশা করা যায়। (সত্যিকার অর্থে প্রশ্নটির প্রতি আগ্রহী কত লোক আসলে এটি কাঁচা সংখ্যাটি নয়, তা দেখার বিষয় My আমার নিজের - উপাখ্যান - অভিজ্ঞতাটি হ'ল যে আমি বহু প্রশ্নে প্রাপ্ত প্রায় অর্ধেক উর্ধ্বতন প্রথম 5-15-এর মধ্যে আসি মতামত, যদিও শেষ পর্যন্ত প্রশ্নগুলি কয়েকবার দেখা হয়)) সুতরাং, কোনও বিশ্লেষণের ভিউ সংখ্যার ফ্যাক্টর প্রয়োজন, তবে সম্ভবত রৈখিক উপায়ে নয়।
পরিমাপের অসুবিধা। "খ্যাতি" হ'ল বিভিন্ন ক্রিয়াকলাপের জন্য প্রাপ্ত ভোটের সমষ্টি: প্রাথমিক খ্যাতি, উত্তর, প্রশ্ন, প্রশ্ন অনুমোদন, ট্যাগ উইকি সম্পাদনা, ডাউনভোটিং এবং ডাউনভোট হওয়া (মানের উত্থানের ক্রমে)। যেহেতু এই উপাদানগুলি বিভিন্ন জিনিস মূল্যায়ন করে এবং সমস্ত সম্প্রদায়ের ভোটারদের নিয়ন্ত্রণাধীন নয়, তাদের বিশ্লেষণের জন্য পৃথক করা উচিত । একটি "খ্যাতি প্রভাব" সম্ভবত উত্তরগুলির উপর এবং সম্ভবত প্রশ্নগুলির সাথে সম্পর্কিত, তবে খ্যাতির অন্যান্য উত্সগুলিকে প্রভাবিত করা উচিত নয়। শুরু খ্যাতি অবশ্যই অবশ্যই বিয়োগ করা উচিত (তবে সম্ভবত কিছু প্রাথমিক পরিমাণ অভিজ্ঞতার জন্য প্রক্সি হিসাবে ব্যবহৃত হতে পারে)।
লুকানো কারণ। আরও অনেক বিভ্রান্তিকর কারণ থাকতে পারে যা পরিমাপ করা অসম্ভব। উদাহরণস্বরূপ, ফোরামে অংশ নেওয়ার জন্য বিভিন্ন ধরণের "বার্নআউট" রয়েছে। প্রাথমিক কয়েক সপ্তাহ, মাস বা কয়েক বছরের উত্সাহের পরে লোকেরা কী করবে? কিছু সম্ভাবনার মধ্যে রয়েছে বিরল, অস্বাভাবিক বা কঠিন প্রশ্নগুলিতে মনোনিবেশ করা; কেবল উত্তর না দেওয়া প্রশ্নের উত্তর সরবরাহ করা; কম উত্তর সরবরাহ কিন্তু উচ্চ মানের; এগুলির মধ্যে কিছু খ্যাতি প্রভাবকে মাস্ক করতে পারে, অন্যরা ভুলভাবে একটিতে বিভ্রান্ত হতে পারে। এই জাতীয় কারণগুলির জন্য প্রক্সিটি কোনও ব্যক্তির দ্বারা অংশগ্রহণের হারে পরিবর্তন হতে পারে : তারা সেই ব্যক্তির পোস্টগুলির প্রকৃতির পরিবর্তনের ইঙ্গিত দিতে পারে।
উপ-সম্প্রদায় ঘটনা। এমনকি খুব সক্রিয় এসই পৃষ্ঠাগুলিতে পরিসংখ্যানগুলির কঠোর দৃষ্টিভঙ্গি দেখায় যে তুলনামূলকভাবে অল্প সংখ্যক লোক বেশিরভাগ উত্তর এবং ভোটদান করে। দুই বা তিন জনের মতো ছোট একটি চক্র খ্যাতির বর্ধনে গভীর প্রভাব ফেলতে পারে। সাইটের অন্তর্নির্মিত মনিটরের দ্বারা একটি দ্বি-ব্যক্তি চক্র সনাক্ত করা হবে (এবং এই জাতীয় একটি গ্রুপ এই সাইটে বিদ্যমান) তবে বৃহত্তর চক্রগুলি সম্ভবত এটি হবে না। (আমি আনুষ্ঠানিকভাবে জোটবদ্ধ হওয়ার কথা বলছি না: লোকেরা এগুলি সম্পর্কে অবগত না হয়েও এ জাতীয় চক্রের সদস্য হতে পারে these ) কীভাবে আমরা এই অদৃশ্য, অপরিবর্তিত, অনানুষ্ঠানিক চক্রের ক্রিয়াকলাপ থেকে একটি সুস্পষ্ট খ্যাতি প্রভাব আলাদা করব? বিশদে ভোটদানের ডেটাগুলি ডায়াগনস্টিকালি ব্যবহার করা যেতে পারে, তবে আমি বিশ্বাস করি না যে আমাদের এই ডেটাগুলিতে অ্যাক্সেস আছে।
সীমিত তথ্য। খ্যাতি প্রভাব সনাক্ত করতে, আপনার কয়েক ডজন থেকে কয়েকশ পোস্ট (কমপক্ষে) সহ ব্যক্তির উপর ফোকাস করা দরকার। এটি বর্তমান জনসংখ্যাকে ৫০ জনেরও কম করে ফেলেছে। প্রকরণ এবং বিভ্রান্তির সমস্ত সম্ভাবনার সাথে, এটি সত্যই খুব শক্তিশালী না হলে উল্লেখযোগ্য প্রভাবগুলি ছড়িয়ে দিতে এটি খুব সামান্য। নিরাময়টি হ'ল অন্যান্য এসই সাইটের রেকর্ড সহ ডেটাসেট বৃদ্ধি করা ।

এই সমস্ত জটিলতাগুলি দেওয়া, এটি স্পষ্ট হওয়া উচিত যে ব্লগ নিবন্ধের অনুসন্ধানের গ্রাফিক্সে এটি স্পষ্টভাবে সুস্পষ্ট না হলে কিছু প্রকাশ করার খুব কম সম্ভাবনা রয়েছে। আমাদের থেকে কিছুই লাফাই না: প্রত্যাশিত হিসাবে, ডেটা অগোছালো এবং জটিল and প্লটগুলি বা উপস্থাপন করা বিশ্লেষণগুলির উন্নতির সুপারিশ করা অকাল সময়ের আগে: বুনিয়াদি পরিবর্তন এবং অতিরিক্ত বিশ্লেষণ এই মৌলিক বিষয়গুলির সমাধান না করা পর্যন্ত সহায়তা করবে না ।

— whuber
সূত্র

প্রতিক্রিয়ার জন্য আপনাকে ধন্যবাদ. সমালোচনার প্রশস্ততা দেওয়া, আমি মন্তব্যগুলিতে সমস্ত পরামর্শ যথাযথভাবে সম্বোধন করতে সক্ষম হব না (আমাকে অন্য ভেন্যু সম্পর্কে ভাবতে হবে, সম্ভবত অন্য কোনও গুগল ডকুমেন্ট পোস্ট করতে হবে)। তবে আমি এখনই বলব যে উত্তর দেওয়া অসম্ভব বলে আমি মনে করি না (পর্যবেক্ষণের ডেটা যেমন যে কেউ যে কোনও বিষয়ে উত্তর দিতে পারে)। কমপক্ষে, সম্ভাব্য সংশ্লেষের সীমাবদ্ধতাগুলি দেখলে, কেউ দেখতে পাবে যে খ্যাতির প্রভাবগুলি প্রমাণগুলির সাথে সামঞ্জস্যপূর্ণ কিনা।

— অ্যান্ডি ডব্লিউ

@ অ্যান্ডি আমি মনে করি যে বিভ্রান্তিটি যথেষ্ট এবং বিস্তৃত, যাতে এটি সুনামের প্রভাব হিসাবে মনে হলেও এটি একটি শৈল্পিক হতে পারে: আপনি যদি এই সমস্যাগুলি সমাধান না করেন তবে আপনি কোনও বৈধ সিদ্ধান্তে আসতে পারবেন না। অবশ্যই আমি ভুল হতে পারি, তবে প্রমাণের বোঝা আপনার উপরে।

— হোবার

"যদি এটির মতো খ্যাতি প্রভাব থাকে তবে" হ'ল মূল বক্তব্য (যেমনটি আমি এটি দেখছি)। আপনার দ্বারা উপস্থাপিত বেশিরভাগ কনফারেন্স হয় নিরপেক্ষভাবে কোনও পোস্টারের খ্যাতি / পোস্ট নম্বর / ইতিহাসের সাথে সম্পর্কিত বা তাত্ত্বিকভাবে তাদের ইতিহাসের উত্তরগুলির পরে পোস্টারের স্কোর বাড়ানোর প্রত্যাশা করা হবে। যদি আমি খ্যাতি প্রভাবের কোনও প্রমাণ না পাই তবে অনেকগুলি সম্ভাব্য মিশ্রণগুলি এর অনুপস্থিতি ব্যাখ্যা করতে ব্যবহার করা যায় না।

— অ্যান্ডি ডব্লিউ

@ অ্যান্ডি তবে কমপক্ষে একজন পারেন এবং এটি যথেষ্ট। এর মধ্যে লুকানো কারণ, বিষয় জনপ্রিয়তা এবং প্রসঙ্গে টেম্পোরাল পরিবর্তন অন্তর্ভুক্ত রয়েছে। বিশ্লেষণে আপনি যদি এগুলি সমস্ত স্পষ্টভাবে পরিচালনা না করেন তবে আপনার সিদ্ধান্তগুলি সন্দেহজনক হবে। রেকর্ডগুলিতে এক নজরে দেখায় যে বিষয়টির জনপ্রিয়তা এবং সাময়িক পরিবর্তনগুলি বিশাল; তাদের সম্ভাব্য প্রভাবগুলি কী পরিমাণে আমরা যুক্তিযুক্তভাবে সুনামের প্রভাবগুলির পরিমাণ বাড়িয়ে দিতে পারি আশা করতে পারি sw

— whuber

2

@ কার্ডিনাল, এমনকি কোনও আনুষ্ঠানিক সংজ্ঞা ব্যতীত, খুব কম সংখ্যক লোকের পক্ষে ভোটিং প্যাটার্নগুলিতে একটি প্রশংসনীয় প্রভাব পড়ানো সম্ভব হবে (যা আমি মনে করি যে এই প্রসঙ্গে শর্তটি উল্লেখ করছেন)। জন স্কিটির গড় পোস্টটি ছিল মাত্র 5 টির মতো উপার্জন। যদি হঠাৎ করেই একজন ব্যক্তি তার সমস্ত উত্তরকে উজ্জীবিত করার সিদ্ধান্ত নিয়ে থাকে তবে এটি শুরু করতে স্বল্প গড় স্কোরের কারণে একটি যথেষ্ট পরিমাণে প্রভাব ফেলতে পারে।

— অ্যান্ডি ডব্লিউ

5

$Y_t$ $Z_t$ $Y_t = a_0 + a_1 Y_{t-1} + a_2 Z_{t-1} + \epsilon_t$ $Z_t = b_0 + b_1 Y_{t-1} + b_2 Z_{t-1} + \delta_t$ $a_2$ $Z$ $Y$ $Z$ $Y$ $t$ $\Delta Y_t = Y_t - Y_{t-1}$ $Y_t$ $F$ $\chi^2$ $T^{-1}$ $T^{-1/2}$ $Y_t$ $Z_t$ $a_0$ $a_1$ $a_2$

পয়েন্ট 1 এ: আপনি যদি হাত দ্বারা স্থির প্রভাবগুলি করছিলেন তবে আপনার প্রতিক্রিয়া ভেরিয়েবল এবং ব্যাখ্যামূলক ভেরিয়েবল উভয়ই কেন্দ্রিক হওয়া উচিত। প্যানেল ডেটা রিগ্রেশন প্যাকেজটি এটি আপনার জন্য করত তবে জিনিসগুলির দিকে তাকানোর আনুষ্ঠানিক একনোমেট্রিক পদ্ধতি হ'ল "পুলড" রিগ্রেশন থেকে "মধ্যে" বিয়োগ করা ( ওল্ড্রিজের কালো বইটি দেখুন ; আমি দ্বিতীয় সংস্করণটি পরীক্ষা করে দেখিনি, তবে আমি সাধারণত প্রথম সংস্করণটি একনোমেট্রিক প্যানেল ডেটার সেরা পাঠ্যপুস্তক-ধরণের বিবরণ হিসাবে দেখি)।

আপনার 2 পয়েন্টে: অবশ্যই আইকার / হোয়াইট স্ট্যান্ডার্ড ত্রুটিগুলি আপনার পয়েন্টের অনুমানকে প্রভাবিত করবে না; যদি তারা তা করে, এটি একটি ভুল বাস্তবায়ন নির্দেশ করে! সময়-সিরিজের প্রসঙ্গে, নেভি এবং ওয়েস্টের (1987) আরও বেশি উপযুক্ত অনুমানকারী । রূপান্তর চেষ্টা চেষ্টা করতে পারে। আমি ব্যক্তিগতভাবে বক্স-কক্স রূপান্তরটির একটি বড় অনুরাগী, তবে আপনি যে বিশ্লেষণ হাতে নিয়েছেন তার পরিপ্রেক্ষিতে এটি পরিষ্কারভাবে করা কঠিন। প্রথমত, আপনাকে আকৃতির প্যারামিটারের উপরে একটি শিফট প্যারামিটারের প্রয়োজন হবে এবং শিফ্ট প্যারামিটারগুলির মতো মডেলগুলিতে সনাক্ত করা কুখ্যাত are দ্বিতীয়ত, আপনার সম্ভবত বিভিন্ন লোকের জন্য বিভিন্ন শিফট / আকৃতির পরামিতি এবং / অথবা বিভিন্ন পোস্ট এবং / অথবা ... (সমস্ত নরক ভেঙে দেওয়া) প্রয়োজন হবে। গণনা ডেটাও একটি বিকল্প, তবে গড় মডেলিংয়ের প্রসঙ্গে একটি পয়সন রিগ্রেশন লগ রূপান্তরের মতোই দুর্দান্ত, তবুও এটি বৈচিত্র্য = গড়ের একটি অযৌক্তিক ধারণা অনুধাবন করে।

পিএস আপনি সম্ভবত এটি "অনুদৈর্ঘ্য-ডেটা" এবং "সময়-সিরিজ" দিয়ে ট্যাগ করতে পারেন।

— StasK
সূত্র

প্রতিক্রিয়া এবং কয়েকটি মন্তব্য / প্রশ্নের জন্য আপনাকে ধন্যবাদ। আমি সম্মত হলাম এই ডেটাতে আমার আরও কমপক্ষে আরও সুস্পষ্ট সময়ের সিরিজ পদ্ধতির অন্বেষণ করা উচিত ছিল (অবশিষ্টাংশগুলিতে স্বতঃসংশ্লিষ্টতার কোনও প্রমাণ আছে কিনা তা দেখার জন্যও আমি পরীক্ষা করে দেখিনি)। আরও কিছু জটিলতা রয়েছে যদিও এই উপাত্তের টাইম সিরিজ মডেলিংয়ে (টি কী ?, এবং স্কোর নিজেই গতিশীল এবং পোস্টের প্রতি সংখ্যা নির্ধারিত নয়), জেড_টি-এর পূর্বাভাস দেওয়ার জন্য কোনও রিগ্রেশনের প্রয়োজন হবে না, আমি ঠিক জানি জেড_টি কী এর একটি ফাংশন!

— অ্যান্ডি ডব্লিউ

এছাড়াও আমি অত্যন্ত সন্দেহ করি যে স্কোরটি স্থির নয়, এটি আপনাকে কী মনে করে?

— অ্যান্ডি ডব্লিউ

খুব কমপক্ষে, এটি সম্ভবত হিটারোস্কেস্টাস্টিক: কিছু পোস্ট আকর্ষণীয়, প্রচুর হিট এবং প্রচুর পরিমাণে উজ্জীবিত হন, আবার অন্যগুলি ছোট স্পষ্টতা বা আরটিএফএম- "এই লিঙ্কটি পড়ুন" প্রশ্ন / উত্তরগুলির ধরণের। এটি নিজেরাই প্রযুক্তিগতভাবে এটি অ-স্থির করে তুলবে। অবশ্যই স্টেশনারিটি টেস্টযোগ্য অনুমান, তবে এর মতো পাগল ডেটা সহ, আপনি সম্ভবত বিশ্লেষণ পদ্ধতিতে অত্যধিক রক্ষণশীল হওয়ার খুব নিরাপদ দিকে থাকতে চান (বা, যেমন আমি উল্লেখ করেছি, ফলস্বরূপ হতে পারে সে সম্পর্কে সচেতন থাকতে অদ্ভুত)।

— স্টাসকে

আমি শেষ মন্তব্যে কিছুটা বিভ্রান্ত হয়ে পড়েছি। উত্তরের স্কোরকে প্রভাবিত করে এমন বহিরাগত উপাদানগুলি কীভাবে সিরিজকে হেটেরোস্কেস্টেস্টিক করে তোলে (আমি মনে করি যে আপনি বোঝাতে চেয়েছেন যে স্কোরের ভিন্নতা পোস্টের সংখ্যার সাথে আরও বড় / ছোট হয়?), এবং এই প্রশ্নটির সাথে কী প্রাসঙ্গিকতা রয়েছে?

— অ্যান্ডি ডব্লিউ

একটি সময় সিরিজ স্থির থাকে যদি সর্বকালের পয়েন্টগুলিতে প্রান্তিক বিতরণ একই থাকে। এমনকি আপনার একই অর্থ হতে পারে, পরিবর্তিত বৈকল্পিকতা সিরিজটিকে অ-স্থির করে তুলবে। এর উদাহরণ (জি) আআআআআআআচির মডেলগুলি যার জন্য 2000 এর দশকের গোড়ার দিকে একটি নোবেল পুরষ্কার দেওয়া হয়েছিল। তবে এই তথ্যগুলিতে আমি কিছুটা বদলও আশা করব। যদি ওয়েবসাইটটির শ্রোতাগুলি বাড়তে থাকে, তবে একটি উত্তরের একটি নির্দিষ্ট মানের জন্য, আপনি সম্ভবত এটিতে আরও বেশি ভোট দেখতে পাচ্ছেন, যা সম্ভবত স্কোরগুলির গড় এবং তারতম্য উভয়ই বাড়িয়ে তুলবে।

— স্টাসকে

3

প্লটে অন্যান্য বেশ কয়েকটি পরিবর্তন:

পূর্বের খ্যাতি বনাম উত্তর স্কোরের জন্য কোয়ান্টাইল ব্যান্ডগুলি। (প্লট 1 এবং 3)
স্কিটি বনাম অন্যের পক্ষে ঘনত্বের প্লট, পোস্ট # দ্বারা স্তরেবদ্ধ (প্লট 3)
প্রতিযোগী পোস্টের # দ্বারা স্তরকে বিবেচনা করুন
সময় অনুসারে স্তরবদ্ধ (প্রশ্ন জিজ্ঞাসা করার অনেক পরে পয়েন্ট অর্জন করা চালিয়ে যেতে পারে)

এটির মডেলিং আরও শক্ত হবে। আপনি পয়সন রিগ্রেশন বিবেচনা করতে পারেন। সত্যি বলতে গেলে, ভাল প্লট তৈরি করা অন্তর্দৃষ্টি এবং দক্ষতা বিকাশের একটি আরও ভাল পদ্ধতি is আপনার ডেটা সম্পর্কে আরও ভাল ধারণা থাকার পরে মডেলিং শুরু করুন।

— iterator
সূত্র

(+1) পোস্টটি কিছুক্ষণ বসার পরে, আমি বুঝতে পেরেছিলাম যে পয়েন্টগুলির ঘনত্বের দৃশ্যধারণ করা পয়েন্টগুলি তাদের কল্পনা করার চেষ্টা করার চেয়ে অনেক ভাল সমাধান বলে মনে হচ্ছে (যদিও আপনি "স্ট্রেটিফাই" দ্বারা বোঝাচ্ছেন তা আমি নিশ্চিত নই পোস্টটি #"). আমি আনুমানিক কোয়ান্টাইলগুলি প্লট করা একটি ভাল ধারণা বলে মনে করি, যদিও প্লট 1 এবং 2 এর জন্য এটি সম্ভবত বিশাল মেঘের মধ্যে থাকবে। আবার এই প্রসঙ্গে "সময়ের সাথে স্ট্রেটিফাই" এর অর্থ কী তা আমি জানি না, ব্লগ পোস্টে ব্র্যাড লারসনের মন্তব্য এবং এর সাথে আমার প্রতিক্রিয়া দেখুন।

— অ্যান্ডি ডাব্লু

এছাড়াও আমি অত্যন্ত সন্দেহ করি যে প্রতিযোগিতামূলক পোস্টগুলির পর্যবেক্ষিত সম্পর্কের সাথে কোনও সম্পর্ক আছে। আপনি কি ভাবেন যে যাদের খ্যাতি রয়েছে তাদের ইতিহাসে আরও প্রতিযোগিতামূলক উত্তরের সাথে থ্রেডে পোস্ট করা হয়েছে? মডেলিং এড়াতে এবং প্লটগুলিতে ফোকাস করার জন্য অন্যান্য কোভারিয়েটগুলি সম্পর্কে আপনার পরামর্শগুলি পরামর্শের সাথে সাংঘর্ষিক বলে মনে হচ্ছে।

— অ্যান্ডি ডাব্লু

প্রতিযোগী পোস্টগুলির পিছনে ধারণাটি প্রকৃতির অনুসন্ধানী is উত্তর দেওয়ার প্রেরণার সাথে এর কোনও যোগসূত্র নেই। মডেলিং সম্পর্কিত, এটি যে আমি প্রতি সে মডেলিংয়ের বিপক্ষে নই, আপনি তথ্যের আরও ভাল ধারণা না পাওয়া পর্যন্ত আপনি এখনও এটি করতে প্রস্তুত নন। আপনি যদি ডেটা না বুঝেন তবে আপনি মডেলগুলি বুঝতে পারবেন না।

— ইট্রেটর

পোস্ট # দ্বারা স্তরবদ্ধ করে, আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি পোস্টগুলিকে বিন করেন। এটি অন্তর্বর্তী স্কেলে হতে পারে, যেমন ০-১০০ পোস্ট, ১০০-২০০ ইত্যাদি Or অথবা পরিমাণের স্কেলে: ব্যবহারকারীদের বিভক্ত করুন মোট পোস্টের নীচে ১০% আইল, ২০% আইল ইত্যাদি Because এটা ভাল তাকে তার পিয়ার গ্রুপ সাথে তুলনা করতে এত পোস্ট নেই, কিন্তু এটা আপনার সঙ্গীদের একটি পিয়ার গ্রুপ তাকে তুলনা করা কঠিন অবিকল পোস্টের মধ্যে একই # - ডেটা সাহায্য করতে পারে binning।

— ইট্রেটর

বিটিডাব্লু, স্তরবদ্ধকরণের জন্য, আপনি ব্যবহার করতে পারেন coplot()।

— ইটেটর

1

ওহ! (এবং আমি বোঝাতে চাইছি একটি ভাল উপায়ে ;-)) মডেলগুলি নিয়ে আরও যাওয়ার আগে আপনাকে ডেটা দিয়ে কী চলছে তা সম্বোধন করতে হবে।

আমি এই প্লটের মাঝখানে খুব অদ্ভুত বক্ররেখার ব্যাখ্যা দেখতে পাচ্ছি না: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

এ জাতীয় বক্ররেখা দেখে আমার মনে হয় যে এই বিষয়গুলির সম্পর্কে খুব অদ্ভুত কিছু আছে - যে তারা একে অপরের থেকে স্বতন্ত্র নয় এবং পরিবর্তে একই উত্সের পর্যবেক্ষণের কিছু ক্রম প্রতিফলিত করে।

(মাইনর নোট: "মিথস্ক্রিয়া ..." এই প্লটটির শিরোনাম বিভ্রান্তিকর।)

— iterator
সূত্র

5

অক্ষগুলিতে আঁশগুলির অদ্ভুত পছন্দের কারণে এই বক্রটি অদ্ভুত দেখাচ্ছে looks এটি এমন প্রতিক্রিয়ার প্রতিফলন করে যা ব্যবহারকারীর সুনামের সিংহভাগ অবদান রেখেছে: ওয়ান পোস্টের বিস্ময়। এটি এক্সফোনেনশিয়াল কারণ y অক্ষটি লিনিয়ার এবং x অক্ষটি লোগারিথমিক হয়। লগ খ্যাতির সাথে যুক্ত সমস্ত কিছু আপনার কাছে অবশ্যই উপেক্ষা করা উচিত

2

$2$ কারণ অনেক ব্যবহারকারীর জন্যই যেখানে তাদের খ্যাতি শুরু হয় এবং লগের খ্যাতির জন্য আপনার প্রায় কম কিছু বিবেচনা করা উচিত

3

$3$ শুধু গোলমাল হতে। এই হিসাবে, এই গ্রাফিকের 99% এই শব্দটি প্রদর্শন করতে উত্সর্গীকৃত: সেখানে খুব বেশি তথ্য নেই।

— whuber

এই বক্ররেখাটি কীভাবে উপাখ্যানগুলির সাথে সম্পর্কিত তা প্রকৃতির দ্বারা ব্যাখ্যা করা যেতে পারে, এবং সম্ভবত এমন লোকেরা যারা একটি উত্তর পোস্ট করেছেন এবং সেই একমাত্র উত্তর থেকে সমস্ত খ্যাতি অর্জন করেছেন (প্রয়োজনে কেন সম্ভবত ঘটনাটি ঘটছে সে সম্পর্কে আমি আরও বিশদে যেতে পারি) । আমি যদি সর্বাধিক বর্তমান পোস্ট থেকে বর্তমান খ্যাতি বিয়োগের সুনামের পরিকল্পনা করে থাকি তবে এটি বেশিরভাগ অংশের জন্য যত্ন নেওয়া হত (এছাড়াও সেই পর্যবেক্ষণগুলির পরবর্তী বিশ্লেষণের সাথে কোনও সম্পর্ক নেই)। সম্পর্কটি বিভ্রান্তিকর হচ্ছে সে সম্পর্কে আপনি কি বিস্তৃতভাবে যত্নবান হন?

— অ্যান্ডি ডাব্লু

@ হুবুহু, আমি মনে করি না যে আমি 10 ^ 3 এর নীচে কিছু বলব কেবল গোলমাল। খ্যাতি অনুপস্থিত থাকলে অবশ্যই খ্যাতি প্রভাবগুলির একটি তত্ত্ব প্রয়োগ করা উচিত। আমি প্লটে কোনও প্রস্তাবিত উন্নতিকেও স্বাগত জানাই (প্লটের কোনওটিতে তেমন তথ্য নেই!)

— অ্যান্ডি ডব্লিউ

ধন্যবাদ। শিরোনামের জন্য, সম্পর্কের কোনও গণনা নেই। এটি সুনামের তুলনায় প্রান্তিক স্কোরের বিক্ষিপ্ত প্লট। আপনি এবং @ শুভর উল্লেখ ব্যতীত, এটি আসলে প্রান্তিক স্কোর নয়: এটি ডেল্টার্যাপ (বা রেপ (টি) - রেপ (টি -1)) বনাম রেপ (টি -1) হওয়া উচিত।

— Iterator

1

@ ইটারেটর, শেষ বিবৃতিটির জন্য সঠিক (আপভোটের জন্য 10 পয়েন্ট), তবে এটি এখনও উপস্থিত রয়েছে যা আমি অন্য বিবৃতি দিয়ে যা পরিকল্পনা করছি তা আপনি বিভ্রান্ত হতে পারেন। ওয়াই অক্ষটি খ্যাতি নয়, তবে সর্বাধিক সাম্প্রতিক পোস্টের জন্য আপোভোটের সংখ্যা (এটি Rep(t) - Rep(t-1)ব্যবহারকারীরা অন্য স্থান থেকে খ্যাতি অর্জন করতে পারে তা অগত্যা নয় ), এক্স অক্ষটি হ'ল বর্তমান খ্যাতি (সেই পোস্ট থেকে প্রাপ্ত খ্যাতি সহ)। এক্স অক্ষটি হ'ল আমি প্রস্তাবিত প্রতিস্থাপন করা উচিত (আমি ওয়াই অক্ষের উপরে যে প্লট করেছি সেই প্রশ্নের উত্তর থেকে প্রাপ্ত উপকারগুলি বিয়োগ করে)।

— অ্যান্ডি ডাব্লু