ধারাবাহিক ডেটা অবিচ্ছিন্ন হিসাবে আচরণ করার সময় সেরা অনুশীলন


9

প্রাচুর্য আকারের সাথে সম্পর্কিত কিনা তা আমি দেখছি। আকার (অবশ্যই) অবিচ্ছিন্ন, তবে, প্রচুর পরিমাণে এমন একটি স্কেল রেকর্ড করা হয়

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

এ কিউ ... 17 স্তরের মাধ্যমে। আমি ভাবছিলাম যে একটি সম্ভাব্য পদ্ধতির প্রতিটি অক্ষরকে একটি সংখ্যা নির্ধারণ করা হবে: হয় সর্বনিম্ন, সর্বোচ্চ, বা মাঝারি (যেমন এ = 5, বি = 18, সি = 38, ডি = 75.5 ...)।

সম্ভাব্য সমস্যাগুলি কী কী - এবং যেমন, এই ডেটাটিকে শ্রেণিবদ্ধ হিসাবে গণ্য করা ভাল কি?

আমি এই প্রশ্নের মধ্য দিয়ে পড়েছি যা কিছু চিন্তাভাবনা সরবরাহ করে - তবে এই ডেটা সেটের কীগুলির মধ্যে একটি হল যে বিভাগগুলিও নয় - তাই এটিকে শ্রেণিবদ্ধ হিসাবে বিবেচনা করা এ এবং বি এর মধ্যে পার্থক্য হিসাবে ধরে নেবে বি এবং সি ... (যা লগারিদম ব্যবহার করে সংশোধন করা যায় - ধন্যবাদ অ্যানোনিউস)

পরিশেষে, আমি দেখতে চাই যে অন্যান্য পরিবেশগত বিষয়গুলি বিবেচনায় নেওয়ার পরে আকারটি প্রাচুর্যের পূর্বাভাসক হিসাবে ব্যবহার করা যায় কিনা। পূর্বাভাসটিও একটি ব্যাপ্তিতে থাকবে: প্রদত্ত আকার এক্স এবং ফ্যাক্টর এ, বি এবং সি দেওয়া আমরা অনুমান করি যে প্রচুর পরিমাণে ওয়াই মিন এবং ম্যাক্সের মধ্যে পড়বে (যা আমি মনে করি এক বা একাধিক স্কেল পয়েন্ট বিস্তৃত করতে পারে: মিন ডি থেকে বেশি এবং এর চেয়ে কম) ম্যাক্স এফ ... যদিও আরও সুনির্দিষ্ট আরও ভাল)।

উত্তর:


13

শ্রেণিবদ্ধ সমাধান

মানগুলিকে শ্রেণিবদ্ধ হিসাবে আচরণ করা আপেক্ষিক আকারগুলির সম্পর্কে গুরুত্বপূর্ণ তথ্য হারায় । এ থেকে উত্তরণের জন্য একটি স্ট্যান্ডার্ড পদ্ধতিতে আদেশ দেওয়া হয় লজিস্টিক রিগ্রেশন । বাস্তবে, এই পদ্ধতিটি "জানে"A<B<<J< এবং, রেজিস্ট্রারগুলির সাথে পর্যবেক্ষিত সম্পর্কগুলি ব্যবহার করে (যেমন আকার) আদেশটিকে সম্মান করে এমন প্রতিটি বিভাগের মান (কিছুটা নির্বিচারে) মানগুলি ফিট করে।

একটি চিত্র হিসাবে 30 হিসাবে বিবেচনা করুন (আকার, প্রাচুর্য বিভাগ) হিসাবে উত্পন্ন জোড়

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

প্রচুর পরিমাণে অন্তরগুলিতে [0,10], [11,25], ..., [10001,25000] এ শ্রেণীবদ্ধ করা হয়েছে।

আকার বনাম আকারে প্রাচুর্য বিভাগের স্ক্র্যাটারপ্ল্লট

আদেশযুক্ত লজিস্টিক রিগ্রেশন প্রতিটি বিভাগের জন্য সম্ভাব্য বন্টন উত্পাদন করে; বিতরণ আকারের উপর নির্ভর করে। এই জাতীয় বিশদ তথ্য থেকে আপনি তাদের চারপাশে আনুমানিক মান এবং বিরতি উত্পাদন করতে পারেন। এই ডেটাগুলি থেকে অনুমান করা 10 পিডিএফগুলির একটি প্লট এখানে রয়েছে (সেখানে 10 এর ডেটা অভাবের কারণে বিভাগের 10 এর অনুমান করা সম্ভব হয়নি):

বিভাগ দ্বারা সম্ভাবনা ঘনত্ব

অবিচ্ছিন্ন সমাধান

প্রতিটি বিভাগকে উপস্থাপন করতে এবং ত্রুটি শর্তের অংশ হিসাবে বিভাগের মধ্যে প্রকৃত প্রাচুর্য সম্পর্কে অনিশ্চয়তা দেখার জন্য কেন একটি সংখ্যাসূচক মান নির্বাচন করবেন না ?

আমরা এটি একটি আদর্শিক পুনঃপ্রকাশের একটি স্বতন্ত্র অনুমান হিসাবে বিশ্লেষণ করতে পারি f যা প্রাচুর্যের মানকে রূপান্তর করে a অন্যান্য মান মধ্যে f(a) যার জন্য পর্যবেক্ষণমূলক ত্রুটিগুলি, একটি ভাল অনুমানের, প্রতিসম বিতরণ এবং মোটামুটি একই প্রত্যাশিত আকার নির্বিশেষে a (একটি বৈকল্পিক-স্থিতিশীল রূপান্তর)।

বিশ্লেষণকে সহজ করার জন্য, ধরুন এই ধরণের রূপান্তর অর্জনের জন্য বিভাগগুলি বেছে নেওয়া হয়েছে (তত্ত্ব বা অভিজ্ঞতার ভিত্তিতে)। আমরা তখন ধরে নিতে পারিf বিভাগের কাটপয়েন্টগুলি পুনরায় প্রকাশ করে αi তাদের সূচক হিসাবে i। প্রস্তাবটি কিছু "বৈশিষ্ট্যযুক্ত" মান নির্বাচন করার সমানβi প্রতিটি বিভাগের মধ্যে i এবং ব্যবহার f(βi) প্রাচুর্যের সংখ্যাগত মান হিসাবে যখনই প্রাচুর্যের মধ্যে শুয়ে থাকে αi এবং αi+1। এটি সঠিকভাবে পুনরায় প্রকাশিত মানের জন্য প্রক্সি হবেf(a)

ধরা যাক, সেই প্রাচুর্য ত্রুটিযুক্তভাবে পালন করা হয় ε, যাতে হাইপোথিটিক্যাল ডেটাম আসলে হয় a+ε পরিবর্তে a। এটিকে কোড করার ক্ষেত্রে ত্রুটিf(βi) সংজ্ঞা দ্বারা, পার্থক্য f(βi)f(a), যা আমরা দুটি শর্তের পার্থক্য হিসাবে প্রকাশ করতে পারি

error=f(a+ε)f(a)(f(a+ε)f(βi)).

প্রথম পদ, f(a+ε)f(a)দ্বারা নিয়ন্ত্রিত হয় f (আমরা কিছুই করতে পারি না ε) এবং যদি আমরা প্রচুর পরিমাণে শ্রেণিবদ্ধ না করি তবে উপস্থিত হবে । দ্বিতীয় শব্দটি এলোমেলো - এটি নির্ভর করেε- এবং স্পষ্টতই এর সাথে সম্পর্কযুক্ত ε। তবে আমরা এটি সম্পর্কে কিছু বলতে পারি: এটি অবশ্যই থাকা উচিতif(βi)<0 এবং i+1f(βi)0। তাছাড়া, যদিfএকটি ভাল কাজ করছে, দ্বিতীয় শব্দটি প্রায় অভিন্নভাবে বিতরণ করা হতে পারে । উভয় বিবেচনাই বেছে নেওয়ার পরামর্শ দেয়βi যাতে f(βi) মাঝখানে পড়ে আছে i এবং i+1; এটাই,βif1(i+1/2)

এই প্রশ্নের এই বিভাগগুলি একটি প্রায় জ্যামিতিক অগ্রগতি গঠন করে যা এটি সূচিত করে fলগারিদমের সামান্য বিকৃত সংস্করণ। অতএব, প্রাচুর্য উপাত্ত উপস্থাপনের জন্য আমাদের অন্তর শেষ প্রান্তের জ্যামিতিক উপায়গুলি ব্যবহার করা উচিত

এই পদ্ধতির সাথে সাধারণ সর্বনিম্ন স্কোয়াস রিগ্রেশন (ওএলএস) 8ালাইয়ের পরিবর্তে .1.১৯ (স্ট্যান্ডার্ড ত্রুটি ০.০8) এবং se..1৯ (স্টেটারের ০.৯7) এর বিপরীতে 7..70০ (স্ট্যান্ডার্ড ত্রুটি ০.০8) হয় এবং and..6৯ (সে এর মধ্যভাগ) 0.56) আকারের তুলনায় লগ প্রচুর পরিমাণে পুনরায় চাপানোর সময় । উভয়ই গড়ের প্রতি প্রতিক্রিয়া প্রদর্শন করে, কারণ তাত্ত্বিক opeাল কাছাকাছি হওয়া উচিত4log(10)9.21। প্রত্যাশিত হিসাবে যুক্ত বিচক্ষণতা ত্রুটির কারণে শ্রেণীবদ্ধ পদ্ধতিটি গড়ের (আরও ছোট opeালু) দিকে আরও কিছুটা রিগ্রেশন প্রদর্শন করে।

রিগ্রেশন ফলাফল

এই প্লটটি শ্রেণিবদ্ধ প্রচুর পরিমাণের উপর ভিত্তি করে ফিটের সাথে শ্রেণিবদ্ধ প্রাচুর্যগুলি দেখায় (প্রস্তাবিত হিসাবে বিভাগের সমাপ্তির জ্যামিতিক উপায় ব্যবহার করে) এবং প্রাচুর্যগুলির উপর ভিত্তি করে একটি ফিট fit তড়কা সাতিশয় কাছাকাছি, যা নির্দেশ উপযুক্ত মনোনীত সংখ্যাসূচক মান দ্বারা বিভাগ প্রতিস্থাপন এই পদ্ধতি উদাহরণে ভাল কাজ করে

উপযুক্ত "মিডপয়েন্ট" বেছে নেওয়ার জন্য সাধারণত কিছু যত্ন প্রয়োজন βi দুটি চরম বিভাগের জন্য, কারণ প্রায়শই fসেখানে আবদ্ধ হয় না। (এই উদাহরণের জন্য আমি প্রথম বিভাগের বাম দিকের পয়েন্টটি অপরিশোধিতভাবে নিয়েছি1 বরং 0 এবং শেষ বিভাগের ডান এন্ডপয়েন্ট 25000।) একটি সমাধান হ'ল প্রথমে চূড়ান্ত বিভাগগুলির মধ্যে নয়, ডেটা ব্যবহার করে সমস্যাটি সমাধান করা, তারপরে সেই চরম বিভাগগুলির জন্য উপযুক্ত মানগুলি অনুমান করার জন্য ফিট ব্যবহার করুন, তারপরে ফিরে যান এবং সমস্ত ডেটা ফিট করুন fit পি-মানগুলি সামান্য খুব ভাল হবে তবে সামগ্রিকভাবে ফিট আরও সঠিক এবং কম পক্ষপাতী হওয়া উচিত।


+1 দুর্দান্ত উত্তর! আমি বিশেষত পছন্দ করি যে কীভাবে 2 টি বিকল্প তাদের ন্যায্যতার সাথে বর্ণনা করা হয়। আমি আকারের নয়, প্রচুর লগ গ্রহণ করে জড়ো হই, জোর হওয়া উচিত, যা আমার চিন্তাভাবনাও ছিল। একটি প্রশ্ন, অংশ 1 এ, আপনি বলেছেন "আপনি তাদের চারপাশে আনুমানিক মান এবং বিরতি তৈরি করতে পারেন"। এক এই কিভাবে কাজ করে?
গুং - মনিকা পুনরায়

ভাল প্রশ্ন, @ গুং। একটি অপরিশোধিত উপায়, কার্যকর হতে পারে যা বিভাগগুলি অন্তর-মূল্যবান ডেটা হিসাবে বিবেচনা করে এবং আদেশিত লজিট ফলাফলগুলি 'আকারের' প্রদত্ত কোনও মানের জন্য সেই ব্যবধানগুলিতে একটি (বিচ্ছিন্ন) বিতরণ সরবরাহ করে। ফলাফলটি একটি বিরতি-মূল্যবান বিতরণ, যার একটি অন্তর-মূল্যবান গড় এবং অন্তর-মূল্যবান আত্মবিশ্বাস সীমা থাকবে।
whuber

3
@ হুবুহু, এটি সফ্টওয়্যার বিকল্পগুলি উল্লেখ করার মতো হবে। আমি অনুমান করছি যে আপনি স্টাটা ব্যবহার করেছেন (যদি আমি স্টাটা গ্রাফগুলি সম্পর্কে যথেষ্ট প্রশিক্ষিত হয়েছি এবং তাদের আর এবং এসএএস গ্রাফ থেকে বলি), যেখানে এই মডেলটি লাগানো আছে ologit। আর এ, আপনি প্যাকেজ সহ polrএটি করতে পারেন MASS
StasK

1
আপনি সঠিক, @ স্ট্যাস্ক। আর সমাধানের রেফারেন্সের জন্য ধন্যবাদ। (গ্রাফ Stata 11 সব ডিফল্ট গ্রাফ হয়; গত এক মাত্র কিংবদন্তি ও রেখার ধরন তৈরি কাস্টমাইজড হয়েছে কারণ লাল-সবুজ পার্থক্য অন্যথায় সব পাঠকদের 3 সম্পর্কে% পর্যন্ত আপাত হতে পারে।)
whuber

2
@ স্ট্যাস্ক rms::lrmএবং অর্ডিনাল ( clm) প্যাকেজটিও ভাল বিকল্প।
chl

2

আকারের লোগারিদম ব্যবহার বিবেচনা করুন ।


হা - যে উত্তরটি একটি আংশিক মুখের তালুতে ক্লিক করেছে। সত্য যে এটি স্কেল ইস্যুটির যত্ন নেয় - তবে এখনও হাতে রয়েছে: শ্রেণিবদ্ধ করা বা না, এবং কোন নম্বরটি "মান" তে টানতে হবে। যদি এই প্রশ্নগুলি অপ্রাসঙ্গিক হয় তবে আমি সেগুলিও হ্যান্ডেল করতে পারি।
গাছ

1
ভাল, আপনি বিভিন্ন ইস্যু এক মধ্যে রাখা হয়েছে। আপনার কাছে থাকা ডেটাগুলি লগারিদমিক স্কেলে আরও বোধগম্য মনে হয়েছে। আপনি বিনিং করতে চান কিনা তা পৃথক প্রশ্ন, এবং সেখানে আমার কাছে কেবল আপনার জন্য আরও একটি মুখের পাম জবাব রয়েছে: আপনার ডেটা এবং আপনি কী অর্জন করতে চান তার উপর নির্ভর করে। তারপরে আরও একটি লুকানো প্রশ্ন রয়েছে: আমি কীভাবে অন্তরগুলির মধ্যে পার্থক্যটি গণনা করব - তাদের মাধ্যমের পার্থক্যটি গণনা করব? অথবা সর্বনিম্ন দূরত্ব (তারপরে A থেকে B 0, B থেকে C হবে 0, তবে A থেকে C নয়)। ইত্যাদি
কিট আছে - অ্যানি-মৌসিস

ভাল পয়েন্টস, আমি লক্ষ্যগুলি মোকাবিলা করতে আরও তথ্য দিয়ে আমার প্রশ্ন আপডেট করেছি। অন্তরগুলির পার্থক্য হিসাবে, আমি মনে করি এটি আমার প্রশ্ন - অর্থের পার্থক্য, ন্যূনতম দূরত্ব, সর্বাধিক দূরত্ব, মিনিটের মধ্যবর্তী দূরত্ব, সর্বাধিকের মধ্যে দূরত্ব ইত্যাদির উপর ভিত্তি করে অন্তর गणना করার অপেক্ষাকৃত সুবিধা / অসুবিধাগুলি কী হবে? কোন পরামর্শ এই সিদ্ধান্ত নেওয়ার জন্য আমার কী ধরণের জিনিস বিবেচনা করা উচিত (বা এটি এমনকি বিবেচনার প্রয়োজন হলে) দুর্দান্ত হবে।
গাছ

এখানে আরও প্রচুর বিকল্প রয়েছে। উদাহরণস্বরূপ, সমস্ত স্কেল ইফেক্টগুলি বাদ দিতে, আপনি পরিবর্তে র‌্যাঙ্কিং অবস্থানের পূর্বাভাস দেওয়ার চেষ্টা করতে পারেন। এটি বাদে এটি ত্রুটিগুলি পরিমাপ করার প্রশ্ন। লগারিদম গ্রহণ করে, আপনি সাধারণত ত্রুটিগুলি এইভাবে ওজন করে যান। সুতরাং যখন আসল মান 10000 হয় এবং পূর্বাভাসিত মান 10100 হয় পূর্বাভাসকৃত মান 1 এবং সত্য মানের 101 এর তুলনায় এটি অনেক কম হয় ning 0 দিয়ে ত্রুটিগুলি
কিট করুন - অ্যানি-মৌসেস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.