আইআইডি নমুনা পরীক্ষার জন্য পরীক্ষা


16

আপনি কীভাবে পরীক্ষা বা পরীক্ষা করে দেখতে পারবেন যে স্যাম্পলিং আইআইডি (স্বতন্ত্র এবং আইডেন্টালি বিতরণ করা হয়)? মনে রাখবেন যে আমি গাউসিয়ান এবং আইডেন্টিটিলি বিতরণ করি না, কেবল আইআইডি।

এবং আমার মনে যে ধারণাটি আসে তা হ'ল নমুনাকে বারবার সমান আকারের দুটি উপ-নমুনায় ভাগ করা, কোলমোগোরভ-স্মারনভ পরীক্ষা করা এবং পি-মানগুলির বন্টন অভিন্ন কিনা তা পরীক্ষা করা।

এই পদ্ধতির বিষয়ে কোনও মন্তব্য, এবং কোনও পরামর্শ স্বাগত।

অনুগ্রহ শুরুর পরে স্পষ্টতা: আমি একটি সাধারণ পরীক্ষা খুঁজছি যা নন টাইম সিরিজের ডেটাতে প্রয়োগ করা যেতে পারে।


এটি কি টাইম সিরিজের ডেটা?
danas.zuokas

@ gui11aume আপনি কি "আইবল" পরীক্ষাটি ব্যবহার করে দেখেছেন? এটি হ'ল ডেটা প্লট করুন এবং দেখুন এটি আইআইডি লাগছে কিনা।
ম্যাক্রো

আমি না। আপনি কী বলতে চাইছেন তা সম্পর্কে আমি নিশ্চিত নই: মানগুলি যে ক্রমে আসে সেগুলি প্লট করুন (সম্ভবত এলোমেলো)? এবং তারপরে স্ট্রাইকিং প্যাটার্নের অনুপস্থিতি পরীক্ষা করে দেখুন?
gui11aume

1
আপনার কি "রান টেস্ট" দেখেছিলেন? en.wikedia.org/wiki/Wald%E2%80%93 ওল্ফওয়েট_সরাংস_তম
স্টাফেন লরেন্ট

1
দুঃখিত। আমি নিম্নলিখিত রান পরীক্ষার কথা মনে রেখেছিলাম : আপেনড্রে-ইন- লিগনেটনেট / রেন্ডম / রুন এইচটিএমএল (তবে এটি ফরাসি ভাষায় লিখিত)
স্টাফেন লরেন্ট

উত্তর:


14

ডেটা আইআইডি হলে আপনি কী উপসংহারে তা বাইরের তথ্য থেকে আসে, তথ্য নিজেই নয়। বিজ্ঞানী হিসাবে আপনার এটি নির্ধারণ করা দরকার যে কীভাবে তথ্য সংগ্রহ করা হয়েছিল এবং অন্যান্য বাইরের তথ্যের উপর ভিত্তি করে ডেটা আইআইডি ধরে নেওয়া যুক্তিসঙ্গত কিনা if

কিছু উদাহরণ বিবেচনা করুন।

দৃশ্য 1: আমরা 2 টি স্বাভাবিকের মিশ্রণ হতে পারে এমন একক বিতরণ থেকে স্বাধীনভাবে একটি সেট তৈরি করি।

পরিস্থিতি 2: আমরা প্রথমে দ্বিপদী বিতরণ থেকে একটি লিঙ্গ পরিবর্তনশীল উত্পন্ন করি, তারপরে পুরুষ ও স্ত্রীদের মধ্যে আমরা স্বতন্ত্রভাবে একটি সাধারণ বিতরণ থেকে ডেটা উত্পন্ন করি (তবে সাধারণগুলি পুরুষ এবং স্ত্রীদের জন্য পৃথক পৃথক), তারপরে আমরা লিঙ্গ সম্পর্কিত তথ্য মুছতে বা হারাতে পারি।

1 দৃশ্যে ডেটা আইআইডি এবং 2 দৃশ্যে ডেটা স্পষ্টভাবে সনাক্ত করা হয় না (পুরুষ এবং স্ত্রীদের জন্য বিভিন্ন বিতরণ), তবে 2 টি পরিস্থিতিতে দুটি বিতরণ ডেটা থেকে পৃথক, আপনাকে কীভাবে তথ্য সম্পর্কে তথ্য জানতে হবে পার্থক্য নির্ধারণের জন্য উত্পন্ন হয়েছিল

পরিস্থিতি 3: আমি আমার শহরে বসবাসকারী মানুষের একটি সাধারণ এলোমেলো নমুনা নিয়েছি এবং একটি সমীক্ষা চালিয়ে যাচ্ছি এবং শহরের সমস্ত লোকের সম্পর্কে তথ্য নির্ধারণের জন্য ফলাফলগুলি বিশ্লেষণ করি।

পরিস্থিতি 4: আমি আমার শহরে বসবাসকারী মানুষের একটি সাধারণ এলোমেলো নমুনা গ্রহণ করি এবং একটি সমীক্ষা পরিচালনা করি এবং দেশের সমস্ত লোক সম্পর্কে তথ্য অন্তর্ভুক্ত করার জন্য ফলাফলগুলি বিশ্লেষণ করি।

3 দৃশ্যে বিষয়গুলি স্বতন্ত্র হিসাবে বিবেচিত হবে (সুদের জনসংখ্যার সাধারণ এলোমেলো নমুনা), তবে 4 দৃশ্যে এগুলি স্বতন্ত্র বলে বিবেচিত হবে না কারণ তারা আগ্রহের জনসংখ্যার একটি ক্ষুদ্র উপসেট থেকে নির্বাচিত হয়েছিল এবং ভৌগলিক ঘনিষ্ঠতা সম্ভবত আরোপিত হবে নির্ভরতা। তবে ২ টি ডেটাসেট অভিন্ন, এটি সেই পদ্ধতিতে আমরা ডেটা ব্যবহার করার ইচ্ছা করি যা নির্ধারণ করে যে তারা এই ক্ষেত্রে স্বতন্ত্র বা নির্ভরশীল কিনা।

সুতরাং কেবলমাত্র ডেটা ব্যবহার করে পরীক্ষা করার কোনও উপায় নেই যে ডেটা আইআইডি, প্লট এবং অন্যান্য ডায়াগনস্টিকস কিছু ধরণের নন-আইআইডি প্রদর্শন করতে পারে তবে এগুলির অভাবে ডেটা আইআইডি হওয়ার গ্যারান্টি নেই। আপনি নির্দিষ্ট অনুমানের সাথেও তুলনা করতে পারেন (আইআইডি সাধারণ কেবল আইআইডি-র তুলনায় অস্বীকার করা সহজ)। যে কোনও পরীক্ষা এখনও একটি নিয়ম বাইরে, কিন্তু পরীক্ষা প্রত্যাখ্যান করতে ব্যর্থতা কখনও প্রমাণ করে না যে এটি আইআইডি।

আপনি আইডিআইডি শর্তাদি ধারণ করে কিনা তা সিদ্ধান্ত গ্রহণের জন্য কীভাবে তথ্য সংগ্রহ করা হয়েছিল, কীভাবে এটি অন্যান্য তথ্যের সাথে সম্পর্কিত, এবং কীভাবে এটি ব্যবহার করা হবে তার বিজ্ঞানের উপর ভিত্তি করে সিদ্ধান্ত নেওয়া দরকার।

সম্পাদনা:

অ-অভিন্নের জন্য উদাহরণগুলির আরও একটি সেট এখানে।

পরিস্থিতি 5: ডেটা হ'ল একজাতীয় অবস্থানের অবশিষ্টাংশ যেখানে বিজাতীয়ত্ব রয়েছে (রূপগুলি সমান নয়)।

পরিস্থিতি 6: ডেটা গড়ের সাথে 0 তবে বিভিন্ন বৈকল্পিক সহ নরমালদের মিশ্রণ থেকে প্রাপ্ত।

5 দৃশ্যে আমরা স্পষ্টভাবে দেখতে পাচ্ছি যে আমরা যদি লাগানো মান বা অন্যান্য ভেরিয়েবল (ভবিষ্যদ্বাণীকারী, বা সম্ভাব্য ভবিষ্যদ্বাণীকারী) এর বিরুদ্ধে অবশিষ্টাংশগুলি পরিকল্পনা করি তবে অবশিষ্টাংশগুলি অভিন্নভাবে বিতরণ করা হয় না, তবে অবশিষ্টাংশগুলি (বাইরের তথ্য ব্যতীত) দৃশ্য 6 থেকে পৃথক হতে পারে।


এই উত্তরের প্রথম অংশটি বিশেষত আমার কাছে কিছুটা বিভ্রান্ত (বা বিভ্রান্তিকর) বলে মনে হচ্ছে। IID হচ্ছে একটি ভালভাবে সংজ্ঞায়িত গাণিতিক সম্পত্তি একটি এর র্যান্ডম ভেরিয়েবল সসীম সেট । "লিঙ্গ সম্পর্কিত তথ্য হারানোর পরে" দ্বিতীয় ক্ষেত্রে র্যান্ডম ভেরিয়েবলগুলি পাওয়া গেলে আপনার পরিস্থিতি 1 এবং 2 একরকম । তারা উভয় ক্ষেত্রেই আইডি!
কার্ডিনাল

গ্রেগসনো আমি আপনার দাবির সাথে পুরোপুরি একমত নই। এটি হতে পারে যে আপনি জানেন যে ডেটাটি একইভাবে বিতরণ করা এলোমেলো ভেরিয়েবলের ক্রম থেকে আসে। আপনি জানেন না ঠিক কী মডেল এটি তৈরি করেছে। এটি হতে পারে যে তারা স্বতন্ত্রভাবে উত্পাদিত হয় বা পর্যায়ক্রমে কোনও স্টেশনারি সময় সিরিজ থেকে আসে। কোনটি কেস তা সিদ্ধান্ত নেওয়ার জন্য ধরুন আপনি জানেন যে অভিন্ন বন্টন স্বাভাবিক। তারপরে উভয় সম্ভাবনাগুলি স্থির ক্রমের ক্যাটাগরির অন্তর্গত হয় এবং কেবলমাত্র সমস্ত ননজারো ল্যাগ স্বয়ংক্রিয়করণগুলি 0 হয় তবে এটি আইডি হবে যদি এই সংযোগটি সঠিকভাবে পরীক্ষা করা উপযুক্ত হয়
মাইকেল আর। চেরনিক

2
@ কার্ডিনাল, সুতরাং আপনি কি সম্মত হন যে লিঙ্গ সম্পর্কিত তথ্য হারানোর আগে 2 দৃশ্যের ডেটা একইভাবে বিতরণ করা হয়নি? সুতরাং আমাদের এমন কেস হবে যেখানে সেগুলি অভিন্ন নয়, তবে পার্থক্যটি বলার একমাত্র উপায় হ'ল ভেরিয়েবলের বাইরের তথ্য ব্যবহার করা (এই ক্ষেত্রে লিঙ্গ)। হ্যাঁ আইআইডি হচ্ছে একটি সংজ্ঞায়িত গাণিতিক সম্পত্তি, তবে এটি একটি পূর্ণসংখ্যা হিসাবে চিহ্নিত করা হয়, আপনি কি পরীক্ষা করতে পারেন যে তথ্য পয়েন্ট 3 কোন ভাসমান পয়েন্ট সংখ্যা হিসাবে সঞ্চিত একটি পূর্ণসংখ্যা বা একটি অবিচ্ছিন্ন মান যেখানে এটি এসেছে সে সম্পর্কে বাইরের তথ্য ছাড়াই গোল করা হয়েছে কিনা? থেকে।
গ্রেগ স্নো

2
জেডএক্সআমিএক্স,আমিএক্সআমি|জেডএক্স|জেডজেডZ

তবে আপনি উপরে যা বলছেন তার সমস্ত তথ্য কেবলমাত্র ডেটা নয়, কীভাবে ডেটা সংগ্রহ / উত্পন্ন হয়েছিল সে সম্পর্কে তথ্য ব্যবহার করে। এমনকি আমাদের কাছে এমন ডেটা রয়েছে যা সমর্থন করে যে এমন কোনও টাইম সিরিজ স্বতঃসংশ্লিষ্টতা নেই যা আমাদের স্থানিক পারস্পরিক সম্পর্ক বা স্বতন্ত্রতার অন্যান্য ধরণের সম্পর্কে কিছু বলে না। আমরা কি প্রতিটি সম্ভাব্য নির্ভরতা জন্য সত্যই পরীক্ষা করতে পারি এবং অর্থপূর্ণ ফলাফল পেতে পারি? বা কোন পরীক্ষাগুলির অর্থবহ সম্ভাবনা রয়েছে তা গাইড করার জন্য আমাদের কীভাবে ডেটা সংগ্রহ করা হয়েছিল সে সম্পর্কে তথ্য ব্যবহার করা উচিত?
গ্রেগ স্নো

5

যদি ডেটাতে কোনও সূচকের অর্ডার থাকে তবে আপনি সময় সিরিজের জন্য সাদা গোলমাল পরীক্ষা ব্যবহার করতে পারেন। মূলত এর মানে হল পরীক্ষা করা যে সমস্ত শূন্য নন ল্যাগে স্বতঃসংশ্লিষ্ট হয় 0 এটি স্বাধীনতার অংশটিকে পরিচালনা করে। আমার ধারণা আপনার দৃষ্টিভঙ্গি মূলত অনুমানের অভিন্ন বিতরণ অংশটি সম্বোধন করার চেষ্টা করছে। আমি মনে করি আপনার পদ্ধতির সাথে কিছু সমস্যা আছে। আমি মনে করি ইউনিফর্মের জন্য পরীক্ষার জন্য পর্যাপ্ত পি-ভ্যালুগুলি পেতে আপনার অনেকগুলি বিভক্ত হওয়া দরকার। তারপরে প্রতিটি কেএস পরীক্ষার শক্তি হারাতে থাকে। আপনি যদি এমন বিভাজনগুলি ব্যবহার করেন যা ডেটা সেটগুলির অংশগুলিতে ওভারল্যাপ হয় তবে পরীক্ষাগুলি পরস্পর সম্পর্কযুক্ত হবে। অল্প সংখ্যক স্প্লিটের সাথে অভিন্নতার পরীক্ষায় পাওয়ার অভাব রয়েছে। তবে অনেকগুলি বিভক্ত হয়ে ইউনিফর্মিটি টেস্টটি শক্তিশালী হতে পারে তবে কেএস টেস্টগুলি তা করবে না। এছাড়াও মনে হয় যে এই পদ্ধতির পরিবর্তনশীলগুলির মধ্যে নির্ভরতা সনাক্ত করতে সহায়তা করবে না।

@ gu11aume নন-টাইম সিরিজের জন্য আপনি সাধারণ পরীক্ষার জন্য যা চাইছেন তা আমি নিশ্চিত নই। স্থানিক তথ্য নন-টাইম সিরিজ ডেটাগুলির একটি ফর্ম সরবরাহ করে। সেখানে ভেরোগ্রাম নামক ফাংশনটি লক্ষ্য করা যেতে পারে। এক-মাত্রিক সিকোয়েন্সের জন্য আমি ডেটা অর্ডার করার অন্য কোনও পদ্ধতি থেকে সময় অনুসারে ক্রমযুক্ত ক্রমগুলির মধ্যে খুব বেশি পার্থক্য দেখতে পাই না। একটি স্বতঃসংশোধন ফাংশন এখনও সংজ্ঞায়িত এবং পরীক্ষা করা যেতে পারে। আপনি যখন বলেন যে আপনি স্যাম্পলিংয়ে স্বাধীনতা পরীক্ষা করতে চান, তখন আমার মনে হয় আপনার একটি অর্ডার রয়েছে যাতে নমুনাগুলি সংগ্রহ করা হয়। তাই আমি মনে করি 1-মাত্রিক সমস্ত মামলা একইভাবে কাজ করে।


2
(+1) যেহেতু আমি এটিই ভাবছিলাম তবে পুনরায়: "ডেটাতে যদি একটি সূচকের অর্ডিং থাকে তবে আপনি সময় সিরিজের জন্য সাদা শোরগোল পরীক্ষা ব্যবহার করতে পারেন Es মূলত এর অর্থ পরীক্ষার অর্থ হ'ল সমস্ত শূন্য নথিতে স্বতঃআরঙ্কগুলি ০." - এই যুক্তি কেবল তখনই প্রযোজ্য যখন আপনি কোনও স্থির সময় সিরিজ নিয়ে কাজ করছেন, তাই না? অন্যথায়, আপনি পিছিয়ে থাকা সম্পর্কের বিষয়ে বিভ্রান্তিমূলক ফলাফল পেতে পারেন। উদাহরণস্বরূপ, যদি সময় সিরিজের কেবল "পরে" অংশটি স্বতঃসংশ্লিষ্ট হয়?
ম্যাক্রো

1
@ ম্যাক্রো আমি ভেবেছিলাম যে ওপি-তে আপনার প্রশ্নের ভিত্তিতে আপনার মনে এটি ছিল। তবে আমি এটিকে নির্দেশ করার জন্য তার প্রতিক্রিয়াটির অপেক্ষা করা প্রয়োজন বলে মনে করি না। আপনি যখন স্বাধীনতার সন্ধান করছেন তখন এটি প্রযোজ্য। তবে আমি আপনার বক্তব্য বুঝতে পারি। অনুশীলনে আপনি কেবল প্রথম কে ল্যাগগুলি পরীক্ষা করেন। যদি সিরিজটি স্থির থাকে তবে k এর সাথে পারস্পরিক সম্পর্ক হ্রাস পাবে তবে ননস্টেশনারি সিরিজের ক্ষেত্রে তা নয়। সুতরাং অন্তত তত্ত্বের ক্ষেত্রে আপনি কোনও অস্টেশনারি সিরিজের জন্য বৃহত্তর পিছনে পারস্পরিক সম্পর্ককে মিস করবেন।
মাইকেল আর চেরনিক

2
ভাল, একটি স্টেশানবিহীন সময় সিরিজের জন্য এটি স্বতঃসংশ্লিষ্টতাটিকে পিছনের কোনও ফাংশন হিসাবে দেখার জন্য বোধও করতে পারে না। যদিR(Yটি,Yগুলি)=(গুলি,টি) এবং (গুলি,টি) শুধুমাত্র একটি কাজ নয় |গুলি-টি|তারপরে সমস্ত ধরণের অদ্ভুত জিনিস এটির ভান করে ঘটতে পারে। আমি সত্যিই কেবল জিজ্ঞাসা করছি যে
ম্যাক্রো

আপনার উত্তরের জন্য ধন্যবাদ মাইকেল! আপনি ঠিক বলেছেন: যদি ডেটা কোনও সময় সিরিজ হয় তবে অটো-পারস্পরিক সম্পর্ক পরীক্ষা করা সেরা পন্থা। বিভক্ত কেএস পদ্ধতির আপনার সমালোচনা হিসাবে, আপনারও একটি বিষয় রয়েছে। সুতরাং, আমরা এখনও সাধারণ (নন টাইম সিরিজ) ক্ষেত্রে কোনও পরীক্ষা ছাড়াই রয়েছি বলে মনে হচ্ছে।
gui11aume

2
প্রথম অ-শূন্য অটোকোরিলেশনটি হ'ল 60 এবং কেবলমাত্র 60 এর বহুগুণে the 60% পার্সোনালশন 0 হয় কিনা তা সোয়ে পরীক্ষা করতে পারে না। সিরিজের দৈর্ঘ্য যদি 65 হয় তবে আমরা লেগ 60 পারস্পরিক সম্পর্কের অনুমান করতে পারি তবে কেবল 5 লেগ 60 জোড়ের উপর ভিত্তি করে। সুতরাং অনুমানের বৈচিত্রটি বৃহত এবং আমাদের এই শূন্য-বহিরাগত সম্পর্কটি সনাক্ত করার ক্ষমতা পাবে না।
মাইকেল আর। চেরনিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.