স্বল্প সময়ের সিরিজ কি মডেলিংয়ের মূল্যবান?


14

এখানে কিছু প্রসঙ্গ আছে। আমি 11 বছরের সময়কালে দুটি পরিবেশগত পরিবর্তনশীল (তাপমাত্রা, পুষ্টির স্তর) কীভাবে প্রতিক্রিয়ার ভেরিয়েবলের গড় মানকে প্রভাবিত করে তা নির্ধারণ করতে আমি আগ্রহী। প্রতি বছরের মধ্যে, 100k এরও বেশি লোকেশন থেকে ডেটা থাকে।

11 বছরের সময়কালে, প্রতিক্রিয়ার ভেরিয়েবলগুলির গড় মান পরিবেশগত পরিবর্তনশীলগুলির পরিবর্তনের ক্ষেত্রে প্রতিক্রিয়া দেখিয়েছে কিনা তা নির্ধারণ করা (যেমন উষ্ণতর তাপমাত্রা + আরও পুষ্টিগুণ = বৃহত্তর প্রতিক্রিয়া)।

দুর্ভাগ্যক্রমে, যেহেতু প্রতিক্রিয়াটি গড় মান (গড়ের দিকে তাকানো ছাড়াই কেবল নিয়মিত আন্ত-বার্ষিক প্রকরণটি সংকেতকে জলাঞ্জলি দিয়ে দেবে), তাই 2 টি ব্যাখ্যামূলক ভেরিয়েবল সহ 11 টি ডেটা পয়েন্ট (প্রতি বছরে 1 গড় মান) রিগ্রেশন হবে। আমার কাছে এমনকি একটি লিনিয়ার পজিটিভ রিগ্রেশনও অর্থসূচক হিসাবে বিবেচনা করা কঠিন বলে বিবেচনা করা কঠিন যে ডেটাসেটটি এত ছোট (এমনকি সম্পর্ক চূড়ান্ত না হলে নামমাত্র 40 পয়েন্ট / ভেরিয়েবলের সাথেও মিলবে না)।

আমি কি এই অনুমান করা ঠিক? আমি অনুপস্থিত হতে পারে এমন অন্য কোনও ধারণা / দৃষ্টিভঙ্গি কি কেউ উপস্থাপন করতে পারে?

পিএস: কিছু সতর্কতা: অতিরিক্ত বছর অপেক্ষা না করে আরও ডেটা পাওয়ার কোনও উপায় নেই। সুতরাং যে ডেটা উপলভ্য তা হ'ল আমাদের সত্যিকারের সাথে কাজ করতে হবে।


আপনি কি ডেটা প্লট করার চেষ্টা করেছেন? আমি বলব আপনার পরিবেশগত পরিবর্তনশীল এবং আপনার প্রতিক্রিয়াশীল ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্কের শক্তি উত্তরকে প্রভাবিত করবে।
rm999

" প্রতি বছরের মধ্যে, 100k এরও বেশি অবস্থানের থেকে ডেটা পাওয়া যায় " "আপনি আসলে সমস্ত অবস্থানগুলি বা কেবলমাত্র তার ভিত্তিতে গড়ে গড়ে গড়ে মান লক্ষ্য করেন? যদি হ্যাঁ হয় তবে আপনি ক্রিয়োলা রৈখিক প্রসঙ্গে পরামর্শ হিসাবে প্যানেল ডেটা মডেলগুলির জন্য যেতে পারেন। যদিও উল্লিখিত @ গাবার্গুলিয়া হিসাবে কিছু বিশেষ বাস্তুসংস্থানীয় মডেলগুলির অনুমানের চেয়ে প্যারামিটারগুলি ক্যালিব্রেট করার জন্য খুব কম তথ্য প্রয়োজন হতে পারে।
দিমিত্রিজ সেলভ

উত্তর:


8

অল্প সংখ্যক ডেটা পয়েন্ট আপনার ডেটাতে কী ধরণের মডেল ফিট করতে পারে তা সীমাবদ্ধ করে। তবে এটির অগত্যা এটির অর্থ নয় যে এটি মডেলিং শুরু করার কোনও অর্থ রাখবে না। প্রভাবগুলি শক্তিশালী হয় এবং স্ক্যাটার দুর্বল হলে অল্প সংখ্যক ডেটা দিয়েই আপনি সমিতিগুলি সনাক্ত করতে সক্ষম হবেন।

কোন ধরণের মডেল আপনার ডেটা অনুসারে এটি অন্য প্রশ্ন। আপনি শিরোনামে 'রিগ্রেশন' শব্দটি ব্যবহার করেছেন। মডেলটির কিছুটা হলেও আপনি সেই প্রপঞ্চটি সম্পর্কে কী জানেন তা প্রতিফলিত করা উচিত। এটি বাস্তুসংস্থানগত পরিবেশ বলে মনে হচ্ছে, সুতরাং আগের বছরটিও প্রভাবশালী হতে পারে।


4

আমি 11 টিরও কম পয়েন্ট সহ বাস্তুসংস্থানীয় ডেটাসেট দেখেছি, তাই আমি বলব যদি আপনি খুব সাবধান হন তবে আপনি আপনার সীমিত ডেটা দিয়ে কিছু সীমিত সিদ্ধান্তে আঁকতে পারেন।

আপনার পরীক্ষামূলক ডিজাইনের প্যারামিটারগুলি দিয়ে আপনি কতটা কার্যকর প্রভাব সনাক্ত করতে পারেন তা নির্ধারণের জন্য আপনি একটি শক্তি বিশ্লেষণও করতে পারেন।

আপনি যদি কিছু সতর্কতা অবলম্বন করেন তবে আপনার প্রতি বছর অতিরিক্ত প্রকরণ ছড়িয়ে দেওয়ার দরকারও পড়তে পারে না


4
পর্যবেক্ষণ শক্তি সম্পর্কে সতর্ক হন: nottinghamtrent.academia.edu/ThomBaguley/
পেপারস

4

মৌলিকভাবে ডেটা মডেলিং (বিশেষত সময়ের সিরিজের জন্য) ধরে নেওয়া হয় যে আপনি আগ্রহের ঘটনাগুলি ক্যাপচার করার জন্য পর্যাপ্ত পর্যাপ্ত ফ্রিকোয়েন্সিতে ডেটা সংগ্রহ করেছেন। সবচেয়ে সহজ উদাহরণটি সাইন ওয়েভের জন্য - আপনি যদি এন * পিআই এর ফ্রিকোয়েন্সি যেখানে ডেটা সংগ্রহ করছেন যেখানে এন একটি পূর্ণসংখ্যা হয় তবে আপনি শূন্য ছাড়া কিছু দেখতে পাবেন না এবং পুরোপুরি সাইনোসয়েডাল প্যাটার্নটি মিস করবেন। স্যাম্পলিং তত্ত্ব সম্পর্কিত নিবন্ধ রয়েছে যা কতবার ডেটা সংগ্রহ করা উচিত তা নিয়ে আলোচনা করে।


3

আমি এই বিটটি বুঝতে পেরেছি তা নিশ্চিত নই: "দুর্ভাগ্যক্রমে, যেহেতু প্রতিক্রিয়াটি মূল মান (গড়ের দিকে তাকানো ছাড়াই, কেবল নিয়মিত আন্ত-বার্ষিক প্রকরণটি সংকেতকে জলাবদ্ধ করবে)"

সাবধানী মডেলিংয়ের সাথে, মনে হয় আপনি এটি প্যানেল ডেটা হিসাবে মডেলিং করে অনেক কিছু অর্জন করতে পারেন। আপনার ডেটার স্থানিক সুযোগের উপর নির্ভর করে, আপনার ডেটা পয়েন্টগুলি যে কোনও বছরের মধ্যে প্রকাশ করা হয়েছিল এমন তাপমাত্রায় বড় পার্থক্য থাকতে পারে। এই সমস্ত পরিবর্তনের গড় ব্যয়বহুল বলে মনে হচ্ছে।


3

আমি বলব যে পরীক্ষার বৈধতা ডেটা পয়েন্টের সংখ্যার সাথে কম এবং আপনার কাছে সঠিক মডেল যে ধারণাটি রয়েছে তার বৈধতার সাথে আরও কিছু করার আছে।

উদাহরণস্বরূপ, স্ট্যান্ডার্ড কার্ভ তৈরি করতে ব্যবহৃত হয় এমন রিগ্রেশন বিশ্লেষণ কেবলমাত্র 3 টি স্ট্যান্ডার্ড (নিম্ন, মেড এবং উচ্চ) এর উপর ভিত্তি করে হতে পারে তবে ফলাফলটি অত্যন্ত কার্যকর কারণ যেহেতু প্রতিক্রিয়াগুলি পয়েন্টগুলির মধ্যে লিনিয়ার রয়েছে তার দৃ strong় প্রমাণ রয়েছে।

অন্যদিকে, এমনকি যদি ডেটাতে ভুল মডেল প্রয়োগ করা হয় তবে অগণিত ডেটা পয়েন্টের সাথেও একটি রিগ্রেশন ত্রুটিযুক্ত হবে।

প্রথম ক্ষেত্রে মডেল পূর্বাভাস এবং প্রকৃত ডেটার মধ্যে যে কোনও তফাতটি এলোমেলো ত্রুটির কারণে হয়। দ্বিতীয় ক্ষেত্রে মডেল পূর্বাভাস এবং প্রকৃত ডেটার মধ্যে কিছু পার্থক্য ভুল মডেলটি বেছে নেওয়ার পক্ষপাতিত্বের কারণে।


1

কোনও মডেল সনাক্ত করার জন্য প্রয়োজনীয় সংখ্যক পর্যবেক্ষণগুলি ডেটাতে শব্দ করার সংকেতের অনুপাত এবং মডেলের ফর্মের উপর নির্ভর করে। যদি আমাকে নম্বর দেওয়া হয়, 1,2,3,4,5, আমি ভবিষ্যদ্বাণী করব 6,7,8, .... বাক্স-জেনকিন্সের মডেল সনাক্তকরণ হল পরীক্ষার মতো অন্তর্নিহিত জেনারেল টার্ম নির্ধারণ করার একটি উপায় সংখ্যার বুদ্ধি "যা আমরা শিশুদেরকে দিয়ে থাকি। যদি সংকেত শক্তিশালী হয় তবে আমাদের কম পর্যবেক্ষণ এবং তদ্বিপরীত প্রয়োজন। যদি পর্যবেক্ষণ করা ফ্রিকোয়েন্সি কোনও সম্ভাব্য "alতু কাঠামো" পরামর্শ দেয় তবে আমাদের এই ঘটনার পুনরাবৃত্তিগুলি প্রয়োজন যেমন নিষ্কাশনের জন্য থাম্বের নিয়ম হিসাবে কমপক্ষে 3 টি মরসুম (সর্বাধিক আরও বেশি) (এটি প্রাথমিক বর্ণনামূলক পরিসংখ্যান (এসিএফ / প্যাকফ)) থেকে সনাক্ত করুন।


-1

হতে পারে আপনি আপনার সময় সিরিজটিকে রৈখিক সমীকরণ সিস্টেম হিসাবে পরিচালনা করার চেষ্টা করতে পারেন এবং এটি গাউস নির্মূলের মাধ্যমে সমাধান করতে পারেন। অবশ্যই সেক্ষেত্রে আপনি নিজেকে উপলভ্য ডেটাতে সীমাবদ্ধ রাখুন তবে এটিই আপনাকে দিতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.