পরিসংখ্যান সংক্রান্ত মডেলগুলিতে অ-লিনিয়ারিটির জন্য মানদণ্ড এবং সিদ্ধান্তগুলি কী কী?


10

আমি আশা করি যে নিম্নলিখিত সাধারণ প্রশ্নটি বোধগম্য হয়। দয়া করে মনে রাখবেন যে এই নির্দিষ্ট প্রশ্নের প্রয়োজনে আমি অ-লৈখিকতা প্রবর্তনের তাত্ত্বিক (সাবজেক্ট ডোমেন) কারণে আগ্রহী নই। অতএব, আমি নিম্নলিখিত হিসাবে সম্পূর্ণ প্রশ্ন প্রণয়ন করব :

তাত্ত্বিক (সাবজেক্ট ডোমেন) ব্যতীত অন্য কারণে কারণে পরিসংখ্যানগত মডেলগুলিতে অ-লিনিয়ারিটি প্রবর্তনের জন্য একটি লজিকাল কাঠামো ( মানদণ্ড এবং যদি সম্ভব হয়, সিদ্ধান্ত গ্রহণের প্রক্রিয়া ) কী? সর্বদা হিসাবে, প্রাসঙ্গিক সংস্থানসমূহ এবং রেফারেন্সগুলিও স্বাগত।

উত্তর:


7

মডেল বিল্ডিং প্রক্রিয়াটিতে অনেক সিদ্ধান্ত নেওয়ার ক্ষেত্রে একজন মডেল বিল্ডার জড়িত। সিদ্ধান্তগুলির মধ্যে একটিতে অন্বেষণে বিভিন্ন শ্রেণীর মডেলগুলির মধ্যে বেছে নেওয়া জড়িত । মডেলগুলির অনেকগুলি শ্রেণি রয়েছে যা বিবেচনা করা যেতে পারে; উদাহরণস্বরূপ, আরিমা মডেল, এআরডিএল মডেলস, একাধিক উত্সের ত্রুটি রাজ্য-স্পেস মডেল, এলএসটিআর মডেল, ন্যূনতম-ম্যাক্স মডেল, তবে কয়েকটি। অবশ্যই, কিছু শ্রেণির মডেলগুলি অন্যদের চেয়ে বিস্তৃত এবং এটি সাধারণভাবে দেখা যায় না যে কয়েকটি শ্রেণির মডেল অন্যদের উপ-শ্রেণি

প্রশ্নের প্রকৃতি দেওয়া, আমরা প্রধানত মাত্র দুটি শ্রেণির মডেলগুলিতে ফোকাস করতে পারি; লিনিয়ার মডেল এবং অ-লিনিয়ার মডেল

উপরের চিত্রটি মাথায় রেখে, আমি কখন অপ-লিনিয়ার মডেল গ্রহণ করা কার্যকর এবং যদি এটি করার জন্য কোনও যৌক্তিক কাঠামো থাকে - একটি পরিসংখ্যানগত এবং পদ্ধতিগত দৃষ্টিকোণ থেকে ওপিএসের প্রশ্নের সমাধান করতে শুরু করব।

প্রথমে লক্ষ্য করার বিষয় হ'ল লিনিয়ার মডেলগুলি লিনিয়ার মডেলগুলির একটি ছোট সাবক্লাস lass অন্য কথায়, লিনিয়ার মডেলগুলি অ-রৈখিক মডেলের বিশেষ বিষয়। এই বিবৃতিতে কিছু ব্যতিক্রম রয়েছে, তবে বর্তমান উদ্দেশ্যে আমরা বিষয়গুলি সহজ করার জন্য এটি গ্রহণ করে খুব বেশি হারাব না।

সাধারণত, একজন মডেল নির্মাতা একটি শ্রেণির মডেল নির্বাচন করবেন এবং নির্দিষ্ট পদ্ধতিতে কিছু পদ্ধতি প্রয়োগ করে একটি মডেল বেছে নেবেন। একটি সহজ উদাহরণ হ'ল যখন কেউ আরিমা প্রক্রিয়া হিসাবে টাইম-সিরিজ মডেল করার সিদ্ধান্ত নেয় এবং তারপরে আরিমা মডেলগুলির শ্রেণীর মধ্যে থেকে একটি মডেল নির্বাচন করার জন্য বক্স-জেনকিনস পদ্ধতি অনুসরণ করে। মডেলগুলির পরিবারের সাথে সম্পর্কিত পদ্ধতিগুলির সাথে এই ফ্যাশনে কাজ করা ব্যবহারিক প্রয়োজনীয়তার বিষয়।

লিনিয়ার মডেলগুলির ছোট সেটগুলির মধ্যে থেকে তুলনা করার সময় একটি অ-রৈখিক মডেল তৈরি করার সিদ্ধান্ত নেওয়ার ফলাফলটি হল যে মডেল নির্বাচনের সমস্যা অনেক বেশি হয়ে যায় (আরও বেশি মডেল বিবেচনা করা উচিত এবং আরও বেশি সিদ্ধান্তের মুখোমুখি হতে হবে), তাই বাস্তব আছে ব্যবহারিক সমস্যা হাতে। তদ্ব্যতীত, অ-রৈখিক মডেলগুলির কয়েকটি পরিবার থেকে বাছাই করার জন্য এমনকি ব্যবহার করার জন্য পুরোপুরি বিকাশিত পদ্ধতিগুলি (পরিচিত, গ্রহণযোগ্য, বোঝা, সহজ যোগাযোগ) সহজেই তৈরি হতে পারে। তবুও, অ-রৈখিক মডেলগুলি তৈরির আরেকটি অসুবিধা হ'ল লিনিয়ার মডেলগুলি ব্যবহার করা সহজ এবং তাদের সম্ভাব্য বৈশিষ্ট্যগুলি আরও ভালভাবে পরিচিত ( টেরেসভিটার, জাস্টিমহাইম এবং গ্রেঞ্জার (২০১০ )।

এটি বলেছিল যে ওপি সিদ্ধান্ত বা ব্যবহারিক বা ডোমেন তাত্ত্বিকের চেয়ে সিদ্ধান্তের দিকনির্দেশনা দেওয়ার জন্য পরিসংখ্যানগত ভিত্তি চেয়েছে, সুতরাং আমাকে অবশ্যই এগিয়ে যেতে হবে।

কোন অ-রৈখিক মডেলগুলির সাথে কাজ করবেন তা বেছে নেওয়ার বিষয়ে কীভাবে চিন্তাভাবনা করার আগে, প্রথমে সিদ্ধান্ত নিতে হবে যে পরিবর্তে রৈখিক মডেল বা অ-লিনিয়ার মডেলগুলি নিয়ে কাজ করা উচিত। একটি সিদ্ধান্ত! এই পছন্দটি কীভাবে করবেন?

গ্রেঞ্জার এবং তেরসবীর্তাকে (১৯৯৩) আবেদন করে আমি নিম্নলিখিত যুক্তিটি গ্রহণ করি, যার নিম্নলিখিত দুটি প্রশ্নের জবাবে দুটি প্রধান পয়েন্ট রয়েছে।

প্রশ্ন: অ-লিনিয়ার মডেলটি তৈরি করা কখন কার্যকর? সংক্ষেপে, লিনিয়ার মডেলগুলির বর্গটি ইতিমধ্যে পরিদর্শনাধীন সম্পর্কের বৈশিষ্ট্য নির্ধারণের জন্য বিবেচিত এবং অপর্যাপ্ত বলে বিবেচিত হয়ে গেলে একটি অ-রৈখিক মডেল তৈরি করা কার্যকর হতে পারে। এই অ-লিনিয়ার মডেলিং পদ্ধতিটি (সিদ্ধান্ত গ্রহণের প্রক্রিয়া) সাধারণ থেকে সাধারণের দিকে যেতে বলা যায়, এই অর্থে যে এটি লিনিয়ার থেকে অ-রৈখিক পর্যন্ত যায়।

প্রশ্ন: এমন কোনও পরিসংখ্যানগত ভিত্তি রয়েছে যা একটি অ-রৈখিক মডেল তৈরির ন্যায্যতা প্রমাণ করতে ব্যবহার করা যেতে পারে? যদি কেউ লিনিয়ারিটি পরীক্ষার ফলাফলের উপর ভিত্তি করে একটি অ-রৈখিক মডেল তৈরি করার সিদ্ধান্ত নেয়, আমি বলব, হ্যাঁ, আছে। যদি লিনিয়ারিটি পরীক্ষার পরামর্শ দেয় যে সম্পর্কের ক্ষেত্রে উল্লেখযোগ্য অরৈখিকতা নেই তবে ননলাইনার মডেল তৈরির প্রস্তাব দেওয়া হবে না; পরীক্ষা করার সিদ্ধান্ত নেওয়ার আগেই হওয়া উচিত।

গ্র্যাঞ্জার এবং তেরাসবীর (১৯৯৩) এর প্রত্যক্ষ রেফারেন্স দিয়ে আমি এই বিষয়গুলি প্রকাশ করব:

একটি অ-লাইন মডেল তৈরি করার আগে এটি অনুসন্ধান করার পরামর্শ দেওয়া হয় যে সত্যিকার অর্থে কোনও লিনিয়ার মডেল বিশ্লেষণের অধীনে [অর্থনৈতিক] সম্পর্কগুলিকে যথেষ্টভাবে চিহ্নিত করতে পারে কিনা। যদি এটি হয় তবে ননলাইনার মডেল যথাযথ হলে তার চেয়ে যুক্তিসঙ্গত মডেল তৈরির জন্য আরও পরিসংখ্যানতত্ত্ব থাকতে পারে। তদ্ব্যতীত, মডেল লিনিয়ার হলে সামনে একাধিক সময়ের জন্য অনুকূল পূর্বাভাস পাওয়া অনেক সহজ হবে। এটি ঘটতে পারে, অন্তত সময়-সিরিজটি সংক্ষিপ্ত হওয়ার পরে, তদন্তকারীটি সাফল্যের সাথে একটি ননলাইনার মডেলটি অনুমান করে যদিও ভেরিয়েবলগুলির মধ্যে প্রকৃত সম্পর্কটি লিনিয়ার। অযৌক্তিকভাবে মডেল-বিল্ডিংয়ে জটিলতার ঝুঁকি তাই আসল, তবে লিনিয়ারিটি পরীক্ষার মাধ্যমে হ্রাস পেতে পারে।

অতি সাম্প্রতিক বই, তেরেস্ভার্টা, জাস্টিমহাইম এবং গ্রানজার (২০১০) -তে একই ধরণের পরামর্শ দেওয়া হয়েছে, যা আমি এখন উদ্ধৃত করছি:

ব্যবহারিক দৃষ্টিকোণ থেকে এটি আরও জটিল ননলাইনারের মডেলটির অনুমানের চেষ্টা করার আগে লিনিয়ারিটি পরীক্ষা করা কার্যকর [তাই] অনেক ক্ষেত্রে স্ট্যাটিস্টিকাল দৃষ্টিকোণ থেকে এমনকি পরীক্ষা করাও জরুরি। বেশ কয়েকটি জনপ্রিয় ননলাইনার মডেল লিনিয়ারির অধীনে চিহ্নিত করা যায় না। যদি সত্যিকারের মডেলটি ডেটা উত্পন্ন করে তবে লিনিয়ার এবং ননলাইনার মডেলটি এই লিনিয়ার মডেলটিতে বাসাতে আগ্রহী, ননলাইনার মডেলের পরামিতিগুলি ধারাবাহিকভাবে অনুমান করা যায় না। সুতরাং লিনিয়ারিটি পরীক্ষার জন্য কোনও ননলাইনার মডেলিং এবং অনুমানের আগে থাকতে হয়।

আমাকে একটি উদাহরণ দিয়ে শেষ করা যাক।

মডেলিং ব্যবসায়িক চক্রের প্রসঙ্গে, একটি অ-রৈখিক মডেল তৈরির ন্যায্যতা প্রমাণের জন্য পরিসংখ্যান ভিত্তিক ব্যবহারের একটি ব্যবহারিক উদাহরণ নিম্নরূপ হতে পারে। যেহেতু লিনিয়ার ইউনিভারিটি বা ভেক্টর অটোরিগ্রেসিভ মডেলগুলি অসম্পূর্ণ চক্রীয় সময়-সিরিজ উত্পন্ন করতে অক্ষম, তাই একটি অ-রৈখিক মডেলিং পদ্ধতির, যা ডেটাতে অসম্পূর্ণতা পরিচালনা করতে পারে, এটি বিবেচ্য। ডেটা রিভার্সিবিলিটি সম্পর্কে এই উদাহরণটির একটি প্রসারিত সংস্করণ টং (1993) এ পাওয়া যাবে ।

আমি সময়-সিরিজের মডেলগুলিতে খুব বেশি মনোনিবেশ করে থাকলে ক্ষমা চাই ologies আমি নিশ্চিত, তবে, কিছু ধারণা অন্যান্য সেটিংসেও প্রযোজ্য।


2
গ্রীম, আপনার উত্তরটি দুর্দান্ত এবং অন্য উত্তরগুলিও দুর্দান্ত, আমি আপনাকে যা খুঁজছিলাম তার নিকটতম (একটি মিনি সংস্করণ, আপনি যদি চান)। +1 এবং স্বীকৃত। আমি আপনার উত্তর প্রস্তুত করার জন্য আপনার প্রচেষ্টার প্রশংসা করি। আমি নিশ্চিত যে আমি এটির পাশাপাশি একবারে উল্লেখগুলি পর্যালোচনা করব। আমি মনে করি যে ডাঃ হ্যারেলের রিগ্রেশন কৌশল সম্পর্কিত বইতে আমার কাঠামোর কিছু অংশ রয়েছে যা আমি আদর্শভাবে পাই। যাইহোক, আমার একটি বিষয়ভিত্তিক পরিসংখ্যান কাঠামো সম্পর্কে ধারণা লিসা হার্লো এর দুর্দান্ত বই "মাল্টিভারিয়েট চিন্তার সারাংশ" দ্বারা অনুপ্রাণিত হয়েছে, যা পড়ে আমার খুব ভাল লেগেছে।
আলেকসান্দ্র ব্লেক

12

ওভার-আর্চিং ইস্যুটি হ'ল লাইনারিটির কী ধরণের সমস্যা প্রত্যাশা করা উচিত তা সিদ্ধান্ত নেওয়া, অন্যথায় নমুনা আকারের ফলে সম্পর্কগুলিকে অরেখযোগ্য হতে দেয়। জীববিজ্ঞান, সামাজিক বিজ্ঞান এবং অন্যান্য ক্ষেত্রে সর্বাধিক প্রক্রিয়াগুলি অন-লাইন। একমাত্র পরিস্থিতি যেখানে আমি লিনিয়ার সম্পর্কের প্রত্যাশা করি তা হ'ল:

  1. নিউটোনীয় যান্ত্রিক
  2. ওয়াইওয়াই

ওয়াই

আমি খুব কমই এমন একটি সম্পর্ক দেখতে পাই যা বড় ডেটাসেটে সর্বত্র রৈখিক।

রিগ্রেশন মডেলগুলিতে অরৈখিকতা অন্তর্ভুক্ত করার সিদ্ধান্তটি বৈশ্বিক পরিসংখ্যান নীতি থেকে এতটা আসে না বরং বিশ্ব যেভাবে কাজ করে তা থেকে আসে। একটি ব্যতিক্রম হ'ল যখন একটি উপ-অনুকূল পরিসংখ্যান কাঠামো বেছে নেওয়া হয়েছে এবং ফ্রেমওয়ার্কটি খারাপভাবে বেছে নেওয়ার জন্য অ-লাইন বা ইন্টারঅ্যাকশন শর্তাদি চালু করতে হবে। আন্তঃ-মডেলিং অফসেট করার জন্য ইন্টারঅ্যাকশন শর্তাদি কখনও কখনও প্রয়োজন হয় (উদাহরণস্বরূপ, লিনিয়ারিটি ধরে ধরে) প্রধান প্রভাবগুলি। অন্যান্য প্রধান প্রভাবগুলির আন্ডার-মডেলিংয়ের ফলে প্রাপ্ত তথ্য ক্ষতির অফসেট করতে আরও প্রধান প্রভাবের প্রয়োজন হতে পারে।

গবেষকরা মাঝে মাঝে তারা ভেরিয়েবলকে রৈখিকভাবে কাজ করতে বাধ্য করে যখন কোনও অন্যান্য ভেরিয়েবলের অধীনে রাখে তখন কোনও নির্দিষ্ট পরিবর্তনশীল অন্তর্ভুক্ত করবেন কিনা তা নিয়ে উদ্বেগ প্রকাশ করেন। আমার অভিজ্ঞতায় লিনিয়ারিটি অনুমানটি সমস্ত অনুমানের মধ্যে সবচেয়ে লঙ্ঘনকারী যা দৃ strongly়ভাবে বিবেচিত।


2
+1 ডঃ হ্যারেল, আপনার মূল্যবান উত্তরের জন্য আপনাকে ধন্যবাদ। আমি আপনার বিষয় বুঝতে। যাইহোক, আমি পরিস্থিতি সম্পর্কেও কৌতূহলী (এবং এটি আসলে আমার প্রশ্নের মূল অংশ ছিল), যখন গবেষক বা তথ্য বিজ্ঞানীকে পরিসংখ্যানগত তত্ত্ব বা বিভিন্ন সমস্যার কারণে পরিসংখ্যান, তথ্য, পদ্ধতি ইত্যাদির কারণে অতিরিক্ত অ-রৈখিক উপাদানগুলি প্রবর্তন করতে হয় when ।), ডোমেন তত্ত্বের বিষয় নয়। এটি আপনার অন্তর্দৃষ্টি প্রশংসা করবে।
আলেকসান্দ্র ব্লেক

5
লিনিয়ারিটি প্রক্রিয়াটির চেয়ে তথ্যের উপর যত বেশি (বা আরও) নির্ভর করে। সংক্ষিপ্ত পর্যায়ে পরিসীমা পরীক্ষা করা হলে বেশিরভাগ ক্ষেত্রে বেশিরভাগ প্রক্রিয়া লিনিয়ার থাকে (এজন্য ক্যালকুলাস এত ব্যাপকভাবে দরকারী) এবং বিস্তৃত পর্যাপ্ত পরিসরে (যান্ত্রিক প্রক্রিয়াগুলি সহ) ননলাইনারে থাকে। যদিও এটির পরামর্শ দেওয়া ঠিক যে একটি বিশাল পর্যাপ্ত নমুনার আকার পাওয়া গেলে প্রায় সমস্ত কিছুই অরেখযোগ্য প্রদর্শিত হতে পারে, সম্ভবত সমস্যাটি ফ্রেম করার আরও একটি বাস্তবিক উপায়টি যখন লিনিয়ার মডেল গ্রহণের জন্য কার্যকর তখন কীভাবে তা সিদ্ধান্ত নেওয়ার পক্ষে হবে ।
whuber

2
@ শুভ: আপনার মন্তব্যের জন্য আপনাকে ধন্যবাদ। খুব দরকারী. এখন আমি দুটি দৃষ্টিভঙ্গি থেকে (অ-) লিনিয়ারিটি সম্পর্কে আরও ভালভাবে বুঝতে পারি : তাত্ত্বিক (সাবজেক্ট ডোমেন) এবং ডেটা-কেন্দ্রিক । আমি এখনও পরিসংখ্যানগত এবং / অথবা পরিসংখ্যানগত অনুমান , ইস্যু (যেমন, ইডিএ পরবর্তী পোস্ট) বা অন্যান্য অনুরূপ কারণে অতিরিক্ত অ-রৈখিকতা প্রবর্তনের পদ্ধতিগত দৃষ্টিভঙ্গি সম্পর্কে আগ্রহী । সুতরাং, ইস্যুটি সম্পর্কে আপনার প্রস্তাবিত ফ্রেমিংয়ের পাশাপাশি, আমি যখন কোনও অ-রৈখিক মডেল গ্রহণ করা কার্যকর হয় তখন সিদ্ধান্ত গ্রহণের কাঠামোতেও আমি আগ্রহী ।
আলেকসান্দ্র ব্লেক

1
"বেশিরভাগ ক্ষেত্রে বেশিরভাগ প্রক্রিয়া লিনিয়ার থাকে যখন সংকীর্ণ পর্যাপ্ত পরিসীমা পরীক্ষা করা হয় (এজন্য ক্যালকুলাস এত বিস্তৃতভাবে কার্যকর হয়) এবং বিস্তৃত পর্যাপ্ত পরিসরে অরৈখিক হয়" যখন ক্যালকুলাসের উপর কোর্স করেছেন এমন ব্যক্তির পক্ষে অত্যন্ত স্পষ্ট, এটি একটি আমার জন্য চোখ খোলার অন্তর্দৃষ্টি। আপনাকে ধন্যবাদ ডঃ @ হুবার +1
মুগেন

3
@ অ্যালেক্সান্দ্র ব্লেক আপনি কি একটি পরিসংখ্যান পরীক্ষা বা একটি অবশিষ্ট প্লট খুঁজছেন, যা আপনাকে একটি পরিসংখ্যানগত কারণ দেবে (অন্তর্নিহিত তত্ত্ব থেকে আসা কোনও কারণের বিপরীতে) কোনও লিনিয়ার মডেল ব্যবহার করে ন্যায্যতা প্রমাণ করার জন্য?
মুগেন

4

Yআমি=α+ +βএক্সআমি+ +εআমি
Yআমি=α+ +βএক্সআমি+ +γএক্সআমি2+ +εআমি
γতাৎপর্যপূর্ণ, এটি ননলাইনার মডেলের ক্ষেত্রে হতে পারে। স্বজ্ঞাততা অবশ্যই টেলর সম্প্রসারণ। আপনার যদি লিনিয়ার ফাংশন থাকে তবে কেবল প্রথম ডেরাইভেটিভ অবশ্যই ননজারো হতে হবে। ননলাইনার ফাংশনের জন্য উচ্চতর অর্ডার ডেরাইভেটিভগুলি ননজারো হবে।

Yআমি=α+ +βসর্বোচ্চ(0,এক্সআমি)+ +γসর্বনিম্ন(0,এক্সআমি)+ +εআমি
γβ

এক্সএকটি-=সর্বনিম্ন(এক্স,একটি)
এক্সএকটি+ +=সর্বোচ্চ(এক্স,একটি)
এক্সএক্স=একটি। বিভিন্ন অঞ্চলে একই ভেরিয়েবলের জন্য আপনার বেশ কয়েকটি opালু থাকতে পারে। যদি আমার লিনিয়ার স্প্লাইনটি তাৎপর্যপূর্ণ হয়, তবে আমি হয় নট পয়েন্ট নিয়ে খেলি এবং এটি ব্যবহার করি, বা ননলাইনার মডেলগুলি সম্পর্কে চিন্তা করি।

এটি নিয়মতান্ত্রিক পদ্ধতির নয়, তবে আমি সবসময় যা করি তা এটির মধ্যে একটি।


1
+1 আকর্ষণীয় অন্তর্দৃষ্টি। ভাগ করে নেওয়ার জন্য আপনাকে ধন্যবাদ - এটা জানা ভাল। আমি যা পছন্দ করতে চাই (বা এমনকি প্রস্তুত) তা অন্তর্নিহিত মৌলিক যুক্তি সহ একই (বৃহত এবং ছোট) পদ্ধতির একটি সুসংগত কাঠামো / ওয়ার্কফ্লো। আপনি কি মনে করেন যে এই জাতীয় কাঠামো তৈরি করা 1) সম্ভাব্য এবং 2) অন্যান্য ব্যক্তির পক্ষে মূল্যবান হবে?
আলেকসান্ডার ব্লেক

1
@ আলেকসান্দারলেখ, আমি মনে করি না যে সার্বজনীন কাঠামো তৈরি করা সম্ভব। টাইম সিরিজের সর্বাধিক সাধারণ এক হ'ল বক্স-জেনকিন্স।
আকসকল

4
মডেল নির্বাচনের পরিসংখ্যানগত পরীক্ষা অনুমান এবং বিশেষত স্ট্যান্ডার্ড ত্রুটিগুলিকে বিকৃত করে।
ফ্র্যাঙ্ক হ্যারেল

1
Yআমি=β2এক্সআমি2+ +εআমি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.