একটি সাধারণ অ্যাডেটিভ পোইসন মডেল সমস্যাটিতে ডিএফ নির্বাচন স্প্লিন করুন


9

আমি এসএএস এর সাহায্যে একটি পয়েসন জেনারেল অ্যাডিটিভ মডেল ব্যবহার করে কিছু সময়ের সিরিজ ডেটা ফিট করছি PROC GAM। সাধারণভাবে বলতে গেলে, আমি এটির অন্তর্নির্মিত সাধারণ ক্রস-বৈধকরণ পদ্ধতিটি আমার একক স্প্লাইনের জন্য কমপক্ষে একটি শালীন "প্রারম্ভিক বিন্দু" উত্পন্ন করছি যা একক প্যারাম্যাট্রিক শব্দটির সাথে সময়ের একটি অ-লিনিয়ার ফাংশন (আমি প্রথমটি) আমি আসলে আগ্রহী)।

এখনও অবধি, এটি আমার ডেটা সেটগুলির একটি বাদ দিয়ে সাঁতার কাটতে কাজ করেছে। ডেটা সেটটিতে 132 টি পর্যবেক্ষণ রয়েছে এবং GCV 128 ডিগ্রির স্বাধীনতার একটি স্প্লাইন প্রস্তাব করে। মনে হচ্ছে ... ভুল। খুব ভুল. আরও গুরুত্বপূর্ণ, এটি মোটেও স্থিতিশীল নয়। আমি দ্বিতীয় পদ্ধতির চেষ্টা করেছি, যখন "ডিগ্রি ইন এসিমেট" মানদণ্ডের মতো কিছু ব্যবহার করে স্বাধীনতার ডিগ্রি যুক্ত করা বন্ধ করা যায় যখন প্যারাম্যাট্রিক শব্দটির অনুমান পরিবর্তন বন্ধ হয়ে যায় কারণ কেন কিছুই আলাদা না হলে নিয়ন্ত্রণ যুক্ত করা চালিয়ে যান?

সমস্যাটি হ'ল অনুমানটি মোটেই স্থিতিশীল নয়। আমি নিম্নলিখিত ডিগ্রি স্বাধীনতার চেষ্টা করেছি এবং আপনি দেখতে পাচ্ছেন যে, প্যারাম্যাট্রিক শব্দটি বন্যার সাথে চারদিকে বাউন্স করেছে:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

এই বিশেষ বিট ডেটার জন্য ডিএফের পদে আমার কী ব্যবহার করা উচিত সে সম্পর্কে আমার কোনও প্রজ্ঞা নেই। কীভাবে ডিএফ চয়ন করবেন তার জন্য অন্য কোনও ধারণা? আমি কি স্প্লিনটির তাৎপর্য দেখছি?

ডিএফ = 10 এবং ডিএফ = 15 এর মধ্যে আরও কিছু খুঁজছেন, দেখে মনে হচ্ছে ডিএফ = 12 আপনি 128 দ্বারা উত্পাদিত প্রাক্কলনের নিকটে সবচেয়ে কাছাকাছি এবং এখনও "স্বাধীনতার যুক্তিসঙ্গত ডিগ্রি" সীমার মধ্যে থাকতে পারেন। লিনিয়ার টার্মের পাশাপাশি ইন্টারসেপ্ট এবং একক প্যারাম্যাট্রিক শব্দও এটি বেশ ভারী স্যাচুরেটেড মডেলের মতো অনুভব করে। 12 এর সাথে যাওয়া কি ন্যায়সঙ্গত?

একটি দ্বিতীয় আপডেট অনুযায়ী, থেকে মসৃণকরণ পরিবর্তন spline(t)করতে loess(t)আমি শুধু ধুসর - হরিদ্রাভ রঙের মিহি মাটির স্তর যা রাইন মসৃণকরণ স্যুইচ হবে - আরো অনেক কিছু অনুমান করে df ভালভাবে ভদ্র ফলে হয়?


আপনার ডেটাসেটে 132 টি পর্যবেক্ষণ সহ, কোনও সংযুক্ত গণনা এবং অফসেট শব্দটি রয়েছে কি তা বোঝায় যে এটি আসলে 132 টিরও বেশি পর্যবেক্ষণ সহ একটি ভারী ডেটাসেট? পোইসন আরভিগুলিতে গড় বৈচিত্রের সম্পর্কের কারণে, বৃহত গণনাগুলি "মডেল নির্বাচন" বৈশিষ্ট্যগুলিতে নিয়ে যেতে পারে যা "বৃহত নমুনার আকার" এর কারণে প্রতিকূল নয়।
অ্যাডামো

ডেটাসেটটি 132 সপ্তাহের ডেটা, অফসেট হিসাবে গণনা = মডেল পদগুলি + লগ (ব্যক্তি-সময়) হিসাবে মডেল করা হয়। গণনাগুলি কখনই বিশেষত বেশি যায় না - তবে এখানে বেশিরভাগ শূন্য রয়েছে।
ফোমাইট

উত্তর:


5

@ M.Berk উল্লেখ হিসাবে, GCV undersmooth পরিচিত, প্রাথমিকভাবে কারণ এই নির্ণায়ক স্বাস্থ্যহীন overfitting, যার মধ্যে একটি ফাংশন হিসাবে GCV নির্ণায়ক একটি খুব অগভীর ন্যূনতম ফলে থাকে penalizes , স্নিগ্ধতা প্যারামিটার। ন্যূনতম খুব অগভীর হয়, অনুকূল GCV বিস্তৃত উপর ঘটতে পারে অনুমান। অধিকন্তু, এর কার্যকারিতা হিসেবে GCV নির্ণায়ক, একাধিক মিনিমা, যা অস্থিরতার যে আপনি বর্ণনা হতে পারে আছে থাকে। সাইমন উড (২০১১) এর চিত্র 1 এ তার একটি সুন্দর চিত্র রয়েছে hasλλλ

কাঠ (২০১১) এও চিত্রিত করে যে মসৃণ ফাংশনগুলির জন্য ব্যবহৃত নিম্ন থেকে মধ্যবর্তী র‌্যাঙ্ক ঘাঁটিগুলির জন্য এআইসিসি জিসিভির থেকে বেশি অতিরিক্ত সুবিধা সরবরাহ করে না ।

বিপরীতে, আরএমএল (এবং এমএল) মসৃণতা নির্বাচন জিসিভির তুলনায় অধিকতর জোরালোভাবে শাস্তি দেয় এবং ফলস্বরূপ আরও অনেক পরিষ্কারভাবে সংজ্ঞায়িত সর্বোত্তম হয়। এটি আরও স্থিতিশীল অনুমান এবং আন্ডারমোথিংয়ের অনেক কম ঝুঁকির দিকে নিয়ে যায়।λ

উড (২০১১) আরইএমএল এবং এমএল অনুমানের পদ্ধতিগুলি বর্ণনা করে যা দ্রুত এবং স্থিতিশীল উভয়ই, যা তিনি রূপান্তরতার ক্ষেত্রে বিদ্যমান আরএএমএল (এমএল) পদ্ধতির তুলনায় উন্নত দেখান। এই ধারণাগুলি আর এর জন্য সিমনের এমজিসিভি প্যাকেজে উপলব্ধ ।

কাঠ (2011) একটি paywall পেছনে হিসেবে আমি একটি অনুরূপ চিত্র (কংগ্রেসের ফলাফল এখানে দেখানো হয় না) সাইমনের স্লাইড একটি সেট থেকে নেওয়া একটি কপি তাঁর উপলব্ধ অন্তর্ভুক্ত ওয়েবসাইট উপর, স্নিগ্ধতা নির্বাচন পদ্ধতি {পিডিএফ}। স্লাইড 10 থেকে চিত্রটি নীচে দেখানো হয়েছে

এখানে চিত্র বর্ণনা লিখুন

দুটি সারি অনুকরণীয় ডেটা প্রতিফলিত করে যেখানে যথাক্রমে একটি শক্তিশালী (উপরের) বা কোনও (নিম্ন) সংকেত রয়েছে। বাম-সর্বাধিক প্যানেলগুলি প্রতিটি মডেল থেকে একটি উপলব্ধি দেখায়। অবশিষ্ট প্যানেল কিভাবে প্রদর্শন GCV (মধ্যম কলাম) এবং REML মানদণ্ড একটি ফাংশন হিসাবে তারতম্য 10 ডেটা সেট প্রতিটি বাস্তব মডেল থেকে কৃত্রিম জন্য। উপরের সারির ক্ষেত্রে, লক্ষ্য করুন জাস্টিভিটি সর্বোত্তম বাম দিকে কতটা সমতল। এই প্যানেলে রাগ প্লটগুলি 10 টি বাস্তবায়নের জন্য অনুকূল দেখায় । REML নির্ণায়ক অনেক বেশি উচ্চারিত সর্বোত্তম এবং মনোনীত মান কম ভ্যারিয়েন্স হয়েছে ।λλλ

অতএব আমি সাইমন উড তার এমজিসিভি প্যাকেজের জন্য পরামর্শের মত পরামর্শ দেব , যথা মধ্যে সম্পর্কের ক্ষেত্রে প্রত্যাশিত নমনীয়তা অন্তর্ভুক্ত করার জন্য পর্যাপ্ত পরিমাণে ভিত্তি মাত্রা হিসাবে বেছে নেওয়া , তবে তাই নয় বড়। তারপরে REML মসৃণতা নির্বাচন ব্যবহার করে মডেলটিকে ফিট করুন। যদি স্বাধীনতার নির্বাচিত মডেল ডিগ্রি প্রাথমিকভাবে নির্দিষ্ট মাত্রার কাছাকাছি থাকে তবে ভিত্তি মাত্রা এবং পুনর্বিবেচনা বাড়ান।y=f(x)+ε

এম এম বার্ক এবং @ ব্রেন্ডেনডুফল উভয়ই যেমন উল্লেখ করেছেন, গ্যামটি ফিট করার জন্য উপযুক্ত ভিত্তির মাত্রা বাছাইয়ের ক্ষেত্রে স্প্লাইন ভিত্তি স্থাপন করার সময় কিছুটা সাবজেক্টিভিটির প্রয়োজন হতে পারে। তবে আরইএমএল মসৃণতা নির্বাচন উডের পদ্ধতি ব্যবহার করে বেশ কয়েকটি গ্যাম অ্যাপ্লিকেশনগুলিতে আমার অভিজ্ঞতাতে যুক্তিসঙ্গতভাবে দৃ rob় প্রমাণিত হয়েছে।

উড, এস এন (2011) ফাস্ট স্থিতিশীল সর্বাধিক সম্ভাবনা এবং মডেল রৈখিক semiparametric সাধারণের প্রান্তিক সম্ভাবনা প্রাক্কলন সীমাবদ্ধজে রয়্যাল স্ট্যাটিস্টিকাল সোসাইটি বি 73 (পর্ব 1), 3--6।


@ এপিগ্রাড স্বাগতম দুঃখিত আমি প্রশ্নটি মিস করেছি; গত এক-দুই বছরে আমি আপনার মতো পরিস্থিতি নিয়ে লড়াই করে এসেছি এবং এই বিষয়ে সাইমন উডের কাগজপত্র পড়েছি এবং বেশ কয়েকটি অনুষ্ঠানে বৈশিষ্ট্য নির্বাচন বৈশিষ্ট্যযুক্ত করেছি। খুশি হলাম আমি সাহায্যের জন্য কিছু বিবরণ প্রত্যাহার করতে সক্ষম হয়েছি।
গ্যাভিন সিম্পসন

3

আমি মনে করি আপনার সেরা বেটটি স্মুথিং অ্যালগরিদমের বাইরে রয়েছে; মডেল পার্সিমনি বিবেচনা করুন।

আপনি এটিকে ইঙ্গিত করেন তবে আমি বিশ্বাস করি এটি অবশ্যই আপনার প্রধান নির্বাচনের মানদণ্ডে পরিণত হবে। নিজেকে জিজ্ঞাসা করুন কতগুলি "বেন্ড" প্রক্রিয়াকরণের মডেলিংয়ের এটিওলজি / কার্যকারিতার ভিত্তিতে যুক্তিযুক্ত বলে মনে হয়। plots=components(clm)বিবৃতি দিয়ে লাগানো স্প্ল্যাপগুলি গ্রাফ করুন এবং দৃশ্যমানভাবে ফিটটিকে মূল্যায়ন করুন। সম্ভবত উচ্চ ডিএফ স্প্লিনগুলি কম শোরগোল বাদে লো ডিএফ স্প্লিনসের মতো একটি অনুরূপ গল্প বলছে। সেক্ষেত্রে কম ডিএফ ফিট বেছে নিন।

সর্বোপরি, গ্যাম মডেলগুলি অনুসন্ধানের উদ্দেশ্য।

আমি নিজেও জিসিভি বিকল্পটি ব্যবহার করে , আমি পোইসন শর্তাবলী, স্পার্স ডেটা ইত্যাদির অধীনে এর কার্য সম্পাদন সম্পর্কে অবাক হই Maybe সম্ভবত এখানে একটি সিমুলেশন অধ্যয়ন হয়।


2

আমি নিম্নলিখিত উত্তরটি টাইপ করেছি এবং তখন বুঝতে পেরেছিলাম যে এটি পোইসন রিগ্রেশনটির সাথে প্রযোজ্য কিনা আমার কোনও ধারণা নেই যার সাথে আমার কোনও অভিজ্ঞতা নেই। সম্ভবত কিছু মন্তব্য দিয়ে লোকেরা এর উত্তর দিতে পারে।


ব্যক্তিগতভাবে, আমি বিডব্লিউ সিলভারম্যানের পরামর্শ (1985) "নন-প্যারাম্যাট্রিক রিগ্রেশন কার্ভ ফিটিং (আলোচনার সাথে) ফিরিয়ে আনার জন্য স্প্লিন স্মুথিং পদ্ধতির কিছু দিক" like ( এখানে সাবস্ক্রিপশন ছাড়াই উপলভ্য ): স্মুথিং পরামিতিগুলির একটি ব্যাপ্তি চেষ্টা করে দেখুন যা সবচেয়ে দৃষ্টি আকর্ষণীয় pick

যেহেতু তিনি একই কাগজে যথাযথভাবে উল্লেখ করেছেন, যখন একটি বিষয়গত দৃষ্টিভঙ্গি পছন্দ করা যেতে পারে, এখনও স্বয়ংক্রিয় পদ্ধতিগুলির প্রয়োজন রয়েছে। তবে, জিসিভি সাধারণত একটি দুর্বল পছন্দ কারণ এর নিম্নস্তরের প্রবণতা রয়েছে। দেখুন, উদাহরণস্বরূপ হুরভিচ এট আল (1998) "উন্নত আকাইকে তথ্য মানদণ্ড ব্যবহার করে ননপ্যারামেট্রিক রেগ্রেশনে স্মুথিং প্যারামিটার নির্বাচন" ( এখানে সাবস্ক্রিপশন ছাড়াই উপলব্ধ )। একই কাগজে তারা একটি নতুন মাপদণ্ডের প্রস্তাব দেয় যা আপনার সমস্যাটি দূর করতে পারে, সংশোধিত এআইসি যাতে একটি ছোট নমুনা আকার সংশোধন অন্তর্ভুক্ত করে। আপনি কাগজের তুলনায় এআইসিসির উইকিপিডিয়া বর্ণনা অনুসরণ করতে আরও সহজ পেতে পারেন। উইকিপিডিয়া নিবন্ধে বার্নহ্যাম ও অ্যান্ডারসনের কিছু ভাল পরামর্শও রয়েছে (যেমন নমুনা আকার নির্বিশেষে এআইসির পরিবর্তে এআইসিসি ব্যবহার করুন)।

সংক্ষেপে, আমার পরামর্শগুলি পছন্দ অনুসারে হবে:

  1. ভিজ্যুয়াল মূল্যায়নের মাধ্যমে স্মুথিং প্যারামিটারটি ম্যানুয়ালি চয়ন করুন
  2. GCV এর পরিবর্তে সংশোধিত AIC (AICc) ব্যবহার করুন
  3. স্ট্যান্ডার্ড এআইসি ব্যবহার করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.