বড়


22

ইন্ট্রো:

আমার কাছে ক্লাসিকাল "বড় পি, ছোট এন সমস্যা" সহ একটি ডেটাসেট রয়েছে। সম্ভাব্য পূর্বাভাসের সংখ্যা পি = 400 পাওয়া যায় এমন নমুনা এন = 150 পাওয়া যায় । ফলাফলটি একটি অবিচ্ছিন্ন পরিবর্তনশীল।

আমি সর্বাধিক "গুরুত্বপূর্ণ" বর্ণনাকারী, যাঁরা ফলাফল ব্যাখ্যা করার জন্য এবং তত্ত্ব তৈরিতে সহায়তা করার জন্য সেরা প্রার্থী, তাদের সন্ধান করতে চাই।

এই বিষয়ে গবেষণার পরে আমি দেখতে পেলাম লাসো এবং ইলাস্টিক নেট সাধারণত বড় পি, ছোট এন এর ক্ষেত্রে ব্যবহৃত হয়। আমার কিছু ভবিষ্যদ্বাণী অত্যন্ত সংযুক্ত এবং আমি গুরুত্বপূণ মূল্যায়নে তাদের গোষ্ঠীগুলি সংরক্ষণ করতে চাই, তাই আমি ইলাস্টিক নেটকে বেছে নিয়েছি । আমি মনে করি যে আমি গুরুত্বের পরিমাপ হিসাবে রিগ্রেশন সহগের নিখুঁত মানগুলি ব্যবহার করতে পারি (দয়া করে আমি ভুল হলে আমাকে সংশোধন করুন; আমার ডেটাসেটটি মানক করা হয়েছে)।

সমস্যা:

আমার নমুনার সংখ্যা যেহেতু ছোট, আমি কীভাবে একটি স্থিতিশীল মডেল অর্জন করতে পারি?

আমার বর্তমান পদ্ধতিটি এমএসই স্কোরের গড় 10-ভাঁজ ক্রস-বৈধকরণ সহ 90% ডেটাসেটের গ্রিড অনুসন্ধানে সেরা টিউনিং প্যারামিটারগুলি (ল্যাম্বদা এবং আলফা) সন্ধান করা। তারপরে আমি পুরো 90% ডেটাসেটের সেরা টিউনিং পরামিতিগুলির সাথে মডেলটিকে প্রশিক্ষণ দিই। আমি ডেটাসেটের 10% হোল্ডআউট (যা কেবল 15 টি নমুনায় অ্যাকাউন্ট রয়েছে) এর উপর আর স্কোয়ার ব্যবহার করে আমার মডেলটি মূল্যায়ন করতে সক্ষম হয়েছি।

এই পদ্ধতিটি বারবার চালানো, আমি আর স্কোয়ার মূল্যায়নে একটি বড় বৈচিত্র পেয়েছি। পাশাপাশি, অ-শূন্যস্থান পূর্বাভাসকারীদের সংখ্যাও তাদের সহগের সাথে পরিবর্তিত হয়।

আমি কীভাবে ভবিষ্যদ্বাণীকারীদের গুরুত্বের আরও স্থিতিশীল মূল্যায়ন এবং চূড়ান্ত মডেল কর্মক্ষমতা সম্পর্কে আরও স্থিতিক মূল্যায়ন পেতে পারি?

আমি বার বার কয়েকটি মডেল তৈরি করতে এবং তারপরে গড় রিগ্রেশন সহগগুলি তৈরি করতে আমার প্রক্রিয়াটি চালাতে পারি? বা মডেলগুলিতে এর গুরুত্বের স্কোর হিসাবে আমার কোনও ভবিষ্যদ্বাণীকের সংঘটনগুলির সংখ্যাটি ব্যবহার করা উচিত?

বর্তমানে, আমি প্রায় 40-50 অ-শূন্যস্থান পূর্বাভাসকারী পাই get আরও ভাল স্থিতিশীলতার জন্য আমার আরও কত ভবিষ্যদ্বাণীকে শাস্তি দেওয়া উচিত?


1
হয়ত নিয়মিত রেগ্রেশন কি যথেষ্ট নয়? আপনি কিছু মেশিন লার্নিং পদ্ধতির চেষ্টা করেছেন?

অবিচ্ছিন্ন বা নিয়মিত নির্ভরশীল ভেরিয়েবলের জন্য উপযুক্ত কোন এমএল পদ্ধতির আপনি পরামর্শ দিবেন?
দিমি

2
এলোমেলো বন, এসভিআর ... বৈশিষ্ট্য নির্বাচনের জন্য আপনি কিছু প্রাসঙ্গিক পদ্ধতি (আরও স্থিতিশীল হওয়া উচিত) যেমন এসিই বা বুরুটা চেষ্টা করতে পারেন।

উত্তর:


11

" স্পার্স অ্যালগরিদম স্থিতিশীল নয়: একটি নন-ফ্রি-লাঞ্চ থিওরেম "

আমি অনুমান করি শিরোনামটি অনেক কিছু বলেছে, যেমনটি আপনি উল্লেখ করেছেন।

[...] একটি স্পারস অ্যালগরিদম অ-অনন্য অনুকূল সমাধান করতে পারে এবং তাই অসুস্থ-পোজযুক্ত

পরীক্ষা করে দেখুন Lasso এলোমেলোভাবে , এবং পিটার Buhlmann দ্বারা আলাপ

হালনাগাদ:

আমি এই কাগজটি মাইনশাউসেন এবং বুহলম্যান "স্ট্যাবিলিটি সিলেকশন" নামক কাগজের চেয়ে বেশি অনুসরণ করতে পেলাম।

" এলোমেলো লাসো " তে লেখকরা বড় , ছোট এন সমস্যার জন্য লাসোর দুটি গুরুত্বপূর্ণ ত্রুটিগুলি বিবেচনা করেছেন ,pn

  1. বেশ কয়েকটি পরস্পর সম্পর্কিত ভেরিয়েবলের ক্ষেত্রে লসো কেবল একটি বা কয়েকটি বাছাই করে, ফলে আপনি যে অস্থিরতার কথা বলছেন
  2. n

র্যান্ডম লাসোর জন্য মূল ধারণাটি যা লাসোর উভয় ত্রুটি মোকাবেলা করতে সক্ষম

n

বুটস্ট্র্যাপ নমুনা একাধিক ডেটা সেট অনুকরণ করতে আঁকা হয়। চূড়ান্ত সহগগুলি প্রতিটি বুটস্ট্র্যাপ নমুনার ফলাফলের গড় ধরে প্রাপ্ত হয়।

উত্তরে যদি কেউ উত্তরগুলিতে এই অ্যালগরিদমকে আরও বিশদভাবে ব্যাখ্যা করতে এবং ব্যাখ্যা করতে পারে।


1
দুর্দান্ত লিঙ্কগুলি (+1)।
jboman

মন্তব্যের জন্য আপনাকে ধন্যবাদ। আমি এলোমেলোভাবে করা লাসোও বিবেচনা করেছি, তবে কি এই ধারাবাহিকতার ক্ষেত্রে উপযুক্ত হবে ?
দিমি

2
ব্যাখ্যামূলক ভেরিয়েবলগুলির মধ্যে আনুমানিক কোলাইনারিটির আওতায় কী ঘটে? রিগ্রেশন বিশ্লেষণে প্রচলিত ফরোয়ার্ড অনুসন্ধান অ্যালগরিদমে আমরা প্রায়শই এমন পরিস্থিতির মুখোমুখি হই যেখানে দুটি ভেরিয়েবল x1 এবং x2 এর একই ব্যাখ্যাযোগ্য শক্তি রয়েছে। যদি এক্স 1 মডেলটিতে থাকে তবে এক্স 2 অন্তর্ভুক্ত করার দরকার নেই; বিপরীতে, x2 যদি মডেলটিতে থাকে তবে এক্স 1 অন্তর্ভুক্ত করার দরকার নেই। যদি আমি আপনার পদ্ধতিটি সঠিকভাবে বুঝতে পারি তবে আপনি x1 অর্ধেক সময় এবং x2 অর্ধেক সময় অন্তর্ভুক্ত করবেন, যার ফলে প্রায় 50% স্থিতিশীলতার সম্ভাবনা থাকে। যদি তা হয় তবে আপনি ভ্রান্তভাবে এই সিদ্ধান্তে পৌঁছাতে পারবেন যে কোনও ভেরিয়েবলের দরকার নেই।
দিমি

আমি ভাবছি, আমি একইভাবে এ ক্ষেত্রে এলোমেলোভাবে ইলাস্টিক নেট ব্যবহার করতে পারি।
দিমি

আমি আরও একটি লিঙ্ক যুক্ত করেছি যা আমি মনে করি আপনার প্রশ্নের উত্তর আরও ভাল।
পার্ডিস

6

আমার বর্তমান পদ্ধতিটি এমএসই স্কোরের গড় 10-ভাঁজ ক্রস-বৈধকরণ সহ 90% ডেটাসেটের গ্রিড অনুসন্ধানে সেরা টিউনিং প্যারামিটারগুলি (ল্যাম্বদা এবং আলফা) সন্ধান করা। তারপরে আমি পুরো 90% ডেটাসেটের সেরা টিউনিং পরামিতিগুলির সাথে মডেলটিকে প্রশিক্ষণ দিই। আমি ডেটাসেটের 10% হোল্ডআউট (যা কেবল 15 টি নমুনায় অ্যাকাউন্ট রয়েছে) এর উপর আর স্কোয়ার ব্যবহার করে আমার মডেলটি মূল্যায়ন করতে সক্ষম হয়েছি।

টিউনিং পরামিতি কত স্থিতিশীল?

আপনি কি ধার্মিকতা-এর-ফিট (যেমন সর্বোত্তম প্যারামিটারের ক্রস বৈধকরণের এমএসই) এবং 10% স্বতন্ত্র পরীক্ষার পারফরম্যান্সের মধ্যে বড় পার্থক্য দেখছেন?

এটি অত্যধিক উপসর্গের লক্ষণ হবে:

MSE=f(gridparameters)MSE=f(gridparameters)

আমি বার বার কয়েকটি মডেল তৈরি করতে এবং তারপরে গড় রিগ্রেশন সহগগুলি তৈরি করতে আমার প্রক্রিয়াটি চালাতে পারি? বা মডেলগুলিতে এর গুরুত্বের স্কোর হিসাবে আমার কোনও ভবিষ্যদ্বাণীকের সংঘটনগুলির সংখ্যাটি ব্যবহার করা উচিত?

এই জাতীয় সমন্বিত মডেলগুলি তৈরির জন্য বেশ কয়েকটি সম্ভাবনা রয়েছে:

  • রৈখিক মডেলগুলি সহগের গড় হিসাবে গড়ে নেওয়া যায়
  • mm

অনুসন্ধান পদগুলি হবে "একত্রিত মডেল", "বুটস্ট্র্যাপ সমষ্টি", "ব্যাগিং"।

পার্শ্বচিন্তা: কিছু ধরণের ডেটা প্রত্যাশিত এবং ব্যাখ্যামূলক কোলাইনারিটি রয়েছে যা ভেরিয়েবল সিলেটিওকে আরও বা কম সমান সমাধানের মধ্যে "জাম্প" করতে পারে।


3

এটির বাইরে বেরোনোর ​​কোনও উপায় নেই। যেমন কিছু বলেছেন, মডেলগুলি প্রকৃতির দ্বারা অস্থির (অন্যথায় পরিসংখ্যানের প্রয়োজন হবে না)।

কিন্তু অস্থিরতা নিজেই তথ্য নিয়ে আসে। সুতরাং এটি থেকে মুক্তি পাওয়ার পরিবর্তে আমি এটি বিশ্লেষণ করার চেষ্টা করেছি।

আমি বহুবার ক্রস বৈধকরণ সিমুলেশনগুলি চালনা করি এবং তারপরে প্রতিটি রানের সেরা নির্বাচিত পরামিতিগুলির সহগগুলি পাই এবং সেগুলি একসাথে রাখি।

λα

তারপরে আমি প্রতিটি পরামিতি জোড়ের জন্য রিগ্রেশন সহগগুলি বের করি এবং এটি প্রতিটি প্যারামিটারের জন্য মানগুলির বন্টন দেয়। ভবিষ্যদ্বাণীকারীর শক্তি এবং এর মানক বিচ্যুতি / আইকিউআর এর পরিবর্তনশীলতার বর্ণনা দিতে আমি এইভাবে গড় / মধ্যমানের মানটি ব্যবহার করতে পারি, এটিই তার স্থায়িত্ব।

খুব দৃab় ভবিষ্যদ্বাণীকারী এর অর্থ আপনি নতুন ডেটার সাথেও এর প্রভাব একই রকম আশা করতে পারেন; এমন একটি ভবিষ্যদ্বাণীকারী যা আপনার ডেটাতেও অস্থির, সম্ভবত নতুন ডেটা সহ খুব অস্থির।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.