খুব বড় ডেটাসেট থেকে কীভাবে দ্রুত গুরুত্বপূর্ণ ভেরিয়েবলগুলি নির্বাচন করবেন?


9

আমার প্রায় 2000 বাইনারি ভেরিয়েবল / 200,000 সারি সহ একটি ডেটাসেট রয়েছে এবং আমি একক বাইনারি নির্ভরশীল ভেরিয়েবলের পূর্বাভাস দেওয়ার চেষ্টা করছি। আমার এই পর্যায়ে প্রধান লক্ষ্য পূর্বাভাসের সঠিকতা পাচ্ছে না, বরং এর মধ্যে কোনটি পরিবর্তনশীল গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী তা সনাক্ত করার জন্য identify আমি আমার চূড়ান্ত মডেলটিতে ভেরিয়েবলের সংখ্যা প্রায় 100 এ নামাতে চাই।

সর্বাধিক গুরুত্বপূর্ণ ভেরিয়েবলগুলি পাওয়ার অপেক্ষাকৃত দ্রুত উপায় আছে কি? এলোমেলোভাবে মনে হচ্ছে দীর্ঘ সময় নিচ্ছে।

আমাকে সমস্ত 200,000 পর্যবেক্ষণ ব্যবহার করতে হবে না, সুতরাং নমুনাটি টেবিলে একটি বিকল্প।


"সঠিক" ভবিষ্যদ্বাণীকারীদের পরিবর্তে "গুরুত্বপূর্ণ" দ্বারা, আপনি কি বোঝাতে চেয়েছেন যে ফলাফলটি ব্যাখ্যা করার জন্য এবং আপনাকে একটি তত্ত্ব তৈরিতে সহায়তা করার জন্য সেরা প্রার্থী যারা খুঁজে পেতে চান? যদি তাই হয় তবে 100 ব্যাখ্যামূলক ভেরিয়েবলগুলি একটি খুব বড় সংখ্যা - নিষেধাত্মকভাবে বড়। থিওরি-বিল্ডিং এবং সত্য ব্যাখ্যা (কেবলমাত্র পূর্বাভাসের চেয়ে বেশি) সম্ভবত আপনাকে এক্স এর সংখ্যা কমিয়ে 10 বা 15 করার প্রয়োজন হতে পারে
Rolando2

2
@ রোল্যান্ডো 2 কিছু অ্যাপ্লিকেশনগুলিতে 100 মোটেও বড় নয়। উদাহরণস্বরূপ, উচ্চ-গতির ব্রডব্যান্ডের অ্যাক্সেসযোগ্যতার সাহিত্যগুলি প্রায় 150 টি ভেরিয়েবলগুলিতে নির্দেশ করে (অনেক বিশ্লেষণ করা শত শত ব্যক্তির মধ্যে) এবং সেগুলি সমস্ত যুক্তিসঙ্গত: এগুলি ইঞ্জিনিয়ারিংয়ের (আঞ্চলিক, শিলা ধরণের, জলবায়ু ইত্যাদির) সাথে অর্থনীতিতে স্বাচ্ছন্দ্যের সাথে সম্পর্কিত te (এসইএস, ইত্যাদি), ডেমোগ্রাফিক্সের কাছে, স্থানীয় পরিবহণের অবকাঠামোর জ্যামিতি, রাজনীতিতে (কর এবং ব্যবসায়িক জলবায়ু) ইত্যাদি ইত্যাদি etc. আমি বিশ্বাস করি যে অনেকগুলি অর্থনৈতিক মডেল একইভাবে বহু শতাধিক তাত্ত্বিকভাবে গুরুত্বপূর্ণ ভেরিয়েবলগুলিকে অন্তর্ভুক্ত করতে পারে।
whuber

@ শুভ্র - আমি আপনার বক্তব্যটি নিয়েই ভাবছি ... আপনি কি একমত হন যে এতগুলি ভেরিয়েবলের দ্বারা নিযুক্ত কার্যকারণ (নিছক ভবিষ্যদ্বাণীকের চেয়ে বরং) অস্বাভাবিক নিবেদিত, মেধাবী এবং অভিজ্ঞ analy
Rolando2

@ রোল্যান্ডো শিওর 2000 ভেরিয়েবল অনেক কাজ!
শুক্র

উত্তর:


6

আপনি একটি সাধারণ ইউনিভারিয়ট ফিল্টার দিয়ে শুরু করতে পারেন এবং কোন ভেরিয়েবল রাখবেন তা সিদ্ধান্ত নিতে ক্রস-বৈধতা ব্যবহার করতে পারেন। sbfফাংশন caretআর প্যাকেজের সত্যিই দরকারী। আপনি এখানে পৃষ্ঠার 19 থেকে শুরু করে এ সম্পর্কে আরও পড়তে পারেন ।


ধন্যবাদ। আমি কেবল কাগজটি পড়েছি এবং এটি একটি শক্ত পদ্ধতির মতো বলে মনে হচ্ছে। আমি তবে আমার 64 বিট 4 এমবি মেমরি সিস্টেমে কিছু মেমরি সমস্যা নিয়ে চলেছি।
DevX

1
@ ডেভএক্স: আপনার যদি খুব বেশি ডেটা থাকে তবে আপনি একটি নমুনা নেওয়ার এবং নমুনার ভিত্তিতে ভেরিয়েবলগুলি বেছে নেওয়ার চেষ্টা করতে পারেন?
Zach

13

এটি লাসো এবং বন্ধুদের জন্য উপযুক্ত সমস্যার মতো শোনাচ্ছে যা সংকোচন এবং পরিবর্তনশীল নির্বাচন করে। স্ট্যাটিস্টিকাল লার্নিংয়ের এলিমেন্টগুলি রিগ্রেশনের জন্য লাসো এবং ইলাস্টিক নেট এবং এই সমস্যার জন্য আরও প্রাসঙ্গিক, লজিস্টিক রিগ্রেশনকে বর্ণনা করে।

বইটির লেখকরা গ্ল্যামনেট নামে একটি আর প্যাকেজ হিসাবে লাসো এবং ইলাস্টিক নেট উপলব্ধ একটি কার্যকর প্রয়োগ করেছে । আমি পূর্বে এই প্যাকেজটি প্রায় 250,000 সারির ডেটা ম্যাট্রিকের সাথে বাইনারি ডেটা বিশ্লেষণের জন্য ব্যবহার করেছি, যদিও কিছুটা কম কলাম রয়েছে, তবে অন্য সমস্ত কলামগুলির বিরুদ্ধে সমস্ত কলামের প্রকৃতপক্ষে চলমান রয়েছে। যদি ডেটা ম্যাট্রিক্সটিও অল্প যায়, বাস্তবায়নও সেটার সুবিধা নিতে পারে এবং আমি বিশ্বাস করি যে পদ্ধতিটি আসলে ওপিএস সম্পূর্ণ ডেটা সেটের জন্য কাজ করতে পারে। এখানে লাসো সম্পর্কে কিছু মন্তব্য রয়েছে:

  • অ-মসৃণ ( -norm) পেনাল্টি ফাংশনটি ব্যবহার করে লাসো পরিবর্তনশীল নির্বাচন অর্জন করে , যা সাধারণত কিছু প্যারামিটার 0 এর সমান হয় বলে প্যারামিটারের অনুমানের ফলাফল হয় যে অনুমান করা হয় কতগুলি শূন্য-পরামিতি এবং কত অ-শূন্য পরামিতি সঙ্কুচিত হয়, একটি টিউনিং পরামিতি দ্বারা নির্ধারিত হয়। গ্ল্যামনেটে বাস্তবায়নের দক্ষতা এই সত্যের উপর অনেক বেশি নির্ভর করে যে একটি বড় জরিমানার জন্য কেবল কয়েকটি পরামিতি 0 থেকে পৃথক।1
  • টিউনিং প্যারামিটার নির্বাচন প্রায়শই ক্রস-বৈধকরণ দ্বারা সম্পন্ন হয়, তবে ক্রস-বৈধকরণের পদক্ষেপ ছাড়াই পদ্ধতিটি পেনাল্টি প্যারামিটার দ্বারা সূচকযুক্ত নির্বাচিত ভেরিয়েবলগুলির একটি ভাল ক্রম দিতে সক্ষম হতে পারে।
  • পরিবর্তনশীল নির্বাচনের জন্য নেতিবাচক দিক থেকে, লাসো ভেরিয়েবলের নির্বাচনের ক্ষেত্রে অস্থির হতে পারে, বিশেষত, যদি তারা কিছুটা সম্পর্কযুক্ত হয়। এই অস্থিতিশীলতার উন্নতি করার জন্য আরও সাধারণ ইলাস্টিক নেট পেনাল্টি উদ্ভাবিত হয়েছিল, তবে এটি সমস্যার সম্পূর্ণ সমাধান করে না। লাসোর জন্য পরিবর্তনশীল নির্বাচনের উন্নতি করার জন্য অভিযোজিত লাসো হ'ল আরেকটি ধারণা।
  • স্থায়িত্ব নির্বাচন লসোর মতো পদ্ধতির মাধ্যমে নির্বাচিত ভেরিয়েবলের বৃহত্তর স্থায়িত্ব অর্জনের জন্য মাইনশাউসেন এবং বেলম্যান দ্বারা প্রস্তাবিত একটি সাধারণ পদ্ধতি। এর জন্য ডেটা সেটটির সাবস্ক্রিপ্সের জন্য বেশ কয়েকটি ফিটের প্রয়োজন হয় এবং যেমনটি কম্পিউটারের চেয়েও বেশি দাবি।
  • পেনাল্টি প্যারামিটারের মাধ্যমে প্যারামিটারাইজড একক ভেরিয়েবল মডেল থেকে জটিল জটিল মডেল (অগত্যা সমস্ত ভেরিয়েবলগুলি অন্তর্ভুক্ত নয়) পর্যন্ত "ভাল" মডেলগুলির একটি মাত্রিক সেট তৈরি করার জন্য লাসোর চিন্তাভাবনার যুক্তিসঙ্গত উপায়। বিপরীতে, অবিচ্ছিন্ন ফিল্টারগুলি কেবল ভাল একক-পরিবর্তনশীল মডেলের একটি নির্বাচন বা ক্রম উত্পাদন করে।

পাইথনের জন্য ল্যাসো এবং ইলাস্টিক নেট এর মতো পদ্ধতিগুলির বিজ্ঞান-শিখতে একটি বাস্তবায়ন রয়েছে ।


একটি যুক্ত ধারণা হিসাবে, সম্ভাব্য ভবিষ্যদ্বাণীকারীদের সংখ্যা যদি আকাশচুম্বী, জিডাব্লুএএস-এর মতো, আপনি এই নিবন্ধে পূর্বনির্ধারণের মতো কিছু করতে পারেন: জেসোম-ওয়াইড অ্যাসোসিয়েশন বিশ্লেষণ লাসো দণ্ডিত লজিস্টিক রিগ্রেশন দ্বারা
নিক সাবেকে

@ নিকস্যাবে, এই রেফারেন্সের জন্য ধন্যবাদ। এটা খুবই কাজের. জিডাব্লুএএস প্রসঙ্গে, এবং সম্ভবত অন্যান্য সংখ্যায়ও প্রচুর সংখ্যক পরস্পর সম্পর্কিত ভবিষ্যদ্বাণীকারীদের ক্ষেত্রে, আমি শুনেছি সিলভিয়া রিচার্ডসন বায়সিয়ান মডেল নির্বাচনের জন্য উদাহরণস্বরূপ স্থিতিশীলতার সাথে কিছু তুলনার তুলনা করেছেন। যদিও এমসিএমসি গণনাগুলি সত্যই দাবি করেছিল।
এনআরএইচ

আমি মনে করি এটি কার্যকর করা সহজ হিসাবে অ্যাডাপটিভ লাসোকে আরও বেশি চাপ দেওয়ার উপযুক্ত (একটিতে glmnetআর এর পরিবর্তে প্রায় মাত্র দুটি কল )। আরেকটি বিকল্প হ'ল লাসোর থ্রোসোল্ডিং যা প্রয়োগ করাও বেশ সহজ। Springer.com/gp/book/9783642201912 এর 2.9 বিভাগ দেখুন ।
বেনিয়ামিন ক্রিস্টফারসন

2

আপনি প্রতিটি ভেরিয়েবলের জন্য একটি লজিস্টিক রিগ্রেশন / চি-স্কোয়ার পরীক্ষা করতে পারেন এবং কেবল পি-ভ্যালু কিছু মানের চেয়ে কম ধরে রাখতে পারেন, বলুন 2


4
এই সুপারিশটি কীভাবে কার্যকর হতে পারে তার অনুভূতি পেতে, এমন একটি ক্ষেত্রে বিবেচনা করুন যেখানে ১০০ (বলুন) গুরুত্বপূর্ণ ভবিষ্যদ্বাণী রয়েছে (নির্ভরশীল ভেরিয়েবলের সাথে অত্যন্ত সম্পর্কযুক্ত) এবং বাকিগুলি নির্ভরশীল ভেরিয়েবল এবং একে অপরের সাথে সম্পূর্ণ সম্পর্কযুক্ত নয়। ০-এর কম পি-ভ্যালু সহ তাদের ধরে রাখার আশ্বাস দেয় যে আপনি প্রায় ১০০ + ০.২ * (2000-100) = 480 ভেরিয়েবল দিয়ে শেষ করবেন, যার মধ্যে 380 মূল্যহীন। জন্য ছোট ডেটাসেট এই পদ্ধতির কখনও কখনও একটি দ্রুত প্রারম্ভিক পর্দায় হিসাবে ব্যবহার করা হয়, কিন্তু এটি সত্যিই গুরুত্ব সহকারে এখানে নেই বিবেচনা করা যেতে পারে।
whuber

শুভ পয়েন্ট @ হুবার আপনার প্রায় 100 টি ধরে রাখতে আপনার আলফা স্তরটি অনেক নীচে সেট করতে হবে তবে তারপরে আপনি ভেরিয়েবলগুলি মিস করতে পারেন যা কেবল অন্যের জন্য সামঞ্জস্য করতে পারে। তবে 2000 থেকে 480 পর্যন্ত যাওয়া এলোমেলো বনের মতো কিছু চালাতে আরও পরিচালিত হতে পারে।
গ্লেন

আপনি ঠিক বলেছেন, এই জাতীয় স্ক্রিনিংয়ের যোগ্যতা রয়েছে - যদি এটি সঠিকভাবে কাজ করে। 480 হ্রাস, তবে সমস্ত 2000 মূল ভেরিয়েবলের মধ্যে উচ্চ সম্পর্কের সম্ভাবনা থেকে অতিরিক্ত সমস্যা রয়েছে। এটি সম্পর্কিত প্রশ্নের কয়েকটি উত্তরে বর্ণিত হিসাবে 100 টি সঠিক ভেরিয়েবলগুলির মধ্যে যে কোনও একটি বা সমস্তটি ধরে রাখতে না পারে ।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.