লাসো দিয়ে বৈশিষ্ট্য নির্বাচনের জন্য ডেটা প্রস্তুত করার জন্য কীভাবে অনুপস্থিত মানগুলির সাথে পরিচালনা করবেন?


11

আমার অবস্থা:

  • ছোট নমুনার আকার: 116
  • বাইনারি ফলাফল পরিবর্তনশীল
  • ব্যাখ্যামূলক ভেরিয়েবলের দীর্ঘ তালিকা: 44
  • ব্যাখ্যামূলক পরিবর্তনশীলগুলি আমার মাথার শীর্ষ থেকে আসে নি; তাদের পছন্দ সাহিত্যের উপর ভিত্তি করে ছিল।
  • বেশিরভাগ ক্ষেত্রে নমুনা এবং বেশিরভাগ ভেরিয়েবলের মান অনুপস্থিত missing

বৈশিষ্ট্য নির্বাচনের পন্থা বেছে নেওয়া হয়েছে: লাসো

আর এর গ্ল্যামনেট প্যাকেজটি আমাকে গ্ল্যামনেট রুটিন চালাতে দেবে না, সম্ভবত আমার ডেটা সেটে মূল্যবোধের অস্তিত্ব রয়েছে। অনুপস্থিত ডেটা হ্যান্ডল করার বিভিন্ন পদ্ধতি রয়েছে বলে মনে হয়, তাই আমি জানতে চাই:

  • আমি ব্যবহার করতে পারি এমন অভিশংসনের পদ্ধতির ক্ষেত্রে লাসো কি কোনও বিধিনিষেধ আরোপ করে?
  • অভিশংসনের পদ্ধতির জন্য সেরা বাজি কী হবে? আদর্শভাবে, আমার এমন একটি পদ্ধতি প্রয়োজন যা আমি এসপিএসএসে চালাতে পারি (অগ্রাধিকার সহ) বা আর।

আপডেট 1: এটি নীচের কয়েকটি উত্তর থেকে স্পষ্ট হয়ে উঠেছে যে আমি অভিবাসন পদ্ধতি বিবেচনা করার আগে আরও মূল বিষয়গুলি নিয়ে কাজ করেছি। আমি এখানে সে সম্পর্কে নতুন প্রশ্ন যুক্ত করতে চাই। উত্তরের ক্ষেত্রে কোডিংটি ধ্রুবক মান হিসাবে এবং 'প্রযোজ্য নয়' মান এবং গ্রুপ লাসো ব্যবহারের সাথে মোকাবিলা করার জন্য একটি নতুন ভেরিয়েবল তৈরির পরামর্শ দেয়:

  • আপনি কি বলবেন যে আমি যদি গ্রুপ লাসো ব্যবহার করি তবে আমি ধারাবাহিক ভবিষ্যদ্বাণীকারীদেরও প্রস্তাবিত দৃষ্টিভঙ্গিগুলিকে শ্রেণিবদ্ধ ভবিষ্যদ্বাণীদের ব্যবহার করতে সক্ষম হব? যদি তা হয় তবে আমি ধরে নিই এটি একটি নতুন বিভাগ তৈরি করার সমতুল্য হবে - আমি সতর্ক যে এটি পক্ষপাতিত্বের পরিচয় দিতে পারে।
  • আর এর গ্ল্যামনেট প্যাকেজটি গ্রুপ লাসো সমর্থন করে কিনা তা কি কেউ জানেন? যদি তা না হয় তবে লজিস্টিক রিগ্রেশনের সাথে মিশ্রিত করে এমন কেউ কি অন্যকে পরামর্শ দেবেন? গ্রুপ লাসো উল্লেখ করে বেশ কয়েকটি বিকল্প সিআরএএন সংগ্রহস্থলে পাওয়া যাবে, আমার ক্ষেত্রে সবচেয়ে উপযুক্ত কোন পরামর্শ? হয়তো এসজিএল?

এটি আমার পূর্ববর্তী প্রশ্নের একটি ফলো-আপ ( লজিস্টিক রিগ্রেশন বিশ্লেষণ সম্পাদন করতে আমার মূল দীর্ঘ তালিকা থেকে ভেরিয়েবলগুলির একটি উপসেট কীভাবে নির্বাচন করবেন? )।

ওবিএস: আমি কোনও পরিসংখ্যানবিদ নই।


(১) অনুমানের সর্বোত্তম পন্থা নিখোঁজ মানগুলির অনুপাত এবং প্যাটার্ন, ভেরিয়েবলের মধ্যে সম্পর্ক এবং কী অনুমানের জন্য আপনি প্রস্তুত মূল্যবোধের কারণগুলি তৈরি করতে প্রস্তুত তা নির্ভর করে। (২) লাসোতে ইনপুট সরবরাহ করতে যে কোনও একক অভিশংসন পদ্ধতি ব্যবহার করা যেতে পারে; অভিশাপ ফলাফলগুলিকে কীভাবে প্রভাবিত করে তা নির্ধারণে অসুবিধা। আমি কীভাবে লাসো (একসাথে কেউ করেন) এর সাথে একাধিক অভিব্যক্তি একত্রিত করতে জানি না, তবে বিভিন্ন অনুবর্তনমূলক রানগুলি থেকে ফলাফলগুলির একটি অনানুষ্ঠানিক তুলনা (একই भविष्यवाणीকারীরা সাধারণত নির্বাচিত হয়?) এখনও তথ্যবহুল হতে পারে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ স্কোর্টচি: আমার অনুপস্থিত মানগুলির বেশিরভাগই 'প্রযোজ্য নয়' বিভাগে পড়ে। উদাহরণস্বরূপ: 'পরিবারের প্রাপ্ত বয়স্ক মহিলার বয়স' পরিবর্তনশীল ক্ষেত্রে, প্রাপ্তবয়স্ক পুরুষরা বিধবা হন cases আসলে, আমি অনুমান করি যে এখানে আমার একটি পদক্ষেপ ফিরে নেওয়া উচিত: আমি কি 0 টির মানকে অবিচ্ছিন্ন ভেরিয়েবলগুলিকে অনুপস্থিত মান হিসাবে গণ্য করব? উদাহরণস্বরূপ: শিক্ষার 0 বছর, 0 পরিবারের সদস্যদের বয়স 14 থেকে 60 বছরের মধ্যে।
হতবুদ্ধি

এমন পরিস্থিতিটি কল্পনা করা শক্ত যেখানে আপনি সেই অনুপস্থিত মহিলা সম্পর্কে অজানা ঘটনাটি পরিবারের সম্পর্কে জ্ঞাত তথ্যের চেয়ে বিবেচনা করতে চান। শূন্যদের সম্পর্কে প্রশ্নটি বোঝা শক্ত: আপনি কি জিজ্ঞাসা করছেন যে, কোনও শিক্ষার কোনও বছরই একটি অবর্ণনীয় মান নয়, বা 0 অনুপস্থিত মান কোড করতে ব্যবহৃত হতে পারে? (এবং তারপরে আমি কীভাবে জানব?) 0 কে অবশ্যই অনুপস্থিতির ইঙ্গিত হিসাবে গণ্য করার কোনও সাধারণ কারণ নেই ।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ স্কোর্টচি: মহিলা বয়সের পরিবর্তনশীল সম্পর্কে, আমি কী বলতে চাইছি তা আমি দেখতে পাচ্ছি। তবে বিষয়টি হয়ে ওঠে: এনএ হিসাবে না থাকলে আমি কীভাবে অনুপস্থিত মহিলা মামলা করব? জিরো সম্পর্কে: হ্যাঁ, এটি আমার প্রশ্নটি ছিল, দুঃখিত যদি এটি পরিষ্কার না হয়। আমি ভেবেছিলাম যে প্রোগ্রামটির শূন্য মানগুলি পরিচালনা করতে কিছু সমস্যা হতে পারে এবং এটি এর অর্থ আমি কী বুঝতে চাইছি তা হয়তো "বুঝতে পারে না"।
বিস্মিত

আপনি এটিকে যে কোনও স্থির মান হিসাবে কোড করতে পারেন এবং উপস্থিতি / অনুপস্থিতির জন্য একটি সূচক ভেরিয়েবল প্রবর্তন করতে পারেন (এবং গ্রুপ এলএএসএসও ব্যবহার করুন)। লাসো বা অন্য কোনও রিগ্রেশন প্রোগ্রামের ভবিষ্যদ্বাণীকারীদের ভুলভাবে শূন্য মানগুলি পরিচালনা করার কোনও কারণ নেই। [দয়া করে এটিকে ভুল উপায়ে গ্রহণ করবেন না, তবে এগুলি খুব বেসিক প্রশ্ন, যা এই মজাতে পরামর্শ দিলে যদি আপনি সহজ সমস্যাগুলি শুরু করতে চান বা এটি বাস্তবের জন্য আপনি কোনও পরিসংখ্যানবিদদের সাথে পরামর্শ করতে চাইতে পারেন]]
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


11

যখন একটি অবিচ্ছিন্ন ভবিষ্যদ্বাণী এর 'প্রযোজ্য নয়' মানগুলি থাকে তবে এটি দুটি ভেরিয়েবল ব্যবহার করে কোড করার জন্য প্রায়শই কার্যকর:x

x1={cwhen x is not applicablexotherwise

যেখানে একটি ধ্রুবক, এবংc

x2={1when x is not applicable0otherwise

মনে করুন প্রতিক্রিয়াটির জন্য লিনিয়ার ভবিষ্যদ্বাণীটি দিয়েছেন

η=β0+β1x1+β2x2+

যা সমাধান

η=β0+β1x1+

যখন পরিমাপ করা হয়, বা করতে হয়x

η=β0+β1c+β2+

যখন x 'প্রযোজ্য নয়'। পছন্দমত নির্বিচারে, & পথিমধ্যে আনুমানিক প্রভাবিত করে না বা ঢাল ; তুলনায় 'প্রয়োগযোগ্য নয়' এর প্রভাব বর্ণনা করে ।cβ0β1β2xx=c

অজানা মান অনুসারে প্রতিক্রিয়া পরিবর্তিত হলে এটি উপযুক্ত পদ্ধতি নয় : 'নিখোঁজ' গোষ্ঠীর পরিবর্তনশীলতা ফুলে উঠবে এবং বিভ্রান্তির কারণে অন্যান্য ভবিষ্যদ্বাণীকের সহগের অনুমানের পক্ষপাতদুষ্ট হবে। অনুপস্থিত মানগুলি বোঝানো আরও ভাল।x

লাসোর ব্যবহার দুটি সমস্যার পরিচয় দেয়:

  1. এর পছন্দসই ফলাফলগুলিকে প্রভাবিত করে যেহেতু সঙ্কুচিত হওয়ার পরিমাণটি সহগের অনুমানের পরিমাণের উপর নির্ভর করে।c
  2. আপনাকে নিশ্চিত করতে হবে যে এবং উভয়ই নির্বাচিত মডেলটির বাইরে বা উভয়ই।x1x2

আপনি সমন্বয়ে গঠিত একটি গোষ্ঠীর সাথে বরং গ্রুপ Lasso ব্যবহার করে এই দুটি সমাধান করতে পারে & : -norm শাস্তি প্রয়োগ করা হয় এর -norm orthonormalized ম্যাট্রিক্স । (শ্রেণিবদ্ধ পূর্বাভাসকারীগণ গ্রুপ লাসো-এর পোস্টার চাইল্ড — আপনি কেবল আলাদা স্তর হিসাবে 'প্রয়োগযোগ্য নয়' কোডটি পছন্দ করতেন, প্রায়শই আনপেনালাইজড রিগ্রেশন হিসাবে এটি করা হত।) মিয়ার এট আল (২০০৮), জেআরএসএস বি, 70 , 1 দেখুন " লজিস্টিক রিগ্রেশন " এবং গ্রপ্লাসো জন্য গ্রুপ লাসোx1x2L1L2[x1 x2]


আর এর গ্ল্যামনেট প্যাকেজটি গ্রুপ লাসো সমর্থন করে কিনা তা কি কেউ জানেন? যদি তা না হয় তবে লজিস্টিক রিগ্রেশনের সাথে মিশ্রিত করে এমন কেউ কি অন্যকে পরামর্শ দেবেন? গ্রুপ লাসো উল্লেখ করে বেশ কয়েকটি বিকল্প সিআরএএন সংগ্রহস্থলে পাওয়া যাবে, আমার ক্ষেত্রে সবচেয়ে উপযুক্ত কোন পরামর্শ? হয়তো এসজিএল?
বিস্মিত

সুতরাং, আপনি কি বলবেন যে আমি যদি গ্রুপ লাসো ব্যবহার করি তবে আমি ক্রমাগত ভবিষ্যদ্বাণীকারীদেরকেও শ্রেণিবদ্ধ ভবিষ্যদ্বাণীকারীদের পরামর্শ দেওয়ার পদ্ধতিকে ব্যবহার করতে সক্ষম হব?
হতবুদ্ধি

5

একাধিক অভিব্যক্তি কখনও খারাপ পদ্ধতির নয়। আপনি সম্পূর্ণ তথ্য সর্বাধিক সম্ভাবনাও করতে পারেন। এখানে এবং এখানে ভাল পর্যালোচনা এবং তুলনা ।

কিন্তু আপনি যে রুট চলুন তাহলে, ব্যবহারের বিষয়ে বিবেচনা স্ট্যান , একটি একক Bayesian মডেল হিসেবে আপনার রিগ্রেশন সঙ্গে একযোগে এমএল নিন্দা মাপসই যেহেতু Lasso যাহাই হউক না কেন Bayesian রিগ্রেশন একটি বিশেষ ক্ষেত্রে দেখা যায়


আমি একাধিক অভিব্যক্তির পদ্ধতিটি ভুল বুঝেছিলাম, এখন আমি দেখতে পাচ্ছি যে এটি আমার ক্ষেত্রে প্রযোজ্য। এটি প্রতিফলিত করার জন্য আমি আমার প্রশ্ন সম্পাদনা করেছি। আপনি কী জানেন যে এসপিএসএস বা আরআর দুটি আপনার দ্বারা বর্ণিত দুটি বিকল্প চালায়?
অবাক

1
একটি আর প্যাকেজ রয়েছে miযা আপনাকে সাহায্য করতে পারে।
শ্যাডটলকার

2
আপনি আর (দেখুন মাধ্যমে স্ট্যান চালাতে পারেন RStan )।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

আর এর জন্য অতিরিক্ত একাধিক ইমপুটেশন প্যাকেজগুলিতে অন্তর্ভুক্ত Ameliaএবং mice
সাইকোরাক্স মনিকাকে

0

পরিসংখ্যানের ক্যাট্রেগ কমান্ড লাসোর সাথে নিখোঁজ হওয়া ডেটা পরিচালনা করে। আপনি কেসগুলি তালিকাবদ্ধভাবে বাদ দিতে পারেন বা প্রক্রিয়াটির গতিধারা রাখতে পারেন যদিও এর নামটি সুপারিশ করে যে এটি শ্রেণিবদ্ধ ভেরিয়েবলের জন্য, তবে আপনি অবিচ্ছিন্ন কেসটি পরিচালনা করতে স্ক্রিনটি সংখ্যায়িত করতে পারেন।


এই এসএএস PROC CATREG, আমি অনুমান করছি?
বেন বলকার

@ জে কেপি: আমি আসলে এই আদেশটি দিয়ে এসেছি। তবে, আমার বহির্মুখী পরিবর্তনশীলটি বাইনারি হওয়ার বিষয়টি বিবেচনা করে আমি ধরে নিচ্ছি যে লজিজিক রিগ্রেশনটি বিভাগীয় রিগ্রেশন (ক্যাট্রেগ) এর চেয়ে আরও উপযুক্ত হবে - আমি কি ঠিক বলছি? এছাড়াও, ক্যাট্রেগের বিকল্পগুলি সীমাবদ্ধ বলে মনে হচ্ছে - আপনি কেবলমাত্র কেস বাদ দিয়ে, নিখোঁজ মানগুলিকে গড় মানগুলির সাথে প্রতিস্থাপন বা একটি অতিরিক্ত বিভাগ তৈরি করার মধ্যে বেছে নিতে পারেন।
অবাক

0

আপনি নিম্নলিখিত কাগজে উপস্থাপিত সহজ পদ্ধতির বিষয়টিও বিবেচনা করতে পারেন:

লোহ, পিএল, এবং ওয়াইনরাইট, এমজে (২০১১)। কোলাহল এবং গায়েবিষ্ট ডেটা সহ উচ্চ-মাত্রিক রিগ্রেশন: অ-সংঘাতের সাথে প্রযোজ্য গ্যারান্টিনিউরাল ইনফরমেশন প্রসেসিং সিস্টেমগুলির অগ্রগতিগুলিতে (পৃষ্ঠা 2726-2734)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.