ব্যাখ্যামূলক মডেলগুলির জন্য লাসো: সঙ্কুচিত প্যারামিটারগুলি বা না?


9

আমি একটি বিশ্লেষণ পরিচালনা করছি যেখানে প্রাথমিক লক্ষ্যটি বোঝা to ডেটাসেট ক্রস-বৈধকরণের জন্য যথেষ্ট বড় (10 কে), এবং ভবিষ্যদ্বাণীকারীরা ধারাবাহিক এবং ডামি ভেরিয়েবল উভয়ই অন্তর্ভুক্ত করে এবং ফলাফলটি ধারাবাহিক থাকে। মূল লক্ষ্যটি ছিল মডেলটির ব্যাখ্যা সহজ করার জন্য কিছু ভবিষ্যদ্বাণীকারীদের লাথি মেরে বোঝা যায় কিনা তা দেখার জন্য goal

প্রশ্নাবলী:

  1. আমার প্রশ্নটি "কোনটি ফলাফলগুলি ব্যাখ্যা করে এবং সেই ব্যাখ্যাটির একটি 'যথেষ্ট শক্তিশালী' অংশ"। তবে লাসোর জন্য ল্যাম্বডা প্যারামিটারটি নির্বাচন করতে, আপনি ক্রস-বৈধতা, অর্থাৎ মানদণ্ড হিসাবে ভবিষ্যদ্বাণীমূলক বৈধতা ব্যবহার করেন। অনুমান করার সময়, ভবিষ্যদ্বাণীমূলক বৈধতা আমি যে সাধারণ প্রশ্নটি জিজ্ঞাসা করছি তার জন্য যথেষ্ট যথেষ্ট প্রক্সি?

  2. বলুন লাসো 8 টি পূর্বাভাসীর মধ্যে মাত্র 3 রেখেছিল। এবং এখন আমি নিজেকে জিজ্ঞাসা করছি: "এগুলির পরিণতিতে কী প্রভাব ফেলে"। উদাহরণস্বরূপ, আমি একটি লিঙ্গ পার্থক্য পেয়েছি। লাসো সঙ্কুচিত হওয়ার পরে, সহগটি পরামর্শ দেয় যে মহিলারা পুরুষদের চেয়ে 1 পয়েন্ট বেশি। তবে সংকোচন ছাড়াই (অর্থাত্, প্রকৃত ডেটাসেটে) তারা 2.5 পয়েন্ট উচ্চতর স্কোর করে।

    • আমার "বাস্তব" লিঙ্গ প্রভাব হিসাবে আমি কোনটিকে গ্রহণ করব? কেবল ভবিষ্যদ্বাণীমূলক বৈধতার দ্বারা যাওয়া, এটি সঙ্কুচিত সহগ হবে।
    • বা একটি প্রসঙ্গে, বলুন যে আমি পরিসংখ্যানের বিষয়ে দক্ষ নয় এমন লোকের জন্য একটি প্রতিবেদন লিখছি। আমি কোন সহগকে তাদের প্রতিবেদন করব?

1
আপনি কোন ধরণের মডেলটি দেখছেন? লিনিয়ার, লজিস্টিক, পোইসন ইত্যাদি মডেল?
ট্রাইনাডোস্ট্যাট

1
এটি একটি রৈখিক মডেল, তবে আমি মনে করি না যে এই প্রশ্নের জন্য কোনও পার্থক্য তৈরি করে
এমবোকুলিক

উত্তর:


7

যদি আপনার লক্ষ্যটি আপনার মডেলটির পরামিতিগুলি সঠিকভাবে অনুমান করা হয় তবে আপনি কীভাবে আপনার মডেলটি নির্বাচন করবেন তা সত্য মডেলের সাথে আপনি কতটা কাছাকাছি আছেন। ক্রস বৈধতা মাধ্যমে ভবিষ্যদ্বাণীপূর্ণ বৈধতা ওয়ান ওয়ে এই কাজ করতে হয় এবং পছন্দ করা হয় নির্বাচনের জন্য পথ Lasso রিগ্রেশনে।λ

এখন, কোন প্যারামিটার অনুমানটি "আসল অনুমান" এটি প্রশ্নের উত্তর দেওয়ার জন্য কোনটি পরামিতিটি সত্যিকারের প্যারামিটার মানের সাথে "নিকটতম" রয়েছে তা দেখতে হবে। "নিকটতম" মানে কি প্যারামিটারের অনুমানগুলি পক্ষপাত হ্রাস করে? যদি তা হয় তবে সর্বনিম্ন বর্গাকার অনুমানকারী লিনিয়ার রিগ্রেশনটিতে পক্ষপাতহীন। নিকটতম মানে কি প্যারামিটারের অনুমান যা মিনিমাইজ করে মানে বর্গ ত্রুটি (এমএসই)? তারপরে এটি দেখানো যেতে পারে যে রিজ রিগ্রেশনটির একটি স্পেসিফিকেশন রয়েছে যা আপনাকে এমএসই কমিয়ে আনার অনুমানগুলি দেবে (লাসো-র অনুরূপ, রিজ রিগ্রেশন প্যারামিটারের অনুমানকে শূন্যের দিকে সঙ্কুচিত করে তবে ল্যাসো থেকে পৃথক, প্যারামিটারের অনুমান শূন্যে পৌঁছায় না)। একইভাবে,λ)। পরিসংখ্যানবিদ হিসাবে, আপনাকে "সেরা" অনুমানটি কী তা নির্ধারণ করতে হবে এবং যাঁরা পরিসংখ্যানে পারদর্শী নন তাদের কাছে এটি (সাধারণত অনুমানের আত্মবিশ্বাসের কিছু ইঙ্গিত সহ) রিপোর্ট করতে হবে। "সেরা" কি তা পক্ষপাতদুষ্ট অনুমান হতে পারে বা নাও হতে পারে।

আর এর glmnetফাংশনটি ভাল মানগুলি বেছে নেওয়ার এবং একটি সংক্ষেপে, ক্রস-বৈধকরণের মাধ্যমে নির্বাচন করা এবং পরামিতিগুলির অনুমানের প্রতিবেদন করা প্যারামিটারগুলির "আসল" মানটি অনুমান করার উপযুক্ত যুক্তিযুক্ত উপায়।λλ

একটি বায়েশিয়ান লাসো মডেল যা প্রান্তিক সম্ভাবনার দ্বারা পছন্দ করে তবে কিছু লোক পছন্দ করে তবে আমি সম্ভবত ভুল করে ধরেছি যে আপনি ঘন ঘন ল্যাসো মডেল করছেন doingλ


"প্যারামিটার অনুমান যে পক্ষপাত হ্রাস" এর মধ্যে "পক্ষপাত" বলতে আপনার কী বোঝায়? এবং আমি কী এইভাবে পড়লে বাকীটি সঠিকভাবে পড়তে পারি: আমার এমন মডেলটি বেছে নেওয়া উচিত যা সর্বাধিক স্যাম্পলযুক্ত আনুমানিক এমএসইর (যেমন ক্রস-বৈধকরণে) রয়েছে? যেহেতু রিজ প্রশ্নের বাইরে নয়, যেহেতু আমি একটি বিচ্ছিন্ন সহগ ম্যাট্রিক্স চাই,
সঙ্কুচিত লাশো

@ এমবোকুলিক পক্ষপাতিত্বের অর্থ আমি পরিসংখ্যান পক্ষপাত। এটি একটি জনসংখ্যার প্যারামিটারের মান অনুমান / অধীনে পরিমাপের প্রক্রিয়াটির প্রবণতা বোঝায়। আমার উত্তর বলছে যে এটি আপনি যা চান তা নির্ভর করে। আপনি যদি পক্ষপাত না চান, রৈখিক প্রতিরোধের সাথে আটকে থাকুন। আপনি যদি পক্ষপাতদুষ্টর পক্ষে ঠিক থাকেন এবং এমএসই হ্রাস করতে পছন্দ করেন, লাসো-র সাথে যান এবং করার সময় যথাযথ পরিশ্রম করুন । λ
ট্রায়নাডোস্ট্যাট

আকর্ষণীয়, আমি কখনই সেভাবে ভাবিনি। আবার আপনাকে জিজ্ঞাসা করতে হবে আমি আপনাকে সঠিকভাবে বুঝতে পেরেছি কিনা। সুতরাং লিনিয়ার রিগ্রেশন আপনাকে জনসংখ্যার সহগের সবচেয়ে নিরপেক্ষ অনুমান দেয় (আমার মূল প্রশ্নের "2.5 পয়েন্ট উচ্চতর" উদাহরণ)। যেখানে লাসো বা রিজ রেজিস্টার। বহির্মুখী-নমুনা এমএসই হ্রাস করুন। যদি তাই হয় তবে আপনি যদি বুঝতে চান (পূর্বাভাস না), লিনিয়ার রিগ্রেশন আরও ভাল মনে হয়, যদিও আপনি এখনও উদাহরণস্বরূপ, পদক্ষেপের পদ্ধতি সহ মডেলটিকে আরও সহজ করতে চান।
এমবোকুলিক

উত্তরগুলি এখানে সহায়ক। তারা পরামর্শ দেয় যে ওএলএস (লিনিয়ার রিগ্রেশন) -এর নমুনা কার্যকারিতা সবচেয়ে বেশি রয়েছে, যেখানে লাসোটি নমুনার বাইরে রয়েছে। এছাড়াও, তারা পরামর্শ দেয় যে লাসো দ্বারা বাছাই করা পূর্বাভাসকারীদের সীমাবদ্ধ সেটগুলিতে ওএলএস ব্যবহার করা যেতে পারে। আমার ব্যাখ্যামূলক লক্ষ্যের জন্য ঠিক এটিই বোঝা যায়, যদিও ওএলএসের অনুমানগুলি সামান্য পরিমাণে ফিট করে।
এমবোকুলিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.