হাই ডাইমেনশনাল, পারস্পরিক সম্পর্কযুক্ত ডেটা এবং শীর্ষ বৈশিষ্ট্যগুলি / কোভেরিয়েটগুলি আবিষ্কার হয়েছে; একাধিক অনুমানের পরীক্ষা?


9

আমার প্রায়শই প্রায় 5000 টি সম্পর্কিত বৈশিষ্ট্য / সংশ্লেষ এবং বাইনারি প্রতিক্রিয়া সহ একটি ডেটাসেট রয়েছে। ডেটা আমাকে দেওয়া হয়েছিল, আমি তা সংগ্রহ করি নি। আমি মডেলগুলি তৈরি করতে লাসো এবং গ্রেডিয়েন্ট বুস্টিং ব্যবহার করি। আমি পুনরাবৃত্তিযুক্ত, নেস্টেড ক্রস বৈধতা ব্যবহার করি। আমি লাসোর বৃহত্তম (পরম) 40 সহগ এবং গ্রেডিয়েন্ট বুস্টেড গাছগুলির 40 টির সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি সম্পর্কে রিপোর্ট করি (40 এর সম্পর্কে বিশেষ কিছুই ছিল না; এটি কেবলমাত্র যুক্তিসঙ্গত তথ্য বলে মনে হয়েছিল)। আমি সিভির ভাঁজ এবং পুনরাবৃত্তির উপরও এই পরিমাণগুলির বৈচিত্রটি প্রতিবেদন করি।

আমি "গুরুত্বপূর্ণ" বৈশিষ্ট্যগুলিতে এক ধরণের মিউজিক করছি, পি-মান বা কার্যকারিতা বা কোনও কিছু সম্পর্কে কোনও বিবৃতি দিচ্ছি না, বরং এই প্রক্রিয়াটিকে এক ধরণের বিবেচনা করছি --- যদিও একধরণের অপূর্ণতা এবং এলোমেলোভাবে --- কিছু ঘটনার অন্তর্দৃষ্টি।

ধরে নিই আমি এই সমস্ত সঠিকভাবে করেছি (উদাহরণস্বরূপ, কার্যকরভাবে ক্রস বৈধকরণ কার্যকর করা হয়েছে, লাসোর জন্য ছোট), এই পদ্ধতির কি যুক্তিযুক্ত? উদাহরণস্বরূপ, একাধিক অনুমান পরীক্ষা, পোস্ট বিশ্লেষণ, মিথ্যা আবিষ্কার নিয়ে সমস্যা আছে কি? নাকি অন্য সমস্যা?

উদ্দেশ্য

একটি বিরূপ ঘটনার সম্ভাবনা পূর্বাভাস

  • সর্বাগ্রে, সম্ভাবনাটি নির্ভুলভাবে অনুমান করুন
  • আরও গৌণ - একটি স্যানিটি চেক হিসাবে, তবে সম্ভবত এমন কিছু অভিনব ভবিষ্যদ্বাণী প্রকাশ করা যা আরও তদন্ত করা যেতে পারে, উপরে বর্ণিত সহগ এবং আমদানি পরিদর্শন করবে।

উপভোক্তা

  • এই ইভেন্টটির ভবিষ্যদ্বাণী করতে আগ্রহী গবেষকরা এবং ইভেন্টটি ঘটতে শুরু করে এমন লোকেরা যারা শেষ করেছেন

আমি তাদের থেকে এটি বেরিয়ে আসতে চাই

  • তাদের যদি ডেটা দিয়ে মডেলিং প্রক্রিয়াটি বর্ণিত হিসাবে পুনরাবৃত্তি করতে চান তবে তাদের ইভেন্টটি পূর্বাভাস দেওয়ার ক্ষমতা দিন Give

  • অপ্রত্যাশিত ভবিষ্যদ্বাণীদের উপর কিছু আলোকপাত করুন। উদাহরণস্বরূপ, এটি পরিণত হতে পারে যে সম্পূর্ণ অপ্রত্যাশিত কিছু হ'ল সেরা ভবিষ্যদ্বাণী। অন্য কোথাও মডেলাররা ভবিষ্যদ্বাণীকে আরও গুরুতর বিবেচনা করতে পারেন।


অভিপ্রায়টি এখানে কী তা জানা দরকারী হবে। আপনি এই জিনিসগুলি করেছেন, কেন? ভোক্তা কে এবং আপনি কী চান যে তারা বিশ্লেষণ থেকে বেরিয়ে আসুন?
ম্যাথু ড্রুরি

উত্তর:


2

পূর্বাভাসের নির্ভুলতার সাথে কোনও সমস্যা নেই। আপনার পূর্বাভাসের অনিশ্চয়তা ক্রসওয়েডিয়েশন দ্বারা ভালভাবে অনুমান করা হয়। সম্ভবত সেখানে একটি সতর্কতা হ'ল যদি আপনি প্রচুর প্যারামিটার সেটিংস পরীক্ষা করেন তবে আপনি যথার্থতার চেয়ে বেশি মূল্যায়ন করেন, সুতরাং আপনার চূড়ান্ত মডেলের যথার্থতা অনুমান করার জন্য আপনার একটি বৈধতা সেট ব্যবহার করা উচিত। এছাড়াও, আপনার ডেটা সেই ডেটার প্রতিনিধি হওয়া উচিত যা আপনি ভবিষ্যদ্বাণী করতে চলেছেন।

এটি আপনার কাছে স্পষ্ট, এবং এটি পাঠকের কাছে পরিষ্কার হওয়া উচিত যে আপনার ভবিষ্যদ্বাণীগুলি প্রভাবের কারণ নয়, তারা কেবলমাত্র ভবিষ্যদ্বাণীকারী যা একটি ভাল ভবিষ্যদ্বাণী করে, এবং ভালভাবে কাজ করে। আমি আপনার সাবধানতার সাথে পুরোপুরি একমত হওয়ার পরেও পর্যবেক্ষণমূলক ডেটা থেকে কোনও কারণকে অনুমান করা কোনও ক্ষেত্রেই সমস্যাযুক্ত। তাত্পর্যপূর্ণ এবং এ জাতীয় বিষয়গুলি সু-নকশিত, নিয়ন্ত্রিত অধ্যয়নগুলিতে "বৈধ" ধারণা এবং এর বাইরে এগুলি কেবলমাত্র সরঞ্জাম যা আপনি এবং অন্যরা বুদ্ধিমানের সাথে এবং সতর্কতার সাথে ব্যাখ্যা করতে হবে। সাধারণ কারণগুলিতে, তাত্পর্যপূর্ণ প্রভাব, মাস্কিং এবং অন্যান্য বিষয় থাকতে পারে যা রিপোর্টেড আত্মবিশ্বাসের অন্তরগুলির সাথে একটি সাধারণ রৈখিক প্রতিরোধের পাশাপাশি লাসো মডেলের পাশাপাশি গ্রেডিয়েন্ট বুস্টেড ট্রি মডেলের ক্ষেত্রেও ঘটতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.