অবিচ্ছিন্নভাবে ভবিষ্যদ্বাণীকারী ভেরিয়েবলটি ভাঙার সুবিধা কী?


78

আমি ভাবছি যে কোনও মডেল ব্যবহার করার আগে একটি অবিচ্ছিন্ন ভবিষ্যদ্বাণী ভেরিয়েবল গ্রহণ এবং এটি ভেঙে ফেলার (উদাহরণস্বরূপ, কুইন্টাইলগুলিতে) মান কী is

ভেরিয়েবলটি বিন্যস্ত করে আমার কাছে তথ্য হারাবে বলে মনে হয়।

  • এটি কি তাই আমরা অ-লিনিয়ার প্রভাবগুলি মডেল করতে পারি?
  • যদি আমরা চলকটিকে অবিচ্ছিন্নভাবে রাখি এবং এটি সত্যিকারের সরল রৈখিক সম্পর্ক না হয় তবে ডেটা সেরাভাবে ফিট করার জন্য আমাদের কি কোনও ধরণের বাঁক নিয়ে আসা দরকার ছিল?

12
1) না। আপনি ঠিক বলেছেন যে বিনিং তথ্য হারিয়ে ফেলে। সম্ভব হলে এড়ানো উচিত। 2) সাধারণত, ডেটার পিছনে তত্ত্বের সাথে সামঞ্জস্যপূর্ণ বক্ররেখাটি পছন্দ করা হয়।
ও_দেবিনিয়াক

8
আমি সুবিধাগুলি সম্পর্কে জানি না, তবে
বহুবিধ

2
উপলক্ষ্যে এটির জন্য একটি অনিচ্ছুক যুক্তি: এটি ক্লিনিকাল ব্যাখ্যা এবং ফলাফল উপস্থাপনকে সহজতর করতে পারে - যেমন। রক্তচাপ প্রায়শই চতুর্ভুজ পূর্বাভাসকারী এবং একটি চিকিত্সক কম, স্বাভাবিক এবং উচ্চ বিপি জন্য কাট অফ ব্যবহার সমর্থন করতে পারেন এবং এই বিস্তৃত গ্রুপগুলির সাথে তুলনা করতে আগ্রহী হতে পারে।
ব্যবহারকারী20650

4
@ ইউজার20650: আমি আপনাকে বুঝতে পেরেছি তা সম্পর্কে আমি নিশ্চিত নই, তবে আপনি যে মডেলটি পারেন তার সেরা ফিট করা কি ভাল হবে না, এবং তারপরে বিস্তৃত গোষ্ঠীগুলির বিষয়ে আপনি যে কিছু বলতে চান সেই মডেলের ভবিষ্যদ্বাণীগুলি ব্যবহার করুন? আমার গবেষণায় 'হাই ব্লাড প্রেসার গ্রুপ' সাধারণ চাপগুলির সমানভাবে বিতরণ করতে হবে না, সুতরাং তাদের ফলাফলগুলি সাধারণীকরণ করবে না।
স্কর্চচি

7
সরলিকৃত ক্লিনিকাল ব্যাখ্যাটি একটি মরীচিকা। শ্রেণিবদ্ধ ক্রমাগত ভেরিয়েবলগুলি থেকে প্রভাব অনুমানগুলির কোনও জ্ঞাত ব্যাখ্যা নেই।
ফ্রাঙ্ক হ্যারেল

উত্তর:


64

আপনি উভয় গণনা ঠিক আছে। বিন্ন ক্রমাগত ভেরিয়েবলগুলির সমস্যার দীর্ঘ তালিকার জন্য এখানে ফ্র্যাঙ্ক হ্যারেলের পৃষ্ঠাটি দেখুন । আপনি কয়েকটি বিন ব্যবহার করলে ভবিষ্যদ্বাণীকারীদের কাছে প্রচুর তথ্য ফেলে দেন; যদি আপনি অনেকগুলি ব্যবহার করেন তবে আপনি কি মসৃণ হওয়া উচিত, যদি লিনিয়ার, সম্পর্ক না হয় এবং প্রচুর পরিমাণে স্বাধীনতা ব্যবহার করেন তবে উইগলসের সাথে মানিয়ে নিতে পারেন। ভবিষ্যদ্বাণীকারীদের জন্য সাধারণত বহুপদী ( ) বা স্প্লাইজগুলি (টুকরোজ বহুভুত যে মসৃণভাবে যোগদান করে) ব্যবহার করা ভাল। আপনি যখন কাট-পয়েন্টগুলিতে প্রতিক্রিয়া থেকে বিরতি প্রত্যাশা করতে চান - বিনিং তখন সত্যিই খুব ভাল ধারণা — বলুন যে তাপমাত্রার কিছুটা উত্সাহিত হয়, বা ড্রাইভিংয়ের আইনী বয়স –, এবং যখন প্রতিক্রিয়া তাদের মধ্যে সমতল হয় ..এক্স+ +এক্স2+ +...

মান, তবে, এটি সম্পর্কে চিন্তা না করেই বক্রতা বিবেচনায় নেওয়ার একটি দ্রুত এবং সহজ উপায়, এবং মডেলটি আপনি এটির জন্য কী ব্যবহার করছেন তার পক্ষে যথেষ্ট ভাল হতে পারে। ভবিষ্যদ্বাণীকারীদের সংখ্যার তুলনায় যখন আপনার প্রচুর ডেটা হবে তখন এটি ঠিকঠাক কাজ করে, প্রতিটি ভবিষ্যদ্বাণীকারী প্রচুর বিভাগে বিভক্ত হয়; প্রতিটি ক্ষেত্রে ভবিষ্যদ্বাণীকারী ব্যান্ডের মধ্যে প্রতিক্রিয়ার পরিসর ছোট এবং গড় প্রতিক্রিয়া হুবহু নির্ধারিত হয়।

[মন্তব্যের জবাবে সম্পাদনা করুন:

কখনও কখনও ক্রমাগত পরিবর্তনশীল জন্য ক্ষেত্রের মধ্যে স্ট্যান্ডার্ড কাট অফস ব্যবহার করা হয়: যেমন medicineষধে রক্তচাপের পরিমাপগুলি নিম্ন, মাঝারি বা উচ্চ হিসাবে শ্রেণিবদ্ধ করা যেতে পারে। আপনি যখন কোনও মডেল উপস্থাপন করেন বা প্রয়োগ করেন তখন এ জাতীয় কাট-অফগুলি ব্যবহার করার জন্য অনেকগুলি ভাল কারণ থাকতে পারে। বিশেষত, সিদ্ধান্তের নিয়মগুলি প্রায়শই কোনও মডেলের পরিবর্তে কম তথ্যের ভিত্তিতে থাকে এবং প্রয়োগ করার জন্য সহজ হতে পারে। তবে এটি অনুসরণ করে না যে আপনি যখন মডেলটি ফিট করেন তখন এই প্রচ্ছদগুলি ভবিষ্যদ্বাণীকারীদের বিনিংয়ের জন্য উপযুক্ত।

ধরা যাক রক্তচাপের সাথে কিছু প্রতিক্রিয়া একটানা পরিবর্তিত হয়। যদি আপনি আপনার গবেষণায় একটি উচ্চ রক্তচাপ গ্রুপকে ভবিষ্যদ্বাণী হিসাবে সংজ্ঞায়িত করেন তবে আপনি যে প্রভাবটি অনুমান করছেন তা হ'ল এই গ্রুপের ব্যক্তিদের বিশেষ রক্তচাপের উপরে গড় প্রতিক্রিয়া। এটা নাসাধারণ জনগণের উচ্চ রক্তচাপের লোকদের বা অন্য গবেষণায় উচ্চ রক্তচাপ গ্রুপের লোকদের গড় প্রতিক্রিয়ার একটি অনুমান, যদি না আপনি এটির জন্য নির্দিষ্ট ব্যবস্থা গ্রহণ করেন। যদি সাধারণ জনগণের রক্তচাপের বিতরণ জানা যায়, যেমনটি আমি ধারণা করি, রক্তচাপের মডেল হিসাবে ভবিষ্যদ্বাণীগুলির উপর ভিত্তি করে সাধারণ জনগণের উচ্চ রক্তচাপের লোকদের গড় প্রতিক্রিয়া গণনা করার জন্য আপনি আরও ভাল করতে পারবেন অবিচ্ছিন্ন পরিবর্তনশীল। অশোধিত বিন্নিং আপনার মডেলটিকে কেবল প্রায় সাধারণীকরণযোগ্য করে তোলে।

সাধারণভাবে, যদি কাট-অফগুলির মধ্যে প্রতিক্রিয়ার আচরণ সম্পর্কে আপনার কাছে প্রশ্ন থাকে তবে আপনি প্রথমে সেরা মডেলটি ফিট করতে পারেন এবং তার উত্তর দেওয়ার জন্য এটি ব্যবহার করুন]]

[উপস্থাপনা সম্পর্কিত; আমি মনে করি এটি একটি লাল রঙের হারিং:

(1) উপস্থাপনা সহজেই মডেলিংয়ের খারাপ সিদ্ধান্তগুলি ন্যায়সঙ্গত করে না। (এবং যে ক্ষেত্রে বেনিং একটি ভাল মডেলিংয়ের সিদ্ধান্ত, এটির জন্য অতিরিক্ত যুক্তিসংগতের প্রয়োজন হয় না)) অবশ্যই এটি স্বতঃস্পষ্ট। কেউ কখনও কখনও কোনও মডেলটির বাইরে গুরুত্বপূর্ণ ইন্টারঅ্যাকশন গ্রহণের পরামর্শ দেয় না কারণ এটি উপস্থাপন করা শক্ত।

(২) আপনি যে ধরণের মডেল মাপসই করেন, আপনি এখনও এর ফলাফলগুলি বিভাগের ক্ষেত্রে উপস্থাপন করতে পারেন যদি আপনি মনে করেন এটি ব্যাখ্যায় সহায়তা করবে। যদিও ...

(৩) উপরের কারণগুলির কারণে এটি ভুল ব্যাখ্যা করতে সহায়তা করে না তা নিশ্চিত করার জন্য আপনাকে সতর্ক থাকতে হবে ।

(4) অ-রৈখিক প্রতিক্রিয়াগুলি উপস্থাপন করা আসলে পক্ষে কঠিন নয়। ব্যক্তিগত মতামত, স্পষ্টতই, এবং শ্রোতাদের আলাদা হয়; তবে আমি কখনই কোনও বাঁকানো কারনে ভবিষ্যদ্বাণীকারী মান ধাঁধা বনাম ফিটযুক্ত প্রতিক্রিয়া মানগুলির একটি গ্রাফ দেখিনি। মিথস্ক্রিয়া, লগইটস, র্যান্ডম এফেক্টস, মাল্টিকোলাইনারিটি, ... — এগুলি ব্যাখ্যা করা খুব শক্ত]

[@ রোল্যান্ডের দ্বারা উত্থাপিত একটি অতিরিক্ত বিষয় হ'ল ভবিষ্যদ্বাণীকারীদের পরিমাপের সঠিকতা; তিনি পরামর্শ দিচ্ছেন, আমি মনে করি, বিশেষত সুনির্দিষ্ট না হলে শ্রেণিবদ্ধকরণ উপযুক্ত হতে পারে। সাধারণ জ্ঞান পরামর্শ দিয়ে থাকি যে আপনি তাদের এমনকি কম অবিকল পুনরায় জানায় বিষয় উন্নত না, & সাধারণ জ্ঞান সঠিক হতে পারে হবে: MacCallum এট (2002), 'পরিমাণগত ভেরিয়েবল Dichotomization প্র্যাকটিস অন " মনস্তাত্ত্বিক পদ্ধতি , 7 , 1, পিপি 17–19।]


6
বিস্তৃত ইস্যুতে দুর্দান্ত মন্তব্য। পুঙ্খানুপুঙ্খভাবে পরিমাণগত চিন্তার জন্য এখানে প্রচার করা গুরুত্বপূর্ণ। থ্রেশহোল্ডগুলি অতিক্রম করার জন্য ইতিমধ্যে খুব বেশি জোর দেওয়া হয়েছে, যেমন কিছু স্তর বিপর্যয়ের উপরে, কিছু স্তরের স্বাচ্ছন্দ্যের নীচে।
নিক কক্স

14
চিকিত্সকদের দ্বারা ব্যবহৃত যে কোনও কাট অফের বৈধতা দেখানোর জন্য আমি কাউকে চ্যালেঞ্জ জানাব।
ফ্রাঙ্ক হ্যারেল 4'13

এটি লক্ষণীয় যে এই বিনিং পদ্ধতির অন্যান্য ক্ষেত্রগুলিতে কিছু সুবিধা রয়েছে - এটি বিশেষত জনপ্রিয় যখন যানবাহন ওরিয়েন্টেশন যেমন মাল্টি-মডেল বিতরণগুলির পূর্বাভাস দেওয়ার জন্য বৃহত নিউরাল নেটগুলির সাথে মিলিত হয়। উদাহরণস্বরূপ arxiv.org/abs/1612.00496 দেখুন ।
এন। ম্যাকা

11

জিজ্ঞাসার পর থেকে আমি এই উত্তরটির একটি অংশ শিখেছি যে বিনিং এবং বিন্ন না করা দুটি সামান্য পৃথক প্রশ্নের উত্তর দিতে চায় - ডেটার বর্ধিত পরিবর্তন কী? এবং সর্বনিম্ন এবং সর্বোচ্চের মধ্যে পার্থক্য কী?

বিনিং না বলে "এটি ডেটাতে দেখা প্রবণতার একটি পরিমান" এবং বিনিং বলেছেন "আমার প্রতিটি বর্ধনের ফলে এটি কতটা পরিবর্তিত হয় তা বলার মতো পর্যাপ্ত তথ্য আমার কাছে নেই, তবে আমি বলতে পারি যে শীর্ষটি নীচ থেকে আলাদা" ।


5

একজন চিকিত্সক হিসাবে আমি মনে করি উত্তরটি আপনি কী করতে চান তার উপর নির্ভর করে। আপনি যদি সেরা ফিট করতে চান বা সেরা সমন্বয় করতে চান তবে আপনি অবিচ্ছিন্ন এবং স্কোয়ার্ড ভেরিয়েবলগুলি ব্যবহার করতে পারেন।

আপনি যদি অ-পরিসংখ্যান ভিত্তিক দর্শকদের জন্য জটিল সংঘের বর্ণনা ও যোগাযোগ করতে চান তবে শ্রেণিবদ্ধ ভেরিয়েবলগুলির ব্যবহার আরও ভাল, এটি গ্রহণ করে যে আপনি শেষ দশমিকটিতে কিছুটা পক্ষপাতদুষ্ট ফলাফল দিতে পারেন। আমি ননলাইনারি সমিতিগুলি দেখানোর জন্য কমপক্ষে তিনটি বিভাগ ব্যবহার করতে পছন্দ করি। বিকল্পটি হ'ল নির্দিষ্ট পয়েন্টে গ্রাফ এবং পূর্বাভাসের ফলাফল তৈরি করা। তারপরে আপনার প্রতিটি অবিচ্ছিন্ন কোভারিয়েটের জন্য গ্রাফের একটি পরিবার তৈরি করতে হবে যা আকর্ষণীয় হতে পারে। আপনি যদি খুব বেশি পক্ষপাতিত্ব পাওয়ার ভয় পান তবে আমি মনে করি আপনি উভয় মডেল পরীক্ষা করতে পারেন এবং পার্থক্যটি গুরুত্বপূর্ণ কিনা তা দেখুন। আপনার ব্যবহারিক এবং বাস্তববাদী হওয়া দরকার।

আমি মনে করি আমরা বুঝতে পারি যে অনেকগুলি ক্লিনিকাল পরিস্থিতিতে আমাদের গণনাগুলি সঠিক তথ্যের উপর ভিত্তি করে হয় না এবং যখন আমি উদাহরণস্বরূপ একজন প্রাপ্তবয়স্ক ব্যক্তির জন্য কোনও ওষুধ লিখি তবে যাইহোক যাইহোক, প্রতি কেজি সঠিক মিলিগ্রামের সাথে এটি করি না (সার্জারি এবং চিকিত্সা চিকিত্সার মধ্যে পছন্দসই দৃষ্টান্তটি রয়েছে) শুধু বকাবকি)।


1
সাদৃশ্য বোকা ঠিক কেন? কারণ অবিচ্ছিন্ন ভেরিয়েবলগুলি শ্রেণীবদ্ধকরণ কখনই উল্লেখযোগ্যভাবে খারাপ মডেল তৈরি করে না? বা যেহেতু একটি উল্লেখযোগ্যভাবে খারাপ মডেল ব্যবহার করে কোনও ব্যবহারিক পরিণতি হয় না?
স্কর্চচি

9
এটি কেবল রোল্যান্ডের ক্ষেত্রে নয়। কাটফক্স থেকে প্রাপ্ত অনুমানগুলি কেবল সহজ কারণ লোকেরা অনুমানের হিসাব কী তা বোঝে না। এটি কারণ যে তারা বৈজ্ঞানিক পরিমাণ, যেমন একটি পরিমাণের নমুনা বা পরীক্ষার বাইরে অর্থ অনুমান করে না। উদাহরণস্বরূপ উচ্চ: নিম্ন প্রতিকূলতার অনুপাত বা গড় পার্থক্য বৃদ্ধি পাবে যদি আপনি ডেটাসেটে অতি-উচ্চ বা অতি-নিম্ন মানযুক্ত রোগীদের যুক্ত করেন। এছাড়াও, কাটঅফসের ব্যবহার বোঝায় যে জীববিজ্ঞানটি বন্ধ নয়, যা এটি নয়।
ফ্র্যাঙ্ক হ্যারেল

@ স্কোর্টচি মেডিকেল থেকে সার্জিকাল ট্রিটমেন্টে পরিবর্তন করা কারণ এটি ব্যাখ্যা করা সহজ (এটি আসলেই কি?) বয়সের পরিবর্তনের সাথে ব্যাখ্যাযোগ্য পরিবর্তনশীল হিসাবে পরিবর্তন করা উচিত।
রোল্যান্ড

ডিকোটমাইজড ভেরিয়েবল এড়ানো সম্পর্কে আমি একমত। ক্লিনিকাল ওষুধ কোনও রক বিজ্ঞান নয় যেখানে শেষ দশমিক গুরুত্বপূর্ণ। মডেলগুলিতে আমি ফলাফলগুলি নিয়ে কাজ করি কেবলমাত্র সর্বশেষ দশমিক সময়ে পরিবর্তিত হয় যদি আমি বয়সের তুলনায় বয়সের বিভাগগুলি ক্রমাগত এবং স্কোয়ার্ড ভেরিয়েবল হিসাবে ব্যবহার করি তবে অ্যাসোসিয়েশনগুলির বোঝাপড়া এবং যোগাযোগযোগ্যতা বৃদ্ধি করে।
রোল্যান্ড

4

পূর্ববর্তী পোস্টারগুলি যেমন উল্লেখ করেছে, অবিচ্ছিন্ন ভেরিয়েবলটি ডিকোটমাইজ করা এড়ানো ভাল generally যাইহোক, আপনার প্রশ্নের উত্তরে, এমন উদাহরণ রয়েছে যেখানে অবিচ্ছিন্ন পরিবর্তনশীলটিকে দ্বিধাত্বিক পরিবর্তন করা সুবিধা দেয়।

উদাহরণস্বরূপ, যদি কোনও প্রদত্ত ভেরিয়েবলটিতে জনসংখ্যার উল্লেখযোগ্য অনুপাতের জন্য অনুপস্থিত মান থাকে তবে এটি অত্যন্ত ভবিষ্যদ্বাণীপূর্ণ হিসাবে পরিচিত এবং অনুপস্থিত মানগুলি নিজেরাই অনুমানমূলক মান বহন করে। উদাহরণস্বরূপ, ক্রেডিট স্কোরিং মডেলটিতে একটি পরিবর্তনশীল বিবেচনা করুন, আসুন বলুন গড়-ঘূর্ণায়মান-ক্রেডিট-ভারসাম্য (যা দেওয়া হয়, তা প্রযুক্তিগতভাবে অবিচ্ছিন্ন নয়, তবে এক্ষেত্রে একটি সাধারণ বিতরণ মিরর হিসাবে যথেষ্ট হিসাবে বিবেচিত হবে), যা এতে রয়েছে প্রদত্ত টার্গেট মার্কেটে আবেদনকারী পুলের প্রায় 20% এর জন্য মূল্য অনুপস্থিত। এই ক্ষেত্রে, এই পরিবর্তনশীলটির জন্য অনুপস্থিত মানগুলি একটি স্বতন্ত্র শ্রেণির প্রতিনিধিত্ব করে - যাদের খোলা, ঘূর্ণায়মান-creditণ লাইন নেই; এই গ্রাহকরা বলছেন, যেগুলি ঘোরানো creditণ-লাইন রয়েছে তাদের সাথে তুলনা করে সম্পূর্ণ ভিন্ন আচরণ প্রদর্শন করবে তবে যারা নিয়মিত কোনও ভারসাম্য রাখেন না।

দ্বিচোটাইমাইজেশনের আরেকটি সুবিধা: এটি সহগফলদের স্কিউ করে এমন উল্লেখযোগ্য বহিরাগতদের প্রভাব হ্রাস করতে ব্যবহার করা যেতে পারে, তবে পরিচালনা করা প্রয়োজন এমন বাস্তববাদী ক্ষেত্রে প্রতিনিধিত্ব করে। যদি নিকটবর্তী পারসেন্টাইলগুলিতে অন্য মানগুলির থেকে ফলাফলের ক্ষেত্রে বহিরাগতরা পৃথকভাবে পৃথক না হন তবে প্রান্তিক নির্ভুলতা কার্যকর করার জন্য পর্যাপ্ত পরামিতিগুলি স্কু করেন, তবে অনুরূপ প্রভাবগুলি দেখানো মানগুলির সাথে তাদের গোষ্ঠীভুক্ত করা উপকারী হতে পারে।

কখনও কখনও একটি বিতরণ প্রাকৃতিকভাবে নিজেকে ক্লাসের একটি সেটকে ndsণ দেয়, সেক্ষেত্রে ডিকোটোমাইজেশন আপনাকে ক্রমাগত ক্রিয়াকলাপের চেয়ে যথার্থতার উচ্চতর ডিগ্রি দেবে।

এছাড়াও, যেমনটি পূর্বে উল্লিখিত হয়েছে, দর্শকদের উপর নির্ভর করে উপস্থাপনাটির স্বাচ্ছন্দ্যতা নির্ভুলতার তুলনায় ক্ষতির পরিমাণকে ছাড়িয়ে যেতে পারে। পুনরায় উদাহরণ হিসাবে ক্রেডিট স্কোরিং ব্যবহার করার জন্য, অনুশীলনে, উচ্চতর ডিগ্রি নিয়ন্ত্রণ কিছু সময় বিবেচনার জন্য ব্যবহারিক ক্ষেত্রে তৈরি করে। উচ্চতর ডিগ্রি যথাযথভাবে nderণদানকারীকে কাটা লোকসানের ক্ষতি করতে সহায়তা করতে পারে, অনুশীলনকারীরাও বিবেচনা করতে হবে যে মডেলগুলি সহজেই নিয়ামকগণ (যারা হাজার হাজার পৃষ্ঠাগুলির মডেল ডকুমেন্টেশনের জন্য অনুরোধ করতে পারে) এবং গ্রাহকরা, যাঁরা deniedণ অস্বীকার করেন, আইনীভাবে তার অধিকারী হবেন কেন ব্যাখ্যা।

এটি সবই সমস্যা এবং উপাত্তের সমস্যাগুলির উপর নির্ভর করে, তবে অবশ্যই এমন কিছু ঘটনা রয়েছে যেখানে দ্বিচোটাইমাইজেশনের বৈশিষ্ট্য রয়েছে।


ডিকোটোমাইজেশন দুটি ভাঁড়ের মধ্যে রাখছে - আপনি কি বিবেচনাশক্তি বলতে চান?
স্কর্চচি

2
আপনার প্রথম দুটি উদাহরণের উভয় ক্ষেত্রেই বিচক্ষণতা একটি উত্সাহী অতিথির সাথে তাল মিলিয়ে পার্টিতে প্রবেশের চেষ্টাটি ব্লফ করার চেষ্টা করছে। বোকা বানাবেন না। (১) আপনি যদি কোনও স্বতন্ত্র শ্রেণি হিসাবে একটি খোলার creditণ পরিশোধের havingণ না পেয়ে মডেল করতে চান তবে কেবল সেই শর্তটি নির্দেশ করতে একটি ডামি ভেরিয়েবল ব্যবহার করুন এবং গড় ঘূর্ণায়মান creditণের ভারসাম্যের জন্য কোনও ধ্রুবক মান নির্ধারণ করুন । (২) আপনি যদি কিছু চূড়ান্ত ভবিষ্যদ্বাণীমূলক মানকে একইভাবে, "বড়" বা "ছোট" হিসাবে বিবেচনা করতে চান তবে সেগুলি কেটে ফেলুন; বাকী মানগুলি নিয়ে মশকরা করার দরকার নেই। 3 য় মামলাটি বিনা প্রতিদ্বন্দ্বিতাপূর্ণ - উদাহরণ যুক্ত করতে নির্দ্বিধায়।
স্কর্চচি

3

নির্দিষ্ট ভেরিয়েবলের যদি কোনও প্রভাব থাকে তবে বিন্ন করে একটি নতুন ভেরিয়েবল তৈরি করুন এটি করা ভাল। আমি সর্বদা উভয় ভেরিয়েবল রাখি, আসল একটি এবং বেনিং, এবং কোন ভেরিয়েবলটি আরও ভাল ভবিষ্যদ্বাণীকারী তা পরীক্ষা করি।


3

আমি ফ্র্যাঙ্ক হ্যারেলের পরামর্শের প্রতিশ্রুতিবদ্ধ ভক্ত যে অবিচ্ছিন্ন ডেটার অকাল বিবেচনার বিরুদ্ধে বিশ্লেষকদের উচিত প্রতিহত করা। সিভি এবং এসওতে আমার বেশ কয়েকটি উত্তর রয়েছে যা দেখায় যে কীভাবে ধারাবাহিক পরিবর্তনশীলগুলির মধ্যে মিথস্ক্রিয়াটি কল্পনা করা যায়, যেহেতু আমি মনে করি এটি তদন্তের আরও মূল্যবান লাইন। যাইহোক, এই পরামর্শটি মেনে চলা বাধাগুলির চিকিত্সা বিশ্বে আমারও বাস্তব-বিশ্বের অভিজ্ঞতা রয়েছে। প্রায়শই আকর্ষণীয় বিভাগ রয়েছে যেগুলি ক্লিনিশিয়ান এবং নন-চিকিত্সক উভয়ই "বিভক্ত" হওয়ার প্রত্যাশা করেন। প্রচলিত "স্বাভাবিকের উপরের সীমা" এমন একটি "প্রাকৃতিক" বিভাজন পয়েন্ট point একটি হ'ল প্রথমে কোনও সম্পর্কের পরিসংখ্যানগত আন্ডারপিনিং পরীক্ষা করা এবং তারপরে আপনার দর্শকদের প্রত্যাশা থাকা এবং সহজেই উপলব্ধি করতে পারে এমন তথ্যের বিষয়বস্তুটি যোগাযোগ করা। আমার "অ্যালার্জি" থাকা সত্ত্বেও বারপ্লটগুলিতে, এগুলি বৈজ্ঞানিক ও চিকিত্সা বক্তৃতাতে অত্যন্ত সাধারণ। সুতরাং শ্রোতাদের তাদের প্রক্রিয়া করার জন্য একটি প্রস্তুত জ্ঞানীয় প্যাটার্ন থাকতে পারে এবং ফলাফলগুলি তাদের জ্ঞানের ভিত্তিতে সংহত করতে সক্ষম হবে।

তদ্ব্যতীত, প্রেডিক্টর ভেরিয়েবলের অ-রৈখিক রূপগুলির মধ্যে মডেল ইন্টারঅ্যাকশনগুলির গ্রাফিকাল ডিসপ্লেতে কনট্যুর প্লট বা ওয়্যারফ্রেম প্রদর্শনগুলির উপস্থাপনা প্রয়োজন যা বেশিরভাগ দর্শকের হজম করতে কিছুটা অসুবিধা হবে। আমি চিকিত্সা এবং সাধারণ জনগণকে উপস্থাপনাগুলিতে আরও গ্রহণযোগ্য বলে খুঁজে পেয়েছি যা বিচ্ছিন্ন এবং ফলাফলগুলি বিভক্ত করেছে। সুতরাং আমি অনুমান করি যে পরিসংখ্যান বিশ্লেষণ সম্পূর্ণ হওয়ার পরে বিভাজন সঠিকভাবে করা হয় ; এবং উপস্থাপনা পর্বে সম্পন্ন করা হয়।


1

অবিচ্ছিন্ন ভেরিয়েবলগুলি প্রায়শই বিনিন করা তথ্য হারিয়ে যাওয়ার কারণে ক্ষতি হওয়ার এক অস্বস্তিকর অনুভূতি নিয়ে আসে। তবে, কেবল আপনি যে তথ্য ক্ষতির সীমাবদ্ধ করতে পারবেন তা নয়, আপনি তথ্য পেতে এবং আরও সুবিধা পেতে পারেন।

আপনি যদি বিনিং ব্যবহার করেন এবং শ্রেণিবদ্ধ ভেরিয়েবলগুলি পান তবে আপনি শিখার অ্যালগরিদমগুলি প্রয়োগ করতে সক্ষম হতে পারেন যা ধারাবাহিক ভেরিয়েবলগুলির ক্ষেত্রে প্রযোজ্য নয়। আপনার ডেটাসেট এই আলগোরিদিমগুলির মধ্যে একটির চেয়ে ভাল ফিট করতে পারে তাই এখানে আপনার প্রথম সুবিধা।

বিনিংয়ের কারণে ক্ষতির অনুমান করার ধারণাটি "অপ্রাসঙ্গিক গুণাবলী সহ পিএসি লার্নিং" কাগজের উপর ভিত্তি করে। মনে করুন আমাদের ধারণাটি বাইনারি তাই আমরা নমুনাগুলিকে ধনাত্মক এবং sণাত্মক মধ্যে ভাগ করতে পারি। নেতিবাচক এবং ধনাত্মক নমুনাগুলির প্রতিটি জুটির জন্য ধারণার পার্থক্যটি বৈশিষ্ট্যগুলির মধ্যে একটির পার্থক্যের মাধ্যমে ব্যাখ্যা করা যেতে পারে (বা অন্যথায়, এটি প্রদত্ত বৈশিষ্ট্যগুলি দ্বারা ব্যাখ্যাযোগ্য নয়)। বৈশিষ্ট্য পার্থক্যের সেট হ'ল ধারণা পার্থক্যের সম্ভাব্য ব্যাখ্যার সেট, সুতরাং ধারণাটি নির্ধারণের জন্য ব্যবহারযোগ্য ডেটা। যদি আমরা বিনিং করি এবং আমরা এখনও জোড়গুলির জন্য একই সমষ্টি ব্যাখ্যা পেয়ে যাই তবে আমরা প্রয়োজনীয় কোনও তথ্য হারাতে পারি নি (যেমন তুলনা করে কাজ করে এমন অ্যালগরিদম শেখার ক্ষেত্রে)। যদি আমাদের শ্রেণিবিন্যাস খুব কঠোর হয় তবে সম্ভবত আমাদের সম্ভাব্য ব্যাখ্যাগুলির একটি ছোট সেট থাকবে তবে আমরা কতটা এবং কোথায় হেরেছিলাম তা সঠিকভাবে পরিমাপ করতে সক্ষম হব। এটি আমাদের কাছে বিনের সংখ্যা বনাম ব্যাখ্যার সেট সেট বাণিজ্য করতে সক্ষম করবে।

এখনও অবধি আমরা দেখেছি যে আমরা শ্রেণিবদ্ধের কারণে হারাতে পারি না, তবে আমরা যদি এমন পদক্ষেপ প্রয়োগের বিষয়টি বিবেচনা করি তবে আমরা উপকৃত হতে চাই। প্রকৃতপক্ষে, আমরা শ্রেণিবদ্ধকরণ থেকে উপকৃত হতে পারি

অনেক শিখার অ্যালগরিদম যা ট্রেনের সেটগুলিতে দেখা যায় না এমন মান সহ একটি নমুনাকে শ্রেণিবদ্ধ করতে বলা হবে, মানটিকে "অজানা" হিসাবে বিবেচনা করবে। অতএব আমরা "অজানা" একটি বাক্স পাব যা ট্রেন চলাকালীন না দেখা সমস্ত মান (বা এমনকি যথেষ্ট দেখা যায় না) অন্তর্ভুক্ত। এই জাতীয় অ্যালগরিদমের জন্য, শ্রেণিবিন্যাস উন্নত করতে অজানা মান জোড়ার পার্থক্য ব্যবহার করা হবে না। অজানা সাথে জোড়া যুক্ত করার সাথে আপনার জোড়গুলির সাথে তুলনা করুন এবং দেখুন যে আপনার বেনিংটি কার্যকর এবং আপনি আসলে অর্জন করেছেন কিনা।

প্রতিটি বৈশিষ্ট্যের মান বিতরণ পরীক্ষা করে আপনি কতটা অজানা মান হতে পারবেন তা অনুমান করতে পারেন। বৈশিষ্ট্যটি হ'ল মানগুলি যা কেবল কয়েকবার প্রদর্শিত হয় তাদের বিতরণের যথেষ্ট অংশ হ'ল বিনিংয়ের পক্ষে ভাল প্রার্থী। নোট করুন যে অনেক পরিস্থিতিতে আপনার অজানা সংখ্যার বৈশিষ্ট্য থাকবে যে কোনও নমুনায় অজানা মান থাকবে increasing সমস্ত বা অনেকগুলি বৈশিষ্ট্যের চিকিত্সা করে এমন অ্যালগরিদম এ জাতীয় পরিস্থিতিতে ত্রুটি হওয়ার আশঙ্কা করে।

এ। ধাগত এবং এল। হেলারস্টেইন, "আইইইইই সিম্পের কার্যবিবরণীতে" অপ্রাসঙ্গিক গুণাবলী সহ পিএসি লার্নিং "। ফাউন্ডেশন অফ কম্পিউটার সায়েন্সে, ১৯৯৪. http://citeseer.ist.psu.edu/dhagat94pac.html

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.