ধারাবাহিক তথ্যটিকে অবিচ্ছিন্ন হিসাবে গণ্য করা কি কখনও বুদ্ধিযুক্ত?


57

পৃথক এবং অবিচ্ছিন্ন ডেটা সম্পর্কে এই প্রশ্নের উত্তর দেওয়ার জন্য আমি গম্ভীরভাবে দৃserted়ভাবে জানিয়েছিলাম যে বিভাগগত তথ্যটিকে ধারাবাহিক হিসাবে গণ্য করা খুব কমই বোধগম্য।

এটির মুখটি যা স্বতঃস্ফূর্ত বলে মনে হয় তবে স্বজ্ঞাততা প্রায়শই পরিসংখ্যানগুলির জন্য একটি দুর্বল গাইড বা কমপক্ষে আমার mine তাই এখন আমি ভাবছি: এটা কি সত্য? বা এমন কোনও বিশ্লেষণ রয়েছে যাগুলির জন্য শ্রেণীবদ্ধ তথ্য থেকে কিছু ধারাবাহিকতায় রূপান্তর করা আসলে কার্যকর? যদি ডেটা অর্ডিনাল হয় তবে এটি কোনও পার্থক্য আনবে?


20
এই প্রশ্ন এবং এর প্রতিক্রিয়াগুলি স্মরণ করিয়ে দেয় যে ভেরিয়েবলের এই পুরাকীর্তিক বিভাগটি শ্রেণিবদ্ধ-অর্ডিনাল-ইন্টারভাল-রেশিওতে প্রকৃতপক্ষে কতটা অশোধিত এবং সীমাবদ্ধ। এটি পরিসংখ্যানগতভাবে নির্দোষকে গাইড করতে পারে তবে চিন্তাশীল বা অভিজ্ঞ বিশ্লেষকের পক্ষে তথ্য পরিবর্তন এবং তাদের সাথে সিদ্ধান্ত গ্রহণের জন্য উপযুক্ত যেভাবে পরিবর্তনশীল তা প্রকাশের পথে বাধা রয়েছে এই পরবর্তী দৃষ্টিকোণ থেকে কাজ করা কেউ অবাধে শ্রেণিবদ্ধ এবং "ধারাবাহিক" ডেটা উপস্থাপনের মধ্যে চলে যাবে; তাদের জন্য, এই প্রশ্নটি উঠতেও পারে না! পরিবর্তে, আমাদের জিজ্ঞাসা করা উচিত: এটি কীভাবে সহায়তা করে?
whuber

@ হুইবার (+1) খুব কমপক্ষে, একই সময়ে পরিমাপের নির্ভরযোগ্যতা এবং ডায়াগনস্টিক নির্ভুলতাটিকে অনুকূল করা কঠিন বলে মনে হচ্ছে।
chl

উত্তর:


34

আমি ধরে নেব যে একটি "শ্রেণিবদ্ধ" ভেরিয়েবল আসলে একটি অর্ডিনাল ভেরিয়েবলের জন্য দাঁড়িয়ে; অন্যথায় এটি অবিচ্ছিন্ন হিসাবে বিবেচনা করার পক্ষে খুব বেশি অর্থবোধ করে না, যদি না এটি বাইনারি ভেরিয়েবল (কোডড 0/1) @ রব দ্বারা নির্দেশিত। তারপরে, আমি বলব যে সমস্যাটি আমরা ভেরিয়েবলের সাথে আচরণ করি না, যদিও এখন পর্যন্ত শ্রেণিবদ্ধ তথ্য বিশ্লেষণের জন্য অনেকগুলি মডেল তৈরি করা হয়েছে - দেখুন উদাহরণস্বরূপ, আদেশযুক্ত শ্রেণিবদ্ধ তথ্য বিশ্লেষণ: একটি ওভারভিউ এবং সাম্প্রতিক একটি সমীক্ষা অন্তর্নিহিত পরিমাপের স্কেল থেকে আমরা অনুমান করি তার চেয়ে লিয়ু এবং অ্যাগ্রেস্টে - এর বিকাশ । আমার প্রতিক্রিয়া এই দ্বিতীয় পয়েন্টটিতে ফোকাস করবে, যদিও আমি প্রথমে সংখ্যার স্কোরগুলি পরিবর্তনশীল বিভাগ বা স্তরগুলিতে নির্ধারণের জন্য সংক্ষেপে আলোচনা করব।

অর্ডিনাল ভেরিয়েবলের একটি সাধারণ সংখ্যার পুনঃনির্মাণ ব্যবহার করে আপনি ধরে নিচ্ছেন যে ভেরিয়েবলের অন্তরাল বৈশিষ্ট্য রয়েছে (স্টিভেনস, 1946 দ্বারা প্রদত্ত শ্রেণিবিন্যাসের অর্থে)। একটি পরিমাপ তত্ত্বের দৃষ্টিকোণ থেকে (মনোবিজ্ঞানে), এটি প্রায়শই একটি খুব দৃum় ধারণা হতে পারে তবে মৌলিক অধ্যয়নের জন্য (অর্থাত্ যেখানে একটি একক আইটেম একটি স্পষ্ট কথার সাহায্যে একটি দৈনিক ক্রিয়াকলাপ সম্পর্কে নিজের মতামত প্রকাশ করতে ব্যবহৃত হয়) যে কোনও একজাতীয় স্কোরকে তুলনীয় ফলাফল দেওয়া উচিত । কোচরান (1954) ইতিমধ্যে এটি নির্দেশ করেছে

স্কোরগুলির কোনও সেট বৈধ পরীক্ষা দেয় , তবে পরীক্ষার ফলাফলের সাথে পরামর্শ না করেই তারা নির্মিত হয়। যদি স্কোরগুলির সেটটি দুর্বল হয়, তবে এটি একটি সংখ্যার স্কেলকে খারাপভাবে বিকৃত করে যা সত্যিকার অর্ডারযুক্ত শ্রেণিবিন্যাসকে আচ্ছন্ন করে তোলে, পরীক্ষাটি সংবেদনশীল হবে না। শ্রেণিবদ্ধকরণটি কীভাবে নির্মিত এবং ব্যবহৃত হয়েছিল সে সম্পর্কে স্কোরগুলিকে সর্বোত্তম অন্তর্দৃষ্টি উপলব্ধ করা উচিত। (পৃষ্ঠা 436)

(তাঁর এক মন্তব্যে আমাকে এই সম্পর্কে স্মরণ করিয়ে দেওয়ার জন্য @ শুভেচ্ছাদের অনেক ধন্যবাদ, যা আমাকে আগ্রেস্তির বইটি পুনরায় পড়তে পরিচালিত করেছিল, যেখান থেকে এই উদ্ধৃতিটি এসেছে।)

প্রকৃতপক্ষে, বেশ কয়েকটি পরীক্ষাগুলি অন্তর্ভুক্ত স্কেলগুলির মতো স্পষ্টভাবে এই পরিবর্তনশীলগুলির সাথে আচরণ করে: উদাহরণস্বরূপ, লিনিয়ার প্রবণতা (সাধারণ স্বাধীনতার বিকল্প হিসাবে) পরীক্ষার জন্য পরিসংখ্যান একটি পারস্পরিক সম্পর্কযুক্ত পদ্ধতির ( উপর ভিত্তি করে , আগ্রেস্তি, 2002, পৃষ্ঠা 87)।এম 2 = ( এন - 1 ) আর 2M2M2=(n1)r2

ঠিক আছে, আপনি নিজের ভেরিয়েবলটিকে একটি অনিয়মিত পরিসরে পুনরায় সংশোধন করতে, বা এর কয়েকটি স্তরকে সমন্বিত করার সিদ্ধান্তও নিতে পারেন, তবে এই ক্ষেত্রে পুনরায় সংযুক্ত বিভাগগুলির মধ্যে দৃ strong় ভারসাম্যহীনতা পরিসংখ্যানগত পরীক্ষাগুলিকে বিকৃত করতে পারে, যেমন পূর্বোক্ত ট্রেন্ড পরীক্ষাটি test বিভাগগুলির মধ্যে দূরত্ব নির্ধারণের জন্য একটি দুর্দান্ত বিকল্প ইতিমধ্যে @ জেরোমি দ্বারা প্রস্তাবিত হয়েছিল, যথা অনুকূল স্কেলিং।

এখন, আমি তৈরি দ্বিতীয় বিষয়টি অন্তর্নিহিত পরিমাপ মডেলটি নিয়ে আলোচনা করি। আমি যখন এই ধরণের প্রশ্ন দেখি তখন আমি সর্বদা "সাইকোমেট্রিক্স" ট্যাগ যুক্ত করতে দ্বিধা বোধ করি, কারণ পরিমাপের স্কেলগুলি নির্ধারণ এবং বিশ্লেষণটি সাইকোমেট্রিক থিওরির অধীনে আসে (নুনালি এবং বার্নস্টেইন, 1994, একটি ঝরঝরে পর্যালোচনা করার জন্য)। আমি আইটেম রেসপন্স থিউরির অধীনে পরিচালিত সমস্ত মডেলগুলিতে মনোনিবেশ করব না এবং আগ্রহী পাঠককে আমি দয়া করে I. পার্থচেভের টিউটোরিয়াল, আইটেম প্রতিক্রিয়া তত্ত্বের একটি ভিজ্যুয়াল গাইড, আইআরটি সম্পর্কে একটি নম্র পরিচয় এবং সম্ভাব্য আইআরটি ট্যাক্সনোমির জন্য শেষে তালিকাভুক্ত রেফারেন্সগুলি (5-8)। খুব সংক্ষেপে, ধারণাটি হ'ল পরিবর্তনশীল বিভাগগুলির মধ্যে স্বেচ্ছাচারিত দূরত্ব নির্ধারণের পরিবর্তে আপনি একটি সুপ্ত স্কেল ধরেছেন এবং ব্যক্তির ক্ষমতা বা দায়বদ্ধতার সাথে এই ধারাবাহিকতায় তাদের অবস্থানটি অনুমান করেন। একটি সাধারণ উদাহরণ অনেক গাণিতিক স্বরলিপি মূল্যবান, তাই আসুন নীচের আইটেমটি বিবেচনা করুন ( EORTC QLQ-C30 স্বাস্থ্য সম্পর্কিত জীবন প্রশ্নাবলীর মানের থেকে আসা):

তুমি কি চিন্তায় পড়েছ?

যা "মোটেও নয়" থেকে "খুব বেশি" পর্যন্ত চার-পয়েন্ট স্কেলে কোড করা হয়। 1 থেকে 4 এর স্কোর নির্ধারণ করে কাঁচা স্কোরগুলি গণনা করা হয় একই স্কেলের অন্তর্ভুক্ত আইটেমগুলির স্কোরগুলি পরে তথাকথিত স্কেল স্কোর অর্জনের জন্য একসাথে যুক্ত করা যেতে পারে যা অন্তর্নিহিত রচনায় ব্যক্তির পদকে বোঝায় (এখানে, একটি মানসিক স্বাস্থ্য উপাদান) )। এ জাতীয় সংক্ষিপ্ত আকারের স্কোরগুলি স্কোরিং স্বাচ্ছন্দ্যের কারণে (চিকিত্সক বা নার্সের জন্য) খুব ব্যবহারিক, তবে এগুলি পৃথক (আদেশযুক্ত) স্কেল ছাড়া আর কিছুই নয়।

আমরা এও বিবেচনা করতে পারি যে প্রদত্ত প্রতিক্রিয়া বিভাগের অনুমোদনের সম্ভাবনাটি এক ধরণের লজিস্টিক মডেলকে মেনে চলে, যেমন I তে বর্ণিত হয়েছে। পার্টচেভের টিউটোরিয়াল, উপরে উল্লিখিত। মূলত, ধারণাটি এক ধরণের প্রান্তিক মডেল (যা আনুপাতিক বা সংশ্লেষক প্রতিকূল মডেলের ক্ষেত্রে সমতুল্য সূচনার দিকে নিয়ে যায়) এবং আমরা একটি প্রতিক্রিয়া বিভাগের পরিবর্তে পূর্ববর্তী এক বা একটির উপরে স্কোর করার প্রতিকূলতার মডেল করি model নির্দিষ্ট বিভাগ, সুপ্ত বৈশিষ্ট্যের উপর বিষয়গুলির অবস্থান সম্পর্কিত শর্তসাপেক্ষ। এছাড়াও, আমরা চাপিয়ে দিতে পারি যে প্রতিক্রিয়া বিভাগগুলি সুপ্ত স্কেলে সমানভাবে ব্যবধানে রয়েছে (এটিই রেটিং স্কেল মডেল) - যা নিয়মিতভাবে ব্যবধানযুক্ত সংখ্যাগুলি স্কোর করে আমরা করি - বা না (এটি আংশিক ক্রেডিট মডেল) ।

স্পষ্টতই, আমরা ক্লাসিকাল টেস্ট থিওরিতে খুব বেশি যুক্ত করে দিচ্ছি না, যেখানে অর্ডিনাল ভেরিয়েবলকে সংখ্যাসূচক হিসাবে বিবেচনা করা হয়। যাইহোক, আমরা একটি সম্ভাব্য মডেল প্রবর্তন করি, যেখানে আমরা অবিচ্ছিন্ন স্কেল ধরে নিই (অন্তরগত বৈশিষ্ট্য সহ) এবং যেখানে পরিমাপের নির্দিষ্ট ত্রুটিগুলির জন্য দায়বদ্ধ হতে পারে এবং আমরা কোনও রিগ্রেশন মডেলগুলিতে এই ফ্যাক্টরিয়াল স্কোরগুলি প্লাগ করতে পারি।

তথ্যসূত্র

  1. এসএস স্টিভেন্স পরিমাপের আইশের তত্ত্বের উপর। বিজ্ঞান , 103 : 677-680, 1946।
  2. ডব্লিউজি কোচরান। সাধারণ পরীক্ষাগুলিকে শক্তিশালী করার কয়েকটি পদ্ধতি । বায়োমেট্রিকস , 10 : 417-451, 1954।χ2
  3. জে নুনলি এবং আমি বার্নস্টেইন। সাইকোমেট্রিক থিওরি । ম্যাকগ্রা-হিল, 1994
  4. অ্যালান আগ্রেস্তি। শ্রেণিবদ্ধ ডেটা বিশ্লেষণ । উইলে, 1990।
  5. সিআর রাও এবং এস সিনহারে, সম্পাদক। পরিসংখ্যানের হ্যান্ডবুক, খণ্ড। 26: সাইকোমেট্রিক্স । এলসেভিয়ার সায়েন্স বিভি, নেদারল্যান্ডস, 2007
  6. এ বোমসমা, এমএজে ভ্যান ডুইজন এবং টিএবি স্নিজ্ডার্স। আইটেম প্রতিক্রিয়া তত্ত্ব উপর প্রবন্ধ । স্প্রিংগার, 2001
  7. ডি থেসেন এবং এল স্টেইনবার্গ। আইটেম প্রতিক্রিয়া মডেলগুলির একটি শ্রেণিবদ্ধ। সাইকোমেট্রিকা , 51 (4) : 567–577, 1986।
  8. পি মাইর এবং আর হাটজিংগার। বর্ধিত রাশ মডেলিং: আর-তে আইআরটি মডেলগুলির প্রয়োগের জন্য ইআরএম প্যাকেজপরিসংখ্যান সফটওয়্যার জার্নাল , 20 (9) , 2007।

19

যদি কেবল দুটি বিভাগ থাকে তবে তাদের (0,1) এ রূপান্তর করা অর্থবোধ করে। আসলে, সাধারণত এটি করা হয় যেখানে ফলাফলের ডামি ভেরিয়েবলটি রিগ্রেশন মডেলগুলিতে ব্যবহৃত হয়।

যদি আরও দুটি বিভাগ থাকে তবে আমি মনে করি এটি কেবলমাত্র ডেটা অর্ডিনাল হলেই তা বোধগম্য হয় এবং কেবলমাত্র খুব নির্দিষ্ট পরিস্থিতিতে। উদাহরণস্বরূপ, আমি যদি রিগ্রেশন করছি এবং অরডিনাল-কাম-সংখ্যার ভেরিয়েবলের সাথে একটি ননপ্যারমেট্রিক ননলাইনার ফাংশন ফিট করি তবে আমি মনে করি এটি ঠিক আছে। তবে আমি যদি লিনিয়ার রিগ্রেশন ব্যবহার করি, তবে আমি নিয়মিত ভেরিয়েবলের ক্রমাগত মানগুলির মধ্যে আপেক্ষিক পার্থক্য সম্পর্কে খুব দৃ ass় অনুমান করছি এবং আমি সাধারণত এটি করতে নারাজ।


1
"[টি] মুরগি আমি নিয়মিত ভেরিয়েবলের একটানা মানগুলির মধ্যে আপেক্ষিক পার্থক্য সম্পর্কে খুব দৃ strong় ধারণা অনুমান করছি।" আমি মনে করি এটিই মূল বিষয়। অর্থাত্ আপনি কীভাবে দৃ strongly়ভাবে যুক্তি দিতে পারেন যে গ্রুপ 1 এবং 2 এর মধ্যে পার্থক্য 2 এবং 3 এর সাথে তুলনীয়?
ফ্রেইয়া হ্যারিসন

আমি মনে করি যে ধারাবাহিক পরিবর্তনশীল কীভাবে বিতরণ করা উচিত সে সম্পর্কে আপনার কিছুটা ধারণা করা উচিত এবং তারপরে প্রতিটি শ্রেণিবদ্ধ ভেরিয়েবল ফ্রিকোয়েন্সিটির এই "স্যুডোহিস্টোগ্রাম" ফিট করার চেষ্টা করা উচিত (আমি বোঝাচ্ছি বিন প্রস্থগুলি যা এটি কোনও ফিস্ট হিস্টোগ্রামে রূপান্তরিত করবে)। তবুও, আমি এই ক্ষেত্রের বিশেষজ্ঞ নই, এটির দ্রুত এবং নোংরা ধারণা।

বাইনারি বিভাগগুলিকে {0,1 as হিসাবে পুনরুদ্ধার করা বোধগম্য হয় তবে এটিকে অবিচ্ছিন্ন [0,1] ব্যবধানে পরিণত করা কিছুটা লাফানোর মতো মনে হয়। বিস্তৃত ফ্রন্টে, মডেল থেকে শক্তিশালী যুক্তি না থাকলে আমি সমানভাবে ওজন অর্ডিনালে আপনার অনীহা নিয়েই আছি।
ওয়াকিটালকি

18

অবিচ্ছিন্ন হিসাবে অনেক বিভাগ সহ আদেশযুক্ত শ্রেণীবদ্ধ ভেরিয়েবলগুলি আচরণ করা সাধারণ অনুশীলন। এর উদাহরণ:

  • 100 আইটেম পরীক্ষায় আইটেমের সংখ্যা সঠিক
  • সংক্ষিপ্ত মনস্তাত্ত্বিক স্কেল (উদাহরণস্বরূপ, এটি পাঁচ পয়েন্ট স্কেলে প্রতিটি 10 ​​আইটেমের গড়)

এবং "অবিচ্ছিন্ন হিসাবে চিকিত্সা" বলতে বোঝায় এমন একটি মডেলটির মধ্যে চলক অন্তর্ভুক্ত যা ধারাবাহিকভাবে এলোমেলো পরিবর্তনশীল ধরে নেয় (যেমন, লিনিয়ার রিগ্রেশনে নির্ভরশীল পরিবর্তনশীল হিসাবে)। আমি মনে করি যে এটি যুক্তিসঙ্গত সরলকরণ অনুমানের জন্য কতটি স্কেল পয়েন্ট প্রয়োজন।

আরও কয়েকটি চিন্তা:

  • বহুভোজী পারস্পরিক সম্পর্কগুলি অনুমিত সুপ্ত ধ্রুবক ভেরিয়েবলের ক্ষেত্রে দুটি নিয়মিত ভেরিয়েবলের মধ্যে সম্পর্ককে মডেল করার চেষ্টা করে।
  • অনুকূল স্কেলিং আপনাকে এমন মডেলগুলি বিকাশ করতে দেয় যেখানে শ্রেণীবদ্ধ ভেরিয়েবলের স্কেলিং ডেটা চালিত উপায়ে বিকশিত হয় যেখানে আপনি যে পরিমাণ স্কেল সীমাবদ্ধতা (যেমন, অर्डিনালাইটি) সম্মান করেন respect একটি ভাল পরিচয়ের জন্য দেখুন ডি লিউউ এবং মাইর (২০০৯)

তথ্যসূত্র

  • ডি লিউউ, জে।, এবং মাইর, পি। (২০০৯)। আর-তে সর্বোত্তম স্কেলিংয়ের জন্য গিফি পদ্ধতিসমূহ: প্যাকেজ হুমাল। পরিসংখ্যান সফটওয়্যার জার্নাল, আগত, 1-30। পিডিএফ

7

একটি খুব সাধারণ উদাহরণ যা প্রায়শই উপেক্ষা করা হয় যা অনেক পাঠকের অভিজ্ঞতার মধ্যে থাকা উচিত যা একাডেমিক কাজের জন্য দেওয়া চিহ্ন বা গ্রেডগুলি নিয়ে উদ্বেগ প্রকাশ করে। প্রায়শই পৃথক কার্যনির্বাহের জন্য চিহ্নগুলি মূলত রায়-ভিত্তিক নিয়মিত পরিমাপে থাকে, এমনকি যখন কনভেনশনের বিষয়টি হিসাবে তাদেরকে (বলে) সর্বোচ্চ স্ক্রমে শতকরা শতাংশ চিহ্ন বা চিহ্ন হিসাবে দেওয়া হয় (সম্ভবত দশমিক পয়েন্ট সহ)। এটি হ'ল, কোনও শিক্ষক কোনও প্রবন্ধ বা গবেষণামূলক প্রবন্ধ বা থিসিস বা কাগজের মাধ্যমে পড়তে পারেন এবং সিদ্ধান্ত নিতে পারেন যে এটি 42%, বা 4, বা যা কিছু প্রাপ্য। এমনকি যখন চিহ্নগুলি একটি মূল্যায়ন স্কিমের ভিত্তিতে হয় স্কেলটি একটি বিরতি বা অনুপাত পরিমাপের স্কেল থেকে কিছুটা দূরে থাকে।

তবে অনেকগুলি প্রতিষ্ঠান এই ধারণা গ্রহণ করে যে আপনার কাছে এই চিহ্ন বা গ্রেডের যথেষ্ট পরিমাণ রয়েছে তবে এগুলি গড় করতে (গ্রেড-পয়েন্ট গড় ইত্যাদি) যথাযথভাবে যুক্তিসঙ্গত এবং এমনকি তাদের আরও বিশদ বিশ্লেষণ করা। সুতরাং কোনও সময়ে অর্ডিনাল পরিমাপের আকারটি একটি সংক্ষিপ্ত স্কেলকে রূপান্তর করা হয় যা এমন আচরণ করা হয় যেন এটি অবিচ্ছিন্ন ছিল।

বিদ্রূপের বিষয়গুলি নোট করবে যে অনেক বিভাগ বা স্কুলগুলিতে স্ট্যাটিস্টিকাল কোর্সগুলি প্রায়শই শিখিয়ে দেয় যে এটি সর্বোপরি সন্দেহজনক এবং সবচেয়ে খারাপ বিষয়, যদিও এটি বিশ্ববিদ্যালয়-ব্যাপী পদ্ধতি হিসাবে প্রয়োগ করা হয়।


5

পেরেটো চার্ট এবং সম্পর্কিত মানগুলির সাথে যেমন ফ্রিকোয়েন্সি অনুসারে র‌্যাঙ্কিংয়ের বিশ্লেষণে (উদাহরণস্বরূপ, কতগুলি বিভাগের শীর্ষস্থানীয় পণ্যের ফল্টের শীর্ষ 80% রয়েছে)


5
গুরুত্বপূর্ণ বিষয়, এবং এটি প্রসারিত করা যেতে পারে: অর্ডিনাল ডেটাগুলির জন্য অনেকগুলি মডেল এই ধারণাটি অধিষ্ঠিত করে যে এটি সাধারণ তথ্য নয় তবে তাদের সংশ্লেষিত সম্ভাবনাগুলি মডেল করা যায়।
নিক কক্স

4

আমি যুক্তি তৈরি করতে যাচ্ছি যে সত্যিকারের শ্রেণিবদ্ধ, অ-নিয়মিত পরিবর্তনশীলকে অবিচ্ছিন্ন হিসাবে চিকিত্সা করা কখনও কখনও অর্থবোধ করতে পারে।

যদি আপনি বড় ডেটাসেটের উপর ভিত্তি করে সিদ্ধান্ত গাছগুলি তৈরি করে থাকেন তবে শ্রেণিবদ্ধ ভেরিয়েবলগুলিকে ডামি ভেরিয়েবলগুলিতে রূপান্তর করা প্রক্রিয়াকরণ শক্তি এবং মেমরির ক্ষেত্রে ব্যয়বহুল হতে পারে। তদুপরি, কিছু মডেল (উদাহরণস্বরূপ randomForestআর) অনেক স্তরের সাথে শ্রেণিবদ্ধ ভেরিয়েবলগুলি পরিচালনা করতে পারে না।

এই ক্ষেত্রে, একটি বৃক্ষভিত্তিক মডেল অত্যন্ত গুরুত্বপূর্ণ বিভাগগুলি সনাক্ত করতে সক্ষম হওয়া উচিত, যদি এগুলি ক্রমাগত পরিবর্তনশীল হিসাবে কোড করা থাকে। একটি স্বীকৃত উদাহরণ:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y একটি অবিচ্ছিন্ন পরিবর্তনশীল, a একটি অবিচ্ছিন্ন পরিবর্তনশীল এবং খ একটি শ্রেণিবদ্ধ পরিবর্তনশীল। যাইহোক, dat1বি তে ক্রমাগত হিসাবে বিবেচনা করা হয়।

এই 2 টি ডেটাসেটের জন্য সিদ্ধান্তের গাছ লাগানো, আমরা দেখতে পাই যে এর dat1থেকে কিছুটা খারাপ dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

আপনি যদি 2 টি মডেলের দিকে লক্ষ্য করেন তবে দেখতে পাবেন যে এগুলি খুব অনুরূপ তবে মডেল 1 b == 42 এর গুরুত্ব মিস করে:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

যাইহোক, মডেল 1 মডেল 2 এর সময়ের প্রায় 1/10 তে চলে:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

আপনি অবশ্যই সমস্যার পরামিতি খামচি যা পরিস্থিতিতে এটি করতে dat2পর্যন্ত তূলনায় dat1, অথবা dat1সামান্য outperforms dat2

আমি সাধারণত ধারাবাহিক হিসাবে পরিবর্তনশীল ভেরিয়েবলগুলি চিকিত্সার পক্ষে পরামর্শ দিচ্ছি না, তবে আমি এমন পরিস্থিতি পেয়েছি যেখানে এটি করার ফলে আমার মডেলগুলির ফিটনেসগুলির সময়টি অনেকটাই কমে গেছে, তাদের ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতা হ্রাস না করেই।


3

এই বিষয়ের একটি খুব সুন্দর সংক্ষিপ্তসার এখানে পাওয়া যাবে:

mijkerhemtulla.socsci.uva.nl পিডিএফ

"শ্রেণিবদ্ধ ভেরিয়েবলগুলি কখন অবিচ্ছিন্ন হিসাবে গণ্য করা যায়? সাব-অনুকূল অবস্থার অধীনে শক্তিশালী অবিচ্ছিন্ন এবং শ্রেণিবদ্ধ SEM অনুমান পদ্ধতির তুলনা।"

মিজকে রেমেতুল্লা, প্যাট্রিসিয়া É। ব্রসো-লিয়ার্ড, এবং ভিক্টোরিয়া সাভালেই

তারা এটি করার জন্য প্রায় 60 পৃষ্ঠাগুলির মূল্যবান পদ্ধতিগুলি তদন্ত করে এবং কখন তা করা কার্যকর, কোনটি গ্রহণ করা যায় এবং আপনার নির্দিষ্ট অবস্থার সাথে মানিয়ে নিতে প্রতিটি পদ্ধতির কী শক্তি এবং দুর্বলতাগুলি তা অন্তর্দৃষ্টি সরবরাহ করে। তারা এগুলি সমস্ত আবরণ করে না (যেমন আমি শিখছি যে সীমাহীন পরিমাণ বলে মনে হচ্ছে), তবে তারা যা কভার করে তা তারা ভালভাবে আবরণ করে।


2

এটির বোধগম্য হওয়ার পরে আরও একটি মামলা রয়েছে: যখন অবিচ্ছিন্ন ডেটা থেকে ডেটা নমুনা করা হয় (উদাহরণস্বরূপ এনালগ থেকে ডিজিটাল রূপান্তরকারী মাধ্যমে)। পুরানো যন্ত্রগুলির জন্য এডিসিগুলি প্রায়শই 10-বিট হয়ে থাকে, যা সাধারণত 1024-বিভাগের সাধারণ তথ্য হিসাবে থাকে তবে বেশিরভাগ উদ্দেশ্যে এটি বাস্তব হিসাবে বিবেচনা করা যেতে পারে (যদিও স্কেলের নীচের প্রান্তের নিকট মানগুলির জন্য কিছু নিদর্শন রয়েছে)। আজ এডিসি সাধারণত 16 বা 24-বিট হয়। আপনি 65536 বা 16777216 "বিভাগগুলি" কথা বলার সময়, অবিচ্ছিন্ন হিসাবে ডেটাটিকে আচরণ করার জন্য আপনার আসলেই সমস্যা নেই।


আমি আপনার নীচের লাইনের সাথে দৃ strongly়ভাবে একমত, কিন্তু তর্কাতীতভাবে এই জাতীয় ডেটা কখনও শুরু করা হয়নি, কেবল ছড়িয়ে দেওয়া। নামমাত্র-অর্ডিনাল-অন্তর-অনুপাতের লঘু চিকিত্সাগুলি এখানে প্রায়শই নির্দেশ করে না যে অর্ডিনাল পৃথককে বোঝায়, তবে বিপরীত নয়। একটি গণনা অর্ডিনাল তবে এটি অন্তর এবং অনুপাতও।
নিক কক্স

@ নিক অর্ডিনাল কি বোঝায়? অগত্যা। অবিচ্ছিন্ন ব্যবস্থাগুলি সাধারণ হতে পারে। উদাহরণস্বরূপ, জিএসপি বা হার্ট রেটের মতো শারীরবৃত্তীয় পরিবর্তনশীলগুলি অবিচ্ছিন্ন, তবে উদ্বেগ বা উদ্দীপনা হিসাবে মনোবিজ্ঞানীয় ভেরিয়েবলের ব্যবস্থা হিসাবে তারা কেবলমাত্র সাধারণ। অর্ডিনাল বনাম ব্যবধানের ধারণাটি কার্যকারিতাটির রৈখিকতা বোঝায় যা এটি পরিমাপের উদ্দেশ্যে কী তা পরিমাপ করে।
রে কোপম্যান

এটি একটি আকর্ষণীয় মন্তব্য, কিন্তু আপনি একবার সেই অঞ্চলে Iুকে পড়লে আমি দেখতে পাচ্ছি না যে কীভাবে উদ্বেগ আসলেই হয় তার স্বাধীন প্রমাণ ছাড়াই আপনি হার্টের হারকে কীভাবে শ্রেণিবদ্ধ করতে পারেন এবং শেষ পর্যন্ত প্রক্সি হিসাবে বিবেচিত বেশিরভাগ ভেরিয়েবলগুলি অগ্রহণযোগ্য। আপনি যখনই পরিমাপের স্কেলটিকে কেবলমাত্র অর্ডিনাল হিসাবে স্যুইচ করেন তখন কি আপনি অন্তর বা অনুপাতের ডেটার জন্য পদ্ধতিগুলি ব্যবহার করতে অস্বীকার করার সমস্ত উপায় অবলম্বন করবেন? আমি মনে করি না যে আপনি তাদের সাথে কী করতে চান তার কারণে ডেটা আলাদাভাবে আচরণ করে; এটাই আমার কাছে ইস্যুটির কর্ণধার।
নিক কক্স

1
@ নিক প্রশ্ন প্রশ্ন করে যে ফাংশনটি "সত্য" মানের সাথে পরিমাপ করা মানের সাথে সম্পর্কিত, লিনিয়ারের সাথে পর্যাপ্ত পর্যায়ে রয়েছে যে এটিকে ব্যবহার করলে ভুল সংক্ষিপ্ত সিদ্ধান্তে পৌঁছায় না, বা এটি অবশ্যই একঘেয়েমি হিসাবে বিবেচনা করা উচিত। সিদ্ধান্তটি ভিত্তি করার জন্য সাধারণত খুব কম বা কোনও হার্ড ডেটা থাকে না; এটি প্রায় সর্বদা একটি রায় কল হবে, যার সম্পর্কে অবহিত বুদ্ধিমান লোকদের একমত হতে সম্মত হতে পারে।
রে কোপম্যান

1
আমি মনে করি পরিসংখ্যানগুলিতে পরিমাপের স্কেলগুলি নিয়ে আলোচনায় স্বাভাবিক জোর দেওয়া হচ্ছে ভেরিয়েবলের গাণিতিক বৈশিষ্ট্য এবং এর জন্য বৈধ গাণিতিক ক্রিয়াকলাপগুলি। এটা যথেষ্ট বিতর্কিত। আমি যা যা মনে করি তা হ'ল আমি তাৎক্ষণিকভাবে গুরুত্বপূর্ণ হয়ে উঠতে রাজি হয়েছি এমন কিছুর সাথে বৈজ্ঞানিক উদ্বেগ, তবে আমি বিতর্ককে বরং ভিন্ন ভিন্ন ক্ষেত্র হিসাবে দেখছি।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.