ধারাবাহিক এবং শ্রেণিবদ্ধ উভয় বৈশিষ্ট্য নিয়ে ভবিষ্যদ্বাণী করা


26

কিছু ভবিষ্যদ্বাণীপূর্ণ মডেলিং কৌশলগুলি ধারাবাহিক ভবিষ্যদ্বাণীদের পরিচালনা করার জন্য আরও বেশি নকশাকৃত, অন্যরা শ্রেণিবদ্ধ বা বিচ্ছিন্ন ভেরিয়েবলগুলি পরিচালনা করার জন্য আরও ভাল। অবশ্যই এক প্রকারকে অন্য ধরণের রূপান্তর করার কৌশল রয়েছে (বিবেচনামূলককরণ, ডামি ভেরিয়েবলস ইত্যাদি)। তবে, এমন কোন ভবিষ্যদ্বাণীপূর্ণ মডেলিং কৌশল রয়েছে যা কেবলমাত্র বৈশিষ্ট্যগুলির ধরণের পরিবর্তন না করে একই সাথে উভয় প্রকারের ইনপুট পরিচালনা করার জন্য ডিজাইন করা হয়েছিল? যদি তা হয় তবে এই মডেলিং কৌশলগুলি কী ডেটাগুলির জন্য আরও বেশি প্রাকৃতিকভাবে কাজ করার প্রবণতা রাখে?

আমার নিকটতম জিনিসটি যা আমি জানি তা হ'ল সাধারণত সিদ্ধান্ত নেওয়া গাছগুলি পৃথক পৃথক ডেটা হ্যান্ডেল করে এবং এগুলি সামনে বিবেচনার প্রয়োজন ছাড়াই অবিচ্ছিন্ন ডেটা পরিচালনা করে । যাইহোক, এটি বেশিরভাগ ক্ষেত্রেই আমি খুঁজছিলাম কারণ কার্যকরভাবে অবিচ্ছিন্ন বৈশিষ্ট্যগুলিতে বিভাজনগুলি কেবল গতিশীল বিবেচনার একধরণের।

রেফারেন্সের জন্য, এখানে কিছু সম্পর্কিত, অ-সদৃশ প্রশ্ন রয়েছে:


1
আপনি যা করতে চান সে সম্পর্কে আরও বলতে পারেন? অবশ্যই, আপনি ভবিষ্যদ্বাণীমূলক মডেল তৈরি করতে একটানা এবং শ্রেণিবদ্ধ কোভেরিয়েট উভয়ের সাথে একাধিক রিগ্রেশন ব্যবহার করতে পারেন। এটি বরং প্রাথমিক। আপনি কি এর পরিবর্তে একাধিক প্রতিক্রিয়া ভেরিয়েবলের পূর্বাভাস বলতে চান (যেখানে কিছু বিচ্ছিন্ন এবং কিছু বিড়াল, যেমন)?
গুং - মনিকা পুনরায়

@gung কিভাবে আপনি একাধিক শ্রেণীগত covariates জড়িত রিগ্রেশন করবেন ছাড়া কিছু অর্থে সংখ্যার মধ্যে শ্রেণীগত ভবিষ্যতবক্তা রূপান্তর রূপান্তর?
মাইকেল ম্যাকগওয়ান

1
'সংখ্যার' অর্থ কোনও অর্থ নয় - এগুলি আসলে সংখ্যাসূচক নয় । কীভাবে পদক্ষেপে, আপনি একটি কোডিং স্কিম ব্যবহার করেন; রেফারেন্স সেল কোডিং (সাধারণত 'ডামি কোডিং' নামে পরিচিত) সর্বাধিক সাধারণ তবে অনেকগুলি স্কিম রয়েছে। এই সম্ভব স্কিম বিভিন্ন সম্বন্ধে জানার জন্য একটি ভাল সম্পদ। আরে, উদাহরণস্বরূপ, আপনাকে আসলে এটি করতে হবে না, যদিও আপনি যদি কোনও ভেক্টর বা চরিত্রের ডেটা (যেমন নামগুলি) অন্তর্ভুক্ত করেন তবে এটি আপনার জন্য সমস্ত কিছু পরিচালনা করবে।
গুং - মনিকা পুনরায়

2
আমি ভয় করি আমি এখনও প্রশ্নের পিছনে উত্সাহটি অনুসরণ করি না (আমি কিছুটা ধীর)। শ্রেণিবদ্ধ ভেরিয়েবলগুলি "রূপান্তরিত" বা "রূপান্তরিত" সংখ্যার ভেরিয়েবলগুলিতে রূপান্তরিত হয় না; এগুলিকে 1 দ্বারা প্রতিনিধিত্ব করা হয় তবে 1 টি সত্যই সংখ্যাসূচক নয়। গুণগত ভবিষ্যদ্বাণীকারীরা সিদ্ধান্ত গাছের তুলনায় (যেমন, কার্ট) যেমন একাধিক রিগ্রেশনগুলিতে আর সংখ্যাসূচক নয় eg তাত্ত্বিক দৃষ্টিকোণ থেকে, সেখানে কিছুই নেই; ব্যবহারিক দৃষ্টিকোণ থেকে আপনি যদি কয়েকটি লাইন কোড সংরক্ষণের চেষ্টা করছেন, যেমন, সফ্টওয়্যার (আর, উদাহরণস্বরূপ) প্রায়শই এটি আপনার জন্য করে।
গুং - মনিকা পুনরায়

1
যথেষ্ট ন্যায্য, আপনি কী ভাবছেন সেখানে ব্যাখ্যা করতে পারেন (তাত্ত্বিক দৃষ্টিকোণ থেকে)? ডামি কোডিং কীভাবে একটি পৃথক পরিবর্তনশীলকে অর্থপূর্ণভাবে সংখ্যাসূচক করে তোলে ? কীভাবে এটি করা যায় যে সিটিআরটি ভেরিয়েবলকে তার 'শ্রেণিবদ্ধ-নেস' বজায় রাখতে দেয়, কিন্তু সেই ডামি কোডিংটি তা করে না? আপনার উপরের প্রশ্ন থেকে এই প্রশ্নের উত্তরগুলি কী হতে পারে তা নির্ধারণ করার জন্য আমি ক্ষতির মধ্যে পড়েছি এবং আমি আপনার আগের পোস্টটি দেখছি না।
গুং - মনিকা পুনরায়

উত্তর:


6

আমি যতদূর জানি, এবং আমি অতীতে গভীরভাবে এই বিষয়টি নিয়ে গবেষণা করেছি, এমন কোনও ভবিষ্যদ্বাণীপূর্ণ মডেলিং কৌশল নেই (গাছের পাশে, এক্সজিস্ট, ইত্যাদি) যা কেবলমাত্র কোনও রূপান্তর না করে একই সময়ে উভয় প্রকারের ইনপুট পরিচালনা করার জন্য ডিজাইন করা হয়েছে বৈশিষ্ট্য টাইপ।

নোট করুন যে র‌্যান্ডম ফরেস্ট এবং এক্সজিবিস্টের মতো অ্যালগরিদমগুলি মিশ্র বৈশিষ্ট্যগুলির একটি ইনপুট গ্রহণ করে তবে নোড বিভক্ত হওয়ার সময় এগুলি পরিচালনা করার জন্য তারা কিছু যুক্তি প্রয়োগ করে। নিশ্চিত করুন যে আপনি "হুডের নীচে" যুক্তিটি বুঝতে পেরেছেন এবং ব্ল্যাক-বাক্সে যা ঘটছে তার সাথে আপনি ঠিক আছেন।

তবুও, দূরত্ব / কার্নেল ভিত্তিক মডেলগুলি (যেমন, কে-এনএন, এনএন রিগ্রেশন, সমর্থন ভেক্টর মেশিন) একটি "বিশেষ" দূরত্বের ক্রিয়াটি সংজ্ঞায়িত করে মিশ্র প্রকারের বৈশিষ্ট্য স্থানটি পরিচালনা করতে ব্যবহার করা যেতে পারে। যেমন, প্রতিটি বৈশিষ্ট্যের জন্য, একটি যথাযথ দূরত্বের মেট্রিক প্রয়োগ করে (উদাহরণস্বরূপ, একটি সংখ্যাসূচক বৈশিষ্ট্যের জন্য আমরা ইউক্লিডিয়ান দূরত্বটি 2 সংখ্যার গণনা করব যখন একটি বিশিষ্ট বৈশিষ্ট্যের জন্য আমরা 2 স্ট্রিং মানগুলির ওভারল্যাপ দূরত্বটি সহজভাবে গণনা করব)। সুতরাং, ব্যবহারকারী মধ্যে দূরত্ব / সাদৃশ্য তোমার দর্শন লগ করা1 এবং তোমার দর্শন লগ করা2 বৈশিষ্ট্য আমি নিম্নরূপ,: (তোমার দর্শন লগ করা1,তোমার দর্শন লগ করা2)আমি=(আমিগুলি-একটিটিRআমিএকটি(তোমার দর্শন লগ করা1,তোমার দর্শন লগ করা2)আমি যদি বৈশিষ্ট্যআমি শ্রেণীবদ্ধ হয়, (তোমার দর্শন লগ করা1,তোমার দর্শন লগ করা2)আমি=আমিগুলি-এনতোমার দর্শন লগ করামিRআমি(তোমার দর্শন লগ করা1,তোমার দর্শন লগ করা2)আমি যদি বৈশিষ্ট্যযুক্ত হয়আমি সংখ্যাগত। এবং 1 যদি বৈশিষ্ট্যআমিতোমার দর্শন লগ করা1 বাতোমার দর্শন লগ করা2 সংজ্ঞায়িত করা হয় না।

শ্রেণিবদ্ধ বৈশিষ্ট্যগুলির জন্য কিছু পরিচিত দূরত্ব ফাংশন:

  • লেভেনস্টিয়ান দূরত্ব (বা "সম্পাদনা দূরত্ব" এর কোনও ফর্ম)

  • দীর্ঘতম সাধারণ পরবর্তী মেট্রিক

  • উত্পাদনের দূরত্ব
  • এবং আরও মেট্রিক এখানে

5

আমি জানি যে এই প্রশ্নটি পোস্ট হওয়ার পরে অনেকক্ষণ হয়ে গেছে, তবে আপনি এখনও যদি এই সমস্যাটি (বা অনুরূপগুলি) দেখছেন তবে আপনি সাধারণীকরণযোগ্য মডেলগুলি (জিএএম) ব্যবহার করার বিষয়টি বিবেচনা করতে পারেন। আমি কোনও বিশেষজ্ঞ নই, তবে এই মডেলগুলি আপনাকে একক ভবিষ্যদ্বাণী তৈরি করতে বিভিন্ন মডেলকে একত্রিত করার অনুমতি দেয়। আপনি যে মডেলগুলি রেখেছিলেন তার জন্য সহগ খুঁজে পাওয়ার জন্য প্রক্রিয়াটি একবারে তাদের সকলের জন্য সমাধান করে, যাতে আপনি একটি সাধারণীকরণযোগ্য মডেলকে আপনার পছন্দের মডেলটি ক্লোরিকাল প্রেডিক্টর এবং আপনার প্রিয় মডেলকে অবিরত ভবিষ্যদ্বাণীদের জন্য প্রেরণ করতে পারেন এবং একটি একক মডেল পেতে পারেন যা আরএসএস বা হ্রাস করে অন্য যে কোনও ত্রুটি মানদণ্ড আপনি ব্যবহার করতে চান।

আমার মাথার শীর্ষে, আমি জানি যে একমাত্র সফ্টওয়্যার প্যাকেজটি জিএএম এর একটি বাস্তবায়ন আছে ভাষাটি আর, তবে আমি নিশ্চিত যে অন্যান্য রয়েছে।


এসএএসের প্রোক গ্যাম নামক পদ্ধতি রয়েছে।
আল্প

1
বেশিরভাগ প্রধান পরিসংখ্যান প্যাকেজগুলি (যেমন স্টাটা) সম্ভবত জিএএম বাস্তবায়ন করতে পারে। তবে আরও উল্লেখযোগ্য বিষয়, গ্যামগুলি ভবিষ্যদ্বাণীকারী হিসাবে শ্রেণীবদ্ধ ভেরিয়েবল উপস্থাপন করতে ডমি কোড ব্যবহার করবে। স্পষ্ট নয় যে ওপি এমন কোনও মডেল সন্ধান করতে চায় যা শ্রেণীবদ্ধ হিসাবে ভবিষ্যদ্বাণীকারীদের শ্রেণীবদ্ধ হিসাবে ব্যবহার করে তবে ডাব্লু / ও তাদের ডামি কোড দ্বারা প্রতিনিধিত্ব করে, তবে এটি সম্ভবত এটি নয়।
গুং - মনিকা পুনরায়

সিভিতে আপনাকে স্বাগতম। মনে রাখবেন যে আপনার ব্যবহারকারীর নাম, পরিচয় এবং আপনার ব্যবহারকারীর পৃষ্ঠার একটি লিঙ্ক আপনার করা প্রতিটি পোস্টে স্বয়ংক্রিয়ভাবে যুক্ত হয়ে গেছে, সুতরাং আপনার পোস্টগুলিতে সাইন ইন করার দরকার নেই। আসলে, আমরা আপনাকে পছন্দ করি না।
গুং - মনিকা পুনরায়

4

বিচক্ষণতা যখন অবিরত ডেটাগুলিকে বিচ্ছিন্ন উপাত্রে রূপান্তর করে তবে এটি খুব কমই বলা যায় যে ডামি ভেরিয়েবলগুলি শ্রেণিবদ্ধ ডেটাগুলিকে ক্রমাগত ডেটাতে রূপান্তরিত করে। প্রকৃতপক্ষে, যেহেতু কম্পিউটারে অ্যালগরিদম চালানো যেতে পারে সেখানে ক্লাসিফিকেটর অ্যালগরিদম খুব কমই থাকতে পারে যা শ্রেণিবদ্ধ ডেটাগুলিকে ডামি ভেরিয়েবলগুলিতে রূপান্তর করে না।

একই অর্থে একজন শ্রেণিবদ্ধ ব্যক্তি চূড়ান্তভাবে এটি ভবিষ্যদ্বাণীকারীদের একটি পৃথক পৃথক ভেরিয়েবলের সাথে সম্পর্কিত শ্রেণীর সাথে সম্পর্কিত করে তোলে (এমনকি এটি যদি কোনও শ্রেণীর সম্ভাবনা প্রকাশ করে তবে আপনি চূড়ান্তভাবে একটি কাট অফ বেছে নিন)। লজিস্টিক রিগ্রেশন, এলোমেলো বন, সিদ্ধান্ত গাছ এবং এসভিএম সমস্ত ধরণের ডেটা উভয়ই সূক্ষ্মভাবে কাজ করে এমন অনেক শ্রেণিবদ্ধের পক্ষে।

আমি সন্দেহ করি যে অ্যালগরিদম খুঁজে পাওয়া শক্ত হবে যা ক্রমাগত ডেটা নিয়ে কাজ করে তবে শ্রেণিবদ্ধ ডেটা একেবারেই পরিচালনা করতে পারে না। সাধারণত আমি আপনার মডেলের বাম দিকে আপনার কাছে কী ধরণের ডেটা রেখেছেন তা আরও পার্থক্যের সন্ধান করতে চাই।


2
না, আমার বক্তব্যটি হ'ল লজিস্টিক রিগ্রেশন এবং আল এই অর্থে "কাজ করে না" আমি উভয় প্রকারের ডেটা দিয়েই বর্ণনা করছি। কমপক্ষে কিছুটা হলেও তাদের আপনার প্রয়োজন, সমস্ত ভবিষ্যদ্বাণীকারীকে সংখ্যা হিসাবে গণ্য করুন বা তাদের কোনওটিকেই সংখ্যা হিসাবে গণ্য করবেন না। আমি জানি, উদাহরণস্বরূপ, একটি "লিঙ্গ" এর মতো "পুরুষ" এর জন্য 1 এবং "মহিলা" এর জন্য 0 হিসাবে কোডিং করে একটি লজিস্টিক রিগ্রেশন সহ দুর্দান্ত ফলাফল পেতে পারে। তবে আমি ভাবছি যে কোনও প্রকারের মডেলিং দৃষ্টান্ত দিয়ে এই জাতীয় প্রক্রিয়াটি এড়ানো যায় কিনা।
মাইকেল ম্যাকগওয়ান

1

এটি একটি গভীর দার্শনিক প্রশ্ন যা সাধারণত পরিসংখ্যানের পাশাপাশি মেশিন লার্নিংয়ের শেষেও সম্বোধন করা হয়। কেউ কেউ বলেন, শ্রেণিবদ্ধকরণ শ্রেণীবদ্ধ সূচককে আলাদা করার পক্ষে আরও ভাল, যাতে প্যাকেজগুলি সহজেই মডেল ইনপুটগুলি হজম করতে পারে। অন্যরা বলছেন, এই বেনিং তথ্য ক্ষতির কারণ হতে পারে, তবে তবে শ্রেণিবদ্ধ ভেরিয়েবলগুলি / অবশ্যই {1,0} রূপান্তরিত হতে পারে মডেলের অবশিষ্টাংশের জন্য শেষ বর্গ ছেড়ে চলে যায়}

অ্যাপ্লাইডড লিনিয়ার রিগ্রেশন (কুতনার এট।) বইটিতে প্রথম কয়েকটি অধ্যায়গুলিতে মডেলটিতে সূচক ভেরিয়েবলগুলি প্রবর্তনের যুক্তি সম্পর্কে উল্লেখ করা হয়েছে। অনুরূপ অন্যান্য পাঠ্যও থাকতে পারে।

আমার এটিকে সম্ভবত কিছুটা দূরে নিয়ে যাওয়া: আমরা যদি পরীক্ষামূলক ডিজাইনে ব্লকের মতো শ্রেণীবদ্ধ ভেরিয়েবলগুলি কল্পনা করি তবে সূচক ভেরিয়েবলটি অ-পরীক্ষামূলক ভিত্তিক ডেটা বিশ্লেষণের প্রাকৃতিক বর্ধন is ডেটা মাইনিং অ্যালগরিদম (সিদ্ধান্ত গাছের পরিবার) এর ক্ষেত্রে শ্রেনীকরণ অনিবার্য (ম্যানুয়ালি বা স্বয়ংক্রিয়-বিনিং) যা মডেলকে খাওয়াতে হবে।

সুতরাং, এমন কোনও মডেল নাও থাকতে পারে যা সংখ্যাসূচক এবং একইভাবে শ্রেণিবদ্ধ ভেরিয়েবলগুলির জন্য বিশেষভাবে তৈরি (বিনা-সংখ্যাসূচক বা সূচক-শ্রেণীবদ্ধ ব্যবহার না করে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.