ডামি বৈশিষ্ট্যগুলি (এবং অন্যান্য স্বতন্ত্র / শ্রেণিবদ্ধ বৈশিষ্ট্যগুলি) সহ অসাধারণ সনাক্তকরণ


18

TL; ড

  • discreteঅসাধারণ সনাক্তকরণ সম্পাদন করার সময় ডেটা মোকাবেলা করার প্রস্তাবিত উপায় কী ?
  • categoricalঅসাধারণ সনাক্তকরণ সম্পাদন করার সময় ডেটা মোকাবেলা করার প্রস্তাবিত উপায় কী ?
  • এই উত্তরটি কেবল ফলাফলগুলি ফিল্টার করার জন্য পৃথক ডেটা ব্যবহার করার পরামর্শ দেয়।
  • সম্ভবত পর্যবেক্ষণের পারক্টেজ সুযোগের সাথে বিভাগের মানটি প্রতিস্থাপন করবেন?

ইন্ট্রো

এখানে আমার এই প্রথম পোস্ট করা, সুতরাং দয়া করে, কিছু ফর্ম্যাটিং বা সঠিক সংজ্ঞা ব্যবহারের ক্ষেত্রে প্রযুক্তিগতভাবে সঠিক না মনে হলে, এর পরিবর্তে কী ব্যবহার করা উচিত ছিল তা জানতে আগ্রহী।

অগ্রে।

আমি সম্প্রতি অ্যান্ড্রু এনজি দ্বারা মেশিন লার্নিং ক্লাসে অংশ নিয়েছি

অসাধারণতা সনাক্তকরণের জন্য আমাদের দেওয়া হয়েছে যে কোনও বৈশিষ্ট্য / পরিবর্তনশীল, data a কোনও ডেটা সেটের মধ্যে সাধারণ / গাউসীয় বিতরণ প্যারামিটারগুলি কী তা নির্ধারণ করতে শিখিয়েছি এবং তারপরে প্রশিক্ষণের উদাহরণের / পর্যবেক্ষণের মানের একটি নির্বাচিত সেটগুলির সম্ভাব্যতা নির্ধারণ করা হবে নির্দিষ্ট গাউসীয় বিতরণ এবং তারপরে বৈশিষ্ট্যগুলির সম্ভাব্যতার পণ্য গ্রহণ।এক্সআমি

পদ্ধতি

বৈশিষ্ট্য / ভেরিয়েবলগুলি চয়ন করুন যা আমাদের মনে হয় যে ক্রিয়াকলাপটি প্রশ্নের মধ্যে ব্যাখ্যা করেছে: { এক্স 1 , এক্স 2 , , এক্স আই }এক্সআমি

{এক্স1,এক্স2,...,এক্সআমি}

প্রতিটি বৈশিষ্ট্যের জন্য প্যারামিটারগুলি ফিট করুন: σ2=1

μ=1মিΣআমি=1মিএক্স(আমি)
σ2=1মিΣআমি=1মি(এক্স(আমি)-μ)2

প্রতিটি প্রশিক্ষণের উদাহরণের জন্য, , গণনা: পি ( এক্স ) = এন জে = 1 পি ( এক্স জে ; μ জে , σ 2 জে )এক্স

পি(এক্স)=Π=1এন পি(এক্স;μ,σ2)

তারপরে আমরা প্রদত্ত একটি অকার্যকর ( ) হিসাবে পতাকাঙ্কিত করেছি : y = { 1Y=1

Y={1পি(এক্স)<ε0পি(এক্স)ε

উদাহরণস্বরূপ আরও পরিদর্শন করা দরকার কিনা তা নির্ধারণ করার জন্য এটি আমাদের পদ্ধতিটি দেয়।

আমার প্রশ্নগুলো)

এটি অবিচ্ছিন্ন ভেরিয়েবল / বৈশিষ্ট্যগুলির জন্য সূক্ষ্ম বলে মনে হয়, তবে আলাদা ডেটা সম্বোধন করা হয় না।

ডামি ভেরিয়েবলগুলি সম্পর্কে কী কী, যেমন একটি লিঙ্গ পতাকা বৈশিষ্ট্য, সম্ভবত বলা [IsMale]হয় এটি মান হতে পারে ? একটি ছদ্মবেশী বৈশিষ্ট্যটি অ্যাকাউন্টে নেওয়ার জন্য আমরা গণনার পরিবর্তে দ্বিপদী বিতরণ ব্যবহার করব ?পি ( এক্স )0,1পি(এক্স)

শ্রেণিবদ্ধ তথ্য যেমন গাড়ির রঙ সম্পর্কে কী? আমরা সংখ্যার মানগুলিতে রঙগুলি মানচিত্র করতে পারি, উদাহরণস্বরূপ , , এই জাতীয় শ্রেণীবদ্ধ বৈশিষ্ট্যটির বন্টন ইউনিফর্মের কাছাকাছি হতে পারে (অর্থাত্ রঙগুলির কোনও হওয়ার সম্ভাব্য সম্ভাবনা) এবং আরও কোনও হিসাবে সংখ্যার ম্যাপিং যা ঘটে (যেমন মান , ইত্যাদি সহ ) সাধারণ নয়, রঙগুলি বিতরণ করার জন্য ফ্রিকোয়েন্সিগুলির কোনও সাধারণ-সাধারণ বিতরণ চেষ্টা করার এবং এটি রূপান্তরিত করার অর্থ কী বোঝায় (এটি এমনকি এটি সাধারণ না হলেও এটি কী গুরুত্বপূর্ণ)? ?)? উদাহরণস্বরূপ, আমার কাছে, কোনও রূপান্তর করা বুদ্ধিমান হবে না কারণ ডেটা অবিচ্ছিন্ন বা অরডিনালও নয়। সুতরাং সম্ভবত এটি একটি পৃথক বিতরণ সন্ধান করা ভালR1,তোমার দর্শন লগ করা2R1() গাউসিয়ানদের ফিট করার জন্য ডেটা "নির্যাতন" করার বিপরীতে ফিচারটি কী ফিট করে?

প্রশ্নগুলি: (আপডেট: 2015-11-24)

  • বাইনারি ভেরিয়েবলগুলি দ্বিপদী সম্ভাব্যতা বিতরণের মাধ্যমে মডেল করা যায় এবং গণনার আরও একটি কারণ হয়ে উঠতে পারে?পি(এক্স)
  • শ্রেণীবদ্ধ ভেরিয়েবলগুলি কি গাউসির পরিবর্তে পৃথক পৃথক সম্ভাবনা বিতরণের মাধ্যমে মডেল করা উচিত এবং গণনার আরও একটি কারণ হয়ে উঠতে হবে ?পি(এক্স)
  • সামগ্রিকভাবে অন্য কোনও পদ্ধতি আছে যা আমি এখানে যা জিজ্ঞাসা করছি তা গ্রহণ করে যা আমি আরও গবেষণা / শিখতে পারি?
  • discreteঅসাধারণ সনাক্তকরণ সম্পাদন করার সময় ডেটা মোকাবেলা করার প্রস্তাবিত উপায় কী ?
  • categoricalঅসাধারণ সনাক্তকরণ সম্পাদন করার সময় ডেটা মোকাবেলা করার প্রস্তাবিত উপায় কী ?

সম্পাদনা করুন: 2017-05-03

  • এই উত্তরটি কেবল ফলাফলগুলি ফিল্টার করার জন্য পৃথক ডেটা ব্যবহার করার পরামর্শ দেয়।
  • সম্ভবত পর্যবেক্ষণের পারক্টেজ সুযোগের সাথে বিভাগের মানটি প্রতিস্থাপন করবেন?

<দাবি অস্বীকার করুন আমি বিপজ্জনক হতে পারে এমন পর্যাপ্ত পরিসংখ্যান ব্যাকগ্রাউন্ডের একজন </dlaklaimer> সুতরাং বিপজ্জনক হওয়া যাক .... আমার অন্তর্নিহিত আপনার সাথে একমত যে গাওসিয়ান অবিচ্ছিন্ন ডেটা হ্যান্ডেল করার উপায় নয়। অবিচ্ছিন্ন তথ্যের জন্য সংখ্যা লাইনের একটি মানের একটি পূর্ণসংখ্যার লাইনের সংখ্যার বা বাইনারি ভেরিয়েবলের চেয়ে অন্য মানগুলির সাথে আলাদা ধরণের সম্পর্ক রয়েছে। দ্বিপদী বিতরণ বাইনারি পরিবর্তনশীল বর্ণনা করে। বহু বহুবিধ বিতরণগুলি বহু বহুবর্ষের ভেরিয়েবলগুলি বর্ণনা করে। এই সমস্ত ক্ষতিকারক পরিবারের সদস্য না?
এনগ্রিস্টুডেন্ট - মনিকা


অন্য যে কোনও আলোচনায় যুক্ত করতে পারে: প্রসঙ্গ: শ্রেণিবদ্ধ আউটলিয়ার?
অ্যাড্রিয়ান ট্যারি

@iValueValue আপনার চতুর্থ সূত্রে কি ? এটি কি ? পিপি(এক্স;μ,σ2)=1σ2π-(এক্স-μ)22σ2
আলেসান্দ্রো জ্যাকসন

@Uvts_cvs হ্যাঁ গাউসিয়ানদের সম্ভাব্যতা ঘনত্ব ফাংশনটি ব্যবহৃত হয়।
অ্যাড্রিয়ান টুরি

উত্তর:


4

সাধারণভাবে, উভয় পৃথক * এবং শ্রেণিবদ্ধ বৈশিষ্ট্যগুলির জন্য, আউটলেট বিশ্লেষণে এই পদ্ধতিটি বিশেষভাবে উপযুক্ত নয়। যেহেতু শ্রেণিবদ্ধ ভবিষ্যদ্বাণীগুলির সাথে কোনও পরিধি যুক্ত নেই, তাই আমরা এর সাথে কাজ করছি:

  • বৈশ্বিক তথ্যতে বিভাগটির ফ্রিকোয়েন্সি পর্যবেক্ষণ করা হচ্ছে
  • বিভাগের ফ্রিকোয়েন্সি ডেটা উপস্পেসের মধ্যে পর্যবেক্ষণ করা হচ্ছে

মনে রাখবেন যে আপনার গাউসীয় পদ্ধতিতে যেমন প্রয়োজন তেমনি এই গুণগুলির কোনওটিই বিচ্ছিন্নভাবে বিশ্লেষণ করা যায় না can পরিবর্তে, আমাদের এমন একটি পদ্ধতি দরকার যা শ্রেণিবদ্ধ বৈশিষ্ট্যগুলিকে প্রাসঙ্গিক করে তোলে এবং তথ্যের সাথে সম্পর্কিত সম্পর্কযুক্ত প্রকৃতি বিবেচনা করে।

আগরওয়ালের আউটিলার বিশ্লেষণের উপর ভিত্তি করে শ্রেণিবদ্ধ এবং মিশ্র বৈশিষ্ট্য ডেটার জন্য কিছু কৌশল এখানে রয়েছে :

  • এসএস=প্রশ্নঃλ2প্রশ্নঃটিপ্রশ্নঃ=প্রশ্নঃλ
  • আপনার যদি বিশুদ্ধরূপে শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি থাকে তবে কাঁচা শ্রেণিবদ্ধ ডেটার সাথে একটি মিশ্রণ মডেল ফিট করুন। অসাধারণ পয়েন্টগুলির নিম্নতম উত্পাদনশীল সম্ভাবনা থাকে।
  • ব্যবহার করুন এক গরম এনকোডিং শ্রেণীগত ভবিষ্যতবক্তা জন্য এবং ঐচ্ছিকরূপে সুপ্ত পরিবর্তনশীল বিশ্লেষণ অ আপাত একটানা ম্যাপিং সঙ্গে পূরণবাচক ভেরিয়েবলের জন্য **
    • অ-এক-হট বৈশিষ্ট্যগুলি মানক করুন (এক-হট বৈশিষ্ট্যগুলি ইতিমধ্যে স্পষ্টভাবে মানকীকৃত) এবং অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ সম্পাদন করুন । শীর্ষস্থানীয় প্রধান উপাদানগুলি (বা একটি নরম পিসিএ পদ্ধতির যেখানে ইগেনভেেক্টরগুলি ইগেনভেয়েটরস দ্বারা ওজনযুক্ত) ব্যবহার করে মাত্রিকতা হ্রাস সম্পাদন করুন এবং একটি সাধারণ ক্রমাগত আউটলেট বিশ্লেষণ পদ্ধতি চালান (যেমন একটি মিশ্রণ মডেল বা আপনার গাউসিয়ান পদ্ধতি)
    • একটি কোণ ভিত্তিক বিশ্লেষণ সম্পাদন করুন। প্রতিটি পর্যবেক্ষণের জন্য, সমস্ত জোড় পয়েন্টের মধ্যে কোসাইন মিলগুলি গণনা করুন। এই মিলগুলির ক্ষুদ্রতম প্রকরণের সাথে পর্যবেক্ষণগুলি ("অ্যাঙ্গেল-ভিত্তিক আউটিলার ফ্যাক্টর" নামে পরিচিত) সম্ভবত আউটলিয়ার ers কী অসাধারণ তা নির্ধারণের জন্য ABOF- এর অভিজ্ঞতাগত বিতরণের চূড়ান্ত বিশ্লেষণের প্রয়োজন হতে পারে।
    • যদি আপনি আউটলিয়ারদের লেবেলযুক্ত থাকেন: ইঞ্জিনিয়ারড ডেটাতে (লজিস্টিক রিগ্রেশন, এসভিএম, ইত্যাদি) একটি ভবিষ্যদ্বাণীপূর্ণ মডেল ফিট করুন।

* বিচ্ছিন্ন বৈশিষ্ট্যগুলি সম্ভবত আপনার গাউসিয়ান পদ্ধতিতে পরিচালনা করা যেতে পারে। সঠিক অবস্থার অধীনে, কোনও বৈশিষ্ট্যটি একটি সাধারণ বিতরণ (যেমন এনপিকিউ> 3 সহ দ্বিপদী র্যান্ডম ভেরিয়েবল) দ্বারা খুব ভালভাবে সন্নিবিষ্ট হতে পারে। যদি তা না হয় তবে উপরে বর্ণিত অধ্যক্ষ হিসাবে এগুলি পরিচালনা করুন।

** এটি "পর্যবেক্ষণের শতাংশের সুযোগের সাথে বিভাগের মান প্রতিস্থাপন করুন" আপনার ধারণার সাথে সমান is


কে=1

@ আকবাবা আপনি উদাহরণস্বরূপ, EM অ্যালগরিদম ব্যবহার করে বহুজাতিক পরামিতিগুলিতে MLEs গণনা করতে পারেন। বহু-জাতীয় আরভিগুলির স্বাধীনতা ধরে নিয়ে, এই পদ্ধতিরটি স্বেচ্ছাসেবী শ্রেণিবদ্ধ পূর্বাভাসকারী সেটগুলিতে সাধারণীকরণ করে। এখানে
খোল

0

অ্যান্ড্রু এনজি ক্লাস ম্যাথ "বিচ্ছিন্ন" ডেটা হ্যান্ডল করে যেমন এটি "নন-ডিসক্রিট" ডেটা পরিচালনা করে। আমাদের যা করতে হবে তা সাধারণ বন্টনের প্যারামিটারগুলি অনুমিতভাবে অনুমান করতে হবে এবং এটি বিবিধ ডেটার জন্য নিখুঁতভাবে করা যেতে পারে।

আপনি যদি এটির বিষয়ে চিন্তা করেন তবে মেশিন লার্নিং সর্বদা বিযুক্ত ডেটা নিয়ে কাজ করে: ডেটা পয়েন্টগুলির সংখ্যা অসীম নয় এবং কম্পিউটারগুলি দ্বারা পরিচালিত বিটের সংখ্যা অসীম নয়।

যদি বিযুক্ত ডেটা পয়েন্টগুলি একে অপরের মধ্যে তুলনা করা যায় তবে মেশিন লার্নিং পদ্ধতির ক্ষেত্রে কোনও মৌলিক পার্থক্য নেই যখন কথা বলুন, দৈর্ঘ্য: 1.15 ফুট 1.34 ফুট 3.4 ফুট

বা গাছটিতে কতগুলি শাখা রয়েছে: 1 2 3 5

আপনি যোগফল এবং গড় ভাসমান পয়েন্ট বা সম্পূর্ণ সংখ্যা ঠিক একই হিসাবে করতে পারেন।

এখন, বিভাগীয় তথ্য। শ্রেণিবদ্ধ ডেটা পয়েন্টগুলির সাথে তুলনা করা যায় না {গাড়ি বনাম মোটরসাইকেল বনাম নৌকা)। আমরা কীভাবে এটি পরিচালনা করব?

বিভাগগুলির সংখ্যাটি বোঝার জন্য কমপক্ষে দুজন হতে হবে, অন্যথায় ধ্রুব বৈশিষ্ট্যে কী আছে? 2 বিভাগের ক্ষেত্রে, আমরা বাইনারি বৈশিষ্ট্য {0, 1 as হিসাবে একটি বিভাগ বৈশিষ্ট্য উপস্থাপন করতে পারি} 0 এবং 1 গণিতের জন্য ব্যবহার করা যেতে পারে, তাই উপরে দেখুন।

বিভাগগুলির সংখ্যা যদি (কে) হয় [৩ .. ইনফ], আমরা কে বাইনারি পারস্পরিক একচেটিয়া বৈশিষ্ট্যগুলিতে আমাদের একক বৈশিষ্ট্যটি ম্যাপ করি। উদাহরণস্বরূপ, "মোটরসাইকেলের" বিভাগটি বাইনারি বৈশিষ্ট্যগুলির সংমিশ্রণে পরিণত হয় C ইসকার: 0, ইসমোটারসাইকেল: 1, ইসবোট: 0}, বোট পয়েন্ট হয়ে যায় {ইসকার: 0, ইসমোটারসাইকেল: 0, ইসবোট: 1} ইত্যাদি।

আমরা এই নতুন বৈশিষ্ট্যগুলি থেকে অভিজ্ঞতা অভিজ্ঞতা বিতরণ পরামিতি অনুমান করতে পারি। আমাদের কেবল আরও মাত্রা থাকবে, এটাই সব।


1
এটি ডামি এনকোডিংয়ের ব্যাখ্যা দিচ্ছে তবে এটি প্রশ্নের উত্তর নয়
পিটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.