ঘনত্ব অনুমান কোথায় দরকারী?


14

কিছুটা ক্ষুদ্র গণিতের মধ্য দিয়ে যাওয়ার পরে, আমি মনে করি আমার কাছে কার্নেল ঘনত্বের অনুমানের একটি সামান্য স্বীকৃতি আছে। তবে আমি আরও সচেতন যে তিনটিরও বেশি ভেরিয়েবলের জন্য বহুগুণ ঘনত্বের অনুমান করা ভাল ধারণা হতে পারে না, এর অনুমানকারীদের পরিসংখ্যানগত বৈশিষ্ট্যের ক্ষেত্রে of

সুতরাং, কোন ধরণের পরিস্থিতিতে আমার অনুমান করতে হবে, বলুন, নন-প্যারাম্যাট্রিক পদ্ধতি ব্যবহার করে বিভাজন ঘনত্ব? এটি আরও দুটি ভেরিয়েবলের জন্য অনুমানের বিষয়ে চিন্তা করা শুরু করার পক্ষে কি যথেষ্ট?

যদি আপনি বহু ঘনত্বের ঘনত্বের অনুমানের প্রয়োগ সম্পর্কিত কিছু দরকারী লিঙ্কগুলিতে নির্দেশ করতে পারেন তবে এটি দুর্দান্ত।

উত্তর:


16

ঘনত্বের অনুমানের প্রয়োগের জন্য একটি সাধারণ বিষয় হ'ল অভিনবত্ব সনাক্তকরণ, ওরফে আউটলেটারের সনাক্তকরণ, যেখানে ধারণাটি কেবলমাত্র আপনার (বা বেশিরভাগ) এক ধরণের ডেটা রয়েছে তবে আপনি খুব বিরল, গুণগত স্বতন্ত্র ডেটাতে আগ্রহী, যা থেকে উল্লেখযোগ্যভাবে বিচ্যুত হয় যারা সাধারণ ক্ষেত্রে।

উদাহরণস্বরূপ হ'ল জালিয়াতি সনাক্তকরণ, সিস্টেমে ব্যর্থতা সনাক্তকরণ ইত্যাদি। এগুলি এমন পরিস্থিতিতে যেখানে আপনার আগ্রহী বাছাইয়ের ডেটা সংগ্রহ করা খুব কঠিন এবং / অথবা ব্যয়বহুল These এই বিরল ক্ষেত্রে, অর্থাত্ হ'ল সম্ভাবনা কম।

বেশিরভাগ সময় আপনি সঠিকভাবে সঠিক বিতরণটি সঠিকভাবে অনুমান করতে আগ্রহী হন না, তবে আপেক্ষিক প্রতিক্রিয়াগুলিতে (প্রদত্ত নমুনাটি সত্যিকারের বহিরাগত বনাম একটি না হওয়ার সম্ভাবনা কতটা সম্ভব)।

বিষয়টিতে কয়েক ডজন টিউটোরিয়াল এবং পর্যালোচনা রয়েছে। এই এক একটি ভাল এক দিয়ে শুরু করতে হতে পারে।

সম্পাদনা: কারও কারও কাছে বহিরাগত সনাক্তকরণের জন্য ঘনত্বের অনুমান ব্যবহার করে বিজোড় বলে মনে হচ্ছে। আসুন প্রথমে একটি বিষয়ে আমরা একমত হই : যখন কেউ তার উপাত্তের সাথে একটি মিশ্রণের মডেল ফিট করে, তখন সে আসলে ঘনত্বের অনুমান করে। একটি মিশ্রণ মডেল সম্ভাবনার বন্টন উপস্থাপন করে।

কেএনএন এবং জিএমএম আসলে সম্পর্কিত: এগুলি সম্ভাবনার ঘনত্বের অনুমানের দুটি পদ্ধতি। অভিনবত্ব সনাক্তকরণে অনেক পদ্ধতির জন্য এটি অন্তর্নিহিত ধারণা। উদাহরণস্বরূপ, এই এক উপর kNNs, এই ভিত্তিক অন্যটি Parzen জানালা (যা কাগজ শুরুতে এই খুব ধারণা জোর) উপর ভিত্তি করে, এবং অনেক অন্যদের

এটি আমার কাছে মনে হয় (তবে এটি কেবল আমার ব্যক্তিগত উপলব্ধি) সর্বাধিক যদি না হয় তবে এই ধারণাটি নিয়ে কাজ করে। আপনি কীভাবে অন্যমনস্ক / বিরল ইভেন্টের ধারণাটি প্রকাশ করবেন?


নোটটি আপনাকে উল্লিখিত সেট করেছে (সেকশন 6, "ঘনত্ব ভিত্তিক পদ্ধতির") কিছু অতি সাহসী (বিষয়টির মধ্যম ধারা এবং শান্ত বিকাশিত সাহিত্যের থেকে দূরে) বহিরাগত সনাক্তকরণের পদ্ধতির রূপরেখা দিয়েছে । অবশ্যই, আরও সাধারণ অ্যাপ্লিকেশন উপস্থিত থাকতে হবে।
ব্যবহারকারী 603

2
দুঃখিত, আমি আপনার মন্তব্য বুঝতে পারি না। দুটি খুব প্রাথমিক উদাহরণ কেএনএন এবং জিএমএম হবে। এই দুটি পদ্ধতি সম্ভাবনার ঘনত্বের অনুমান সরবরাহ করে এবং এই জাতীয় ক্ষেত্রে ব্যবহার করা যেতে পারে।
jpmuc

ধন্যবাদ। জিএমএম কি? আমি মনে করি না কেএনএন বহিরাগত সনাক্তকরণের জন্য একটি মধ্যম ধারা approach আপনি শক্তিশালী পরিসংখ্যানের সাম্প্রতিক একটি পাঠ্যপুস্তকে উল্লেখ করতে পারেন যেখানে এটি সেই প্রসঙ্গে ব্যবহৃত হয়েছে? (আমি স্লাইড সেটে থাকা কাগজগুলির দিকে নজর দিয়েছি যেগুলি আপনি বহিরাগত সনাক্তকরণের সাথে সম্পর্কিত যেগুলি কনফারেন্স পদ্ধতি বা পুরানো বই বলে মনে হয়)
ব্যবহারকারী 603

জিএমএম = গাউসিয়ান মিশ্রণ মডেল। স্লাইডগুলিতে তারা কেএনএন-এর উপর ভিত্তি করে স্কোরগুলি উল্লেখ করে। আমি ব্যক্তিগতভাবে উপন্যাস সনাক্তকরণের জন্য এসভিএম ব্যবহার করেছি। আফসোস আমি আপনাকে একটি কংক্রিট পাঠ্যপুস্তকের সুপারিশ করতে পারি না। হতে পারে এই নোটগুলি ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) যথেষ্ট।
jpmuc

1
আমি @ ব্যবহারকারী 603 এর সাথে দৃ strongly়ভাবে সম্মত। ঘনত্বের অনুমান প্রথম নজরে বিদেশীদের খুঁজে বের করার চেষ্টা করার একটি অত্যন্ত বিজোড় এবং অপ্রত্যক্ষ উপায়। কীভাবে বাস্তবে এটি প্রয়োগ করা হয় - এবং আপনি কেন এটি ভাল কাজ করে বলে মনে করেন তা সংক্ষিপ্ত করে আপনার উত্তর বাড়ানো হবে।
নিক কক্স

4

আমার ধারণা , কেডিএর দক্ষ ও উপযুক্ত প্রয়োগের জন্য গড়-শিফট অ্যালগরিদম ( http://en.wikedia.org/wiki/Mean-shift ) একটি ভাল উদাহরণ। এই অ্যালগরিদমের উদ্দেশ্য হ'ল সেই ঘনত্বের ফাংশন থেকে প্রাপ্ত নমুনা প্রদত্ত ঘনত্বের ফাংশনের ম্যাক্সিমার সন্ধান করা এবং এটি সম্পূর্ণরূপে কেডি মডেলিংয়ের উপর ভিত্তি করে: যেখানেf h ( x ) x i exp ( - ( x i - x ) T Σ - 1 ( x i - x ) ) , Σ - 1 x i(xi)

fh(x)xiexp((xix)TΣ1(xix)),
Σ1একটি কোভেরিয়েন্স ম্যাট্রিক্স (আনুমানিক বেশিরভাগ সময়)। এই অ্যালগরিদম ক্লাস্টারিং কার্যগুলিতে ব্যাপকভাবে ব্যবহৃত হয় যখন উপাদানগুলির সংখ্যা অজানা: প্রতিটি আবিষ্কারক মোড একটি ক্লাস্টার সেন্ট্রয়েড এবং কোনও মোডের সাথে একটি নমুনার কাছাকাছি যতটা সম্ভবত এটি সম্পর্কিত ক্লাস্টারের সাথে সম্পর্কিত হয় (সমস্ত কিছু সঠিকভাবে আকারের দ্বারা ভারিত হচ্ছে) পুনর্গঠন ঘনত্ব)। নমুনা ডেটা সাধারণত একের চেয়ে বেশি মাত্রার আকারের হয়: উদাহরণস্বরূপ, 2D রঙের চিত্র বিভাজন সম্পাদনের জন্য, নমুনাগুলি 5 ডি করা যেতে পারে (আরসি কম্পোনেন্ট, জিসিম্পোনমেন্ট, বিসি কম্পোনেন্ট, এক্সপজিশন, ওয়াই পজিশন)।xi

4

সাধারণত , কে কে কে হিস্টোগ্রামের বিকল্প হিসাবে চিহ্নিত করা হয়। এই প্রসঙ্গে হিস্টোগ্রামগুলির চেয়ে কে-ডি-ই-র প্রধান সুবিধা হ'ল পদ্ধতির ভিজ্যুয়াল আউটপুটে নির্বিচারে নির্বাচিত পরামিতিগুলির প্রভাব হ্রাস করা। বিশেষত (এবং উপরের লিঙ্কে চিত্রিত হিসাবে), কে.ডি.এর শুরু এবং শেষের পয়েন্টগুলি নির্দিষ্ট করার জন্য ব্যবহারকারীর প্রয়োজন নেই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.