Parzen জানালা ঘনত্ব প্রাক্কলন জন্য অন্য নাম কার্নেল ঘনত্ব প্রাক্কলন । এটি ডেটা থেকে অবিচ্ছিন্ন ঘনত্ব ফাংশন অনুমান করার জন্য একটি ননপ্যারমেট্রিক পদ্ধতি।
ধারণা করুন যে আপনার কাছে কিছু ডেটাপয়েন্ট রয়েছে x1,…,xn যা সাধারণ অজানা থেকে আসে, সম্ভবত অবিচ্ছিন্ন, বিতরণে f । আপনার ডেটা প্রদত্ত বিতরণটি অনুমান করতে আগ্রহী। একটি জিনিস যা আপনি করতে পারলেন তা হ'ল অভিজ্ঞতাগত বিতরণটি দেখার জন্য এবং এটিকে সত্য বিতরণের একটি নমুনার সমতুল্য হিসাবে বিবেচনা করুন। তবে যদি আপনার ডেটা অবিচ্ছিন্ন থাকে তবে সম্ভবত আপনি প্রতিটি এক্স i দেখতে পাবেনxiপয়েন্ট কেবলমাত্র ডেটাসেটে উপস্থিত হয়, সুতরাং এর ভিত্তিতে, আপনি এই সিদ্ধান্তে পৌঁছাতে পারবেন যে আপনার ডেটা অভিন্ন বিতরণ থেকে আসে কারণ প্রতিটি মানের সমান সম্ভাবনা থাকে। আশা করি, আপনি এটি আরও ভাল করতে পারবেন: আপনি কিছু সংখ্যক সমান ব্যবধানের ব্যবধানে আপনার ডেটা প্যাক করতে পারেন এবং প্রতিটি ব্যবধানের মধ্যে আসা মানগুলি গণনা করতে পারেন। এই পদ্ধতিটি হিস্টগ্রাম অনুমানের উপর ভিত্তি করে তৈরি করা হবে । দুর্ভাগ্যক্রমে, হিস্টোগ্রামের সাহায্যে আপনি কিছু সংখ্যক বিনের সাথে শেষ না করে বরং অবিচ্ছিন্ন বিতরণ দিয়ে চলেছেন, সুতরাং এটি কেবল মোটামুটি প্রায়।
কার্নেলের ঘনত্বের অনুমানটি তৃতীয় বিকল্প। মূল ধারণা যে আপনি আনুমানিক f একটি দ্বারা মিশ্রণ একটানা ডিস্ট্রিবিউশন K (আপনার স্বরলিপি ব্যবহার ϕ ), নামক কার্নেলের , যে কেন্দ্রীভূত হয় xi datapoints এবং স্কেল (আছে ব্যান্ডউইথ ) এর সমান h :
fh^(x)=1nh∑i=1nK(x−xih)
এই যেখানে সাধারণ বণ্টনের কার্নেল হিসেবে ব্যবহার করা হয় নিচের ছবিতে, উপর চিত্রিত করা হয় K এবং ব্যান্ডউইথ জন্য আলাদা মান h সাত datapoints (প্লট উপরে রঙিন লাইন দ্বারা চিহ্নিত) দেওয়া বন্টন অনুমান করার জন্য ব্যবহার করা হয়। প্লটের বর্ণিল ঘনত্বগুলি xi পয়েন্টগুলিতে কেন্দ্রস্থ কার্নেলগুলি । লক্ষ্য করুন যে h একটি আপেক্ষিক পরামিতি, এটির মানটি সর্বদা আপনার ডেটার উপর নির্ভর করে চয়ন করা হয় এবং h এর একই মানটি বিভিন্ন ডেটাসেটের জন্য একই রকম ফলাফল দিতে পারে না।
কার্নেল K সম্ভাব্যতা ঘনত্ব ফাংশন হিসাবে বিবেচনা করা যেতে পারে এবং এটি unityক্যের সাথে সংহত করার প্রয়োজন। এটিরও প্রতিসম হওয়া দরকার যাতে K(x)=K(−x) এবং এর পরে শূন্যকে কেন্দ্র করে। কার্নেলের উইকিপিডিয়া নিবন্ধে অনেকগুলি জনপ্রিয় কার্নেলগুলির তালিকা দেওয়া হয়েছে, যেমন গাউসীয় (সাধারণ বিতরণ), ইপেনটেকনিকভ, আয়তক্ষেত্রাকার (অভিন্ন বিতরণ), ইত্যাদি etc. মূলত এই প্রয়োজনীয়তাগুলি পূরণের কোনও বন্টন কার্নেল হিসাবে ব্যবহার করা যেতে পারে।
স্পষ্টতই, চূড়ান্ত অনুমানটি আপনার কর্নেলের পছন্দ (তবে ততটা নয়) এবং ব্যান্ডউইথ প্যারামিটার h উপর নির্ভর করবে । নিম্নলিখিত থ্রেডটি
কার্নেল ঘনত্বের প্রাক্কলনটিতে ব্যান্ডউইথ মানটি কীভাবে ব্যাখ্যা করবেন? ব্যান্ডউইথ পরামিতিগুলির ব্যবহার আরও বিশদে বর্ণনা করে describes
প্লেইন ইংরেজিতে এই বলছে, আপনি কি এখানে অনুমান পর্যবেক্ষিত পয়েন্ট যে xi শুধু একটি নমুনা এবং অনুসরণ কিছু বন্টন f আনুমানিক করা হবে। যেহেতু বিতরণটি অবিচ্ছিন্ন, আমরা ধরে নিই যে xi পয়েন্টগুলির নিকটবর্তী প্রতিবেশের আশেপাশে কিছু অজানা তবে ননজারো ঘনত্ব রয়েছে (পাড়াটি প্যারামিটার h দ্বারা সংজ্ঞায়িত করা হয়েছে ) এবং আমরা এটির জন্য অ্যাকাউন্টে কার্নেল K ব্যবহার করি। আরো পয়েন্ট কিছু আশেপাশে, আরো ঘনত্ব এই অঞ্চলের প্রায় সঞ্চিত এবং হয় তাই হয়, উচ্চতর সামগ্রিক ঘনত্ব fh^ । ফলাফল ফাংশন fh^ এখন যে কোনও জন্য মূল্যায়ন করা যেতে পারেএর জন্য ঘনত্বের প্রাক্কলনটি পেতে x (সাবস্ক্রিপ্ট ছাড়াই), আমরা এভাবেই ফাংশন fh^(x) যা অজানা ঘনত্ব ফাংশন প্রতীকf(x) ।
কার্নেল ঘনত্ব সম্পর্কে দুর্দান্ত জিনিস হিস্টোগ্রামগুলির মতো নয়, তারা ক্রমাগত ফাংশন এবং তারা বৈধ সম্ভাবনা ঘনত্বের মিশ্রণ হওয়ায় তারা নিজেরাই বৈধ সম্ভাবনা ঘনত্ব। অনেক ক্ষেত্রে এটি প্রায় কাছাকাছি হিসাবে আপনি f কাছাকাছি পেতে পারেন ।
কার্নেলের ঘনত্ব এবং অন্যান্য ঘনত্বের মধ্যে পার্থক্য, সাধারণ বিতরণ হিসাবে, "স্বাভাবিক" ঘনত্বগুলি গাণিতিক ফাংশন, যখন কার্নেল ঘনত্ব আপনার ডেটা ব্যবহার করে অনুমান করা সত্য ঘনত্বের একটি অনুমিতিহীন, তাই এগুলি "স্ট্যান্ডেলোন" বিতরণ নয়।
আমি আপনাকে সিলভারম্যান (1986) এবং ওয়ান্ড এবং জোন্স (1995) দ্বারা এই বিষয়ে দুটি ভাল প্রারম্ভিক বই সুপারিশ করব।
সিলভারম্যান, বিডাব্লু (1986)। পরিসংখ্যান এবং ডেটা বিশ্লেষণের জন্য ঘনত্বের অনুমান। সিআরসি / চ্যাপম্যান এবং হল।
ওয়ান্ড, এমপি এবং জোন্স, এমসি (1995)। কার্নেল স্মুথিং। লন্ডন: চ্যাপম্যান অ্যান্ড হল / সিআরসি।