রাসায়নিক ঘনত্বের ডেটাতে প্রায়শই শূন্য থাকে তবে এগুলি শূন্য মানের প্রতিনিধিত্ব করে না : এগুলি এমন কোড যা বিভিন্নভাবে (এবং বিভ্রান্তিকরভাবে) উভয়কেই অদৃশ্যভাবে উপস্থাপন করে (পরিমাপটি উচ্চমানের সম্ভাব্যতার সাথে প্রমাণিত হয় যে বিশ্লেষক উপস্থিত ছিলেন না) এবং "অযোগ্য" মানগুলি (পরিমাপটি বিশ্লেষকটিকে সনাক্ত করেছে তবে একটি নির্ভরযোগ্য সংখ্যাসূচক মান উত্পাদন করতে পারে নি)। আসুন এখানে অস্পষ্টভাবে এই "NDs" কল করুন।
সাধারণত, এনডি এর সাথে সম্পর্কিত একটি সীমা রয়েছে যা "সনাক্তকরণের সীমা," "পরিমাণ নির্ধারণের সীমা," বা (আরও সত্যই) একটি "রিপোর্টিং সীমা" হিসাবে পরিচিত, কারণ পরীক্ষাগার একটি সংখ্যার মান সরবরাহ না করার জন্য পছন্দ করে (প্রায়শই আইনী হিসাবে কারণ)। আমরা একটি এনডি সম্পর্কে সত্যই যা জানি, সেগুলি সম্পর্কে সঠিক মানটি সম্ভবত সম্পর্কিত সীমাটির চেয়ে কম: এটি প্রায় (তবে বেশ নয়) বাম সেন্সরিংয়ের একটি ফর্ম almost। (ভাল, এটি সত্যই সত্য নয়: এটি একটি সুবিধাজনক কল্পকাহিনী These এই সীমাগুলি ক্যালিব্রেশনগুলির মাধ্যমে নির্ধারিত হয় যা বেশিরভাগ ক্ষেত্রে ভয়াবহ পরিসংখ্যানগত বৈশিষ্ট্যগুলি থেকে খারাপ poor তারা স্থূল পরিমাণে বা কম-অনুমানযুক্ত হতে পারে when কখন এটি জেনে রাখা গুরুত্বপূর্ণ important আপনি ঘনত্বের উপাত্তগুলির একটি সেট দেখছেন যা মনে হচ্ছে যে লগনিকাল ডান লেজটি এ কেটে গেছে (বলুন) , এবং সমস্ত এনডিগুলির প্রতিনিধিত্ব করে তে একটি "স্পাইক" That চেয়ে সামান্য কম তবে ল্যাব ডেটা আপনাকে বা বা এটির মতো কিছু বলার চেষ্টা করতে পারে ))1.3301.330.50.1
এই জাতীয় ডেটাসেটের সংক্ষিপ্ত বিবরণ এবং মূল্যায়ন কীভাবে সর্বোত্তম concerning ডেনিস হেলসেল এই বিষয়ে একটি বই প্রকাশ করেছিল, ননডেকটেকস অ্যান্ড ডেটা অ্যানালাইসিস (উইলি, ২০০৫), একটি কোর্স পড়ায় এবং R
তার পক্ষে কিছু কৌশল অবলম্বনে একটি প্যাকেজ প্রকাশ করে। তাঁর ওয়েবসাইটটি ব্যাপক।
এই ক্ষেত্রটি ত্রুটি এবং ভুল ধারণা দ্বারা পরিপূর্ণ। হেলসেল এই সম্পর্কে স্পষ্ট: তাঁর বইয়ের প্রথম অধ্যায়ের প্রথম পৃষ্ঠায় তিনি লিখেছেন,
... আজ পরিবেশগত স্টাডিতে সর্বাধিক ব্যবহৃত পদ্ধতি, সনাক্তকরণের সীমা-অর্ধেকের প্রতিস্থাপন, সেন্সর করা ডেটার ব্যাখ্যার পক্ষে যুক্তিসঙ্গত পদ্ধতি নয়।
তো এখন কি করা? বিকল্পগুলির মধ্যে এই ভাল পরামর্শকে উপেক্ষা করা, হেলসেলের বইয়ের কয়েকটি পদ্ধতি প্রয়োগ করা এবং কিছু বিকল্প পদ্ধতি ব্যবহার করা অন্তর্ভুক্ত। এটা ঠিক, বইটি ব্যাপক নয় এবং বৈধ বিকল্পের উপস্থিতি নেই। ডেটাসেটে সমস্ত মানগুলিতে একটি ধ্রুবক যুক্ত করা (সেগুলি "" শুরু করা) একটি। তবে বিবেচনা করুন:
যোগ করার পদ্ধতি হয় না একটি ভাল জায়গা শুরু করার জন্য, কারণ এই রেসিপি পরিমাপের একক উপর নির্ভর করে। যোগ করার পদ্ধতি ডেসীলিত্র প্রতি মাইক্রোগ্রাম যোগ হিসাবে একই ফলাফল হবে না প্রতি লিটার millimole।111
সমস্ত মান শুরু করার পরে, আপনার এখনও এনডিগুলির সেই সংকলনকে উপস্থাপন করে, ক্ষুদ্রতম মানটিতে স্পাইক থাকবে। আপনার আশা হ'ল এই স্পাইকটি এই পরিমাণে পরিমানযুক্ত তথ্যের সাথে সামঞ্জস্যপূর্ণ যে এর মোট ভর এবং প্রারম্ভিক মানের মধ্যে লগনরমাল বিতরণের ভরগুলির সাথে প্রায় সমান ।0
প্রারম্ভিক মানটি নির্ধারণের জন্য একটি দুর্দান্ত সরঞ্জাম হ'ল লগনরমাল সম্ভাব্যতা প্লট: এনডিগুলি বাদে ডেটা প্রায় লিনিয়ার হওয়া উচিত।
এনডিগুলির সংগ্রহকে তথাকথিত "ডেল্টা লগনারাল" বিতরণ দিয়েও বর্ণনা করা যায়। এটি একটি পয়েন্ট ভর এবং লগনারমালের মিশ্রণ।
সিমুলেটেড মানগুলির নিম্নলিখিত হিস্টোগ্রামগুলিতে যেমন স্পষ্ট হয়, সেন্সরযুক্ত এবং ডেল্টা বিতরণগুলি এক নয়। রিগ্রেশনটিতে ব্যাখ্যামূলক পরিবর্তনশীলগুলির জন্য ডেল্টা পদ্ধতির সবচেয়ে কার্যকর: আপনি এনডিগুলিকে নির্দেশ করতে একটি "ডামি" ভেরিয়েবল তৈরি করতে পারেন, সনাক্ত করা মানগুলির লগারিদম নিতে পারেন (বা অন্যথায় প্রয়োজনীয় হিসাবে তাদের রূপান্তর করতে পারেন), এবং এনডিগুলির প্রতিস্থাপনের মানগুলি নিয়ে চিন্তা করবেন না ।
এই হিস্টোগ্রামগুলিতে, প্রায় 20% সর্বনিম্ন মানগুলি শূন্য দ্বারা প্রতিস্থাপিত হয়েছে। তুলনীয়তার জন্য, এগুলি সমস্ত একই 1000 সিমুলেটেড অন্তর্নিহিত লগনারমাল মানগুলির (উপরের বাম) ভিত্তিতে। ডেল্টা বিতরণটি এলোমেলোভাবে শূন্য দ্বারা 200 টি মানকে প্রতিস্থাপন করে তৈরি করা হয়েছিল । সেন্সরযুক্ত বিতরণটি 200 শূন্যতম মানগুলি শূন্য দ্বারা প্রতিস্থাপন করে তৈরি করা হয়েছিল । "বাস্তববাদী" বিতরণটি আমার অভিজ্ঞতার সাথে সঙ্গতিপূর্ণ, যা হ'ল রিপোর্টিং সীমাটি বাস্তবে পরিবর্তিত হয় (এমনকি এটি পরীক্ষাগার দ্বারা নির্দেশিত না হলেও!): আমি এগুলি এলোমেলোভাবে পরিবর্তিত করেছিলাম (কিছুটা হলেও, বিরল বিরল মধ্যে 30 এরও বেশি উভয় দিকনির্দেশ) এবং সমস্ত নকল মানগুলি শূন্য দ্বারা প্রতিবেদনের সীমাগুলির চেয়ে কম প্রতিস্থাপিত করে।
সম্ভাব্যতা প্লটের ইউটিলিটি প্রদর্শন করতে এবং এর ব্যাখ্যাটি ব্যাখ্যা করার জন্য , পরবর্তী চিত্রটি পূর্ববর্তী তথ্যের লগারিদমের সাথে সম্পর্কিত সাধারণ সম্ভাবনার প্লটগুলি প্রদর্শন করে।
উপরের বাম সমস্ত ডেটা দেখায় (কোনও সেন্সরিং বা প্রতিস্থাপনের আগে)। এটি আদর্শ তির্যক রেখার সাথে ভাল ফিট (আমরা চরম লেজগুলিতে কিছু বিচলন আশা করি)। পরবর্তী সমস্ত প্লটগুলিতে আমরা এটি অর্জন করার লক্ষ্য নিয়ে যাচ্ছি (তবে, এনডিগুলির কারণে আমরা অনিবার্যভাবে এই আদর্শের কমই পড়ব।) উপরের ডানটি সেন্সর করা ডেটাসেটের সম্ভাব্যতা প্লট, এটির প্রথম মানটি ব্যবহার করে। এটি একটি ভয়ানক ফিট, কারণ সমস্ত এনডি (০ তে প্লট করা হয়েছে, কারণlog(1+0)=0) অনেক কম পরিকল্পনা করা হয়। নীচের বামটি হল 120 এর প্রারম্ভিক মান সহ সেন্সর করা ডেটাসেটের সম্ভাব্যতা প্লট, যা সাধারণ প্রতিবেদনের সীমাটির কাছাকাছি। নীচের বাম দিকের ফিটটি এখন শালীন - আমরা কেবল আশা করি যে এই সমস্ত মানগুলি কোথাও কোথাও আসবে তবে লাগানো রেখার ডানদিকে - তবে উপরের লেজের বক্ররেখাটি দেখায় যে 120 যোগ করা পরিবর্তন করতে শুরু করেছে বিতরণ আকার। নীচের ডানদিকে ডেল্টা-লগনারাল ডেটাতে কী ঘটে তা দেখায়: উপরের লেজের সাথে খুব ভাল ফিট রয়েছে তবে কিছু প্রতিবেদনের সীমা (প্লটের মাঝখানে) এর কাছাকাছি উচ্চারিত বক্ররেখা।
পরিশেষে, আসুন আরও কিছু বাস্তব পরিস্থিতি অনুসন্ধান করুন:
উপরের বামে জিরোগুলি প্রতিবেদনের সীমাতে অর্ধেক সেট করে সেন্সর করা ডেটাসেট দেখায়। এটি বেশ ভাল ফিট। উপরের ডানদিকে আরও বাস্তববাদী ডেটাসেট রয়েছে (এলোমেলোভাবে প্রতিবেদনের সীমাবদ্ধতার সাথে)। 1 এর শুরুর মানটি কোনও সাহায্য করে না, তবে - নীচে বাম দিকে - 120 এর শুরুর মূল্যের জন্য (প্রতিবেদনের সীমাটির উপরের সীমার কাছে) ফিট বেশ ভাল। মজার বিষয় হল, পয়েন্টগুলি এনডি থেকে মাপदार মানগুলিতে উত্থিত হওয়ায় মাঝের কাছাকাছি বক্রতাটি ব - দ্বীপ লগনারমাল বিতরণের (যেমন এই ডেটা এই জাতীয় মিশ্রণ থেকে উত্পন্ন হয়নি) স্মরণ করিয়ে দেয় । নীচের ডানদিকে সম্ভাব্যতা প্লট আপনি পাবেন যখন বাস্তববাদী ডেটা তাদের এনডি প্রতিস্থাপনের সীমা-অর্ধেক দ্বারা প্রতিস্থাপিত করে। এটি সেরা ফিট, যদিও এটি মাঝখানে কিছু ব-দ্বীপ-লগনারাল-জাতীয় আচরণ দেখায়।
আপনার অবশ্যই যা করা উচিত তা হ'ল এনডিগুলির জায়গায় বিভিন্ন ধ্রুবক ব্যবহার করা হওয়ায় বিতরণগুলি অন্বেষণ করার জন্য সম্ভাব্যতা প্লট ব্যবহার করা। নামমাত্র, গড়, প্রতিবেদনের সীমাটির অর্ধেক দিয়ে অনুসন্ধান শুরু করুন , তারপরে সেখান থেকে এটিকে উপরে এবং নীচে আলাদা করুন। নীচের ডানদিকের মতো দেখতে এমন একটি প্লট চয়ন করুন: পরিমাণযুক্ত মানের জন্য মোটামুটি একটি তির্যক সরল রেখা, একটি নিম্ন মালভূমিতে দ্রুত ড্রপ-অফ এবং মানগুলির একটি মালভূমি যা (কেবল সবে) তির্যকটির প্রসারকে পূরণ করে। তবে, হেলসের পরামর্শ (যা সাহিত্যে দৃ strongly়ভাবে সমর্থনযোগ্য) অনুসরণ করে, প্রকৃত পরিসংখ্যান সংক্ষিপ্তসারগুলির জন্য, কোনও ধ্রুবক দ্বারা এনডিদের প্রতিস্থাপনকারী কোনও পদ্ধতি এড়িয়ে চলুন। রিগ্রেশনের জন্য, এনডিগুলিকে নির্দেশ করার জন্য একটি ডামি ভেরিয়েবল যুক্ত করার বিষয়টি বিবেচনা করুন। কিছু গ্রাফিকাল ডিসপ্লের জন্য, সম্ভাব্যতা প্লট অনুশীলনের সাথে পাওয়া মান অনুসারে এনডিগুলির ধ্রুবক প্রতিস্থাপন ভালভাবে কাজ করবে। অন্যান্য গ্রাফিকাল ডিসপ্লেগুলির জন্য প্রকৃত প্রতিবেদন সীমা চিত্রিত করা গুরুত্বপূর্ণ হতে পারে, সুতরাং পরিবর্তে এনডিগুলিকে তাদের প্রতিবেদনের সীমা দ্বারা প্রতিস্থাপন করুন। আপনার নমনীয় হওয়া দরকার!