শূন্যের লগ না এড়াতে কত পরিমাণে একটি পরিমাণ যুক্ত করা উচিত?


57

আমার ডেটা যেমন আছে তেমন বিশ্লেষণ করেছি। এখন আমি সমস্ত ভেরিয়েবলের লগ নেওয়ার পরে আমার বিশ্লেষণগুলি দেখতে চাই। অনেকগুলি ভেরিয়েবলে অনেকগুলি শূন্য থাকে। সুতরাং আমি শূন্য লগ গ্রহণ এড়াতে একটি স্বল্প পরিমাণ যুক্ত।

এখন পর্যন্ত আমি 10 ^ -10 যুক্ত করেছি, সত্যই কোনও যুক্তি ছাড়াই, কারণ আমার মনে হয়েছে যে খুব অল্প পরিমাণ যুক্ত করা আমার নির্বিচারে নির্বাচিত পরিমাণের প্রভাবকে হ্রাস করার পরামর্শ দেওয়া হবে। তবে কিছু ভেরিয়েবলের বেশিরভাগই জিরো থাকে এবং তাই বেশিরভাগ লগ -23.02 এ থাকাকালীন। আমার ভেরিয়েবলগুলির ব্যাপ্তিগুলির পরিসীমা 1.33-8819.21 এবং শূন্যগুলির ফ্রিকোয়েন্সিও নাটকীয়ভাবে পরিবর্তিত হয়। সুতরাং আমার "স্বল্প পরিমাণ" এর ব্যক্তিগত পছন্দটি ভেরিয়েবলগুলিকে খুব আলাদাভাবে প্রভাবিত করে। এটি এখন স্পষ্ট যে 10 ^ -10 একটি সম্পূর্ণ অগ্রহণযোগ্য পছন্দ, কারণ সমস্ত ভেরিয়েবলের বেশিরভাগ ভেরিয়েশন তখন এই স্বেচ্ছাসেবী "স্বল্প পরিমাণ" থেকে আসে।

আমি ভাবছি যে এটি করার আরও সঠিক উপায় কি হবে।

প্রতিটি ভেরিয়েবলের পৃথক বিতরণ থেকে পরিমাণটি নেওয়া আরও ভাল? এই "ছোট পরিমাণ" কত বড় হওয়া উচিত সে সম্পর্কে কোনও গাইডলাইন রয়েছে?

আমার বিশ্লেষণগুলি আইভি হিসাবে প্রতিটি পরিবর্তনশীল এবং বয়স / লিঙ্গ সহ বেশিরভাগ সহজ কক্স মডেল। পরিবর্তনশীল হ'ল বিভিন্ন রক্তের লিপিডগুলির ঘনত্ব, প্রায়শই বিভিন্ন প্রকরণের যথেষ্ট সহগ রয়েছে।

সম্পাদনা করুন : ভেরিয়েবলের ক্ষুদ্রতম অ-শূন্য মান যুক্ত করা আমার ডেটার জন্য ব্যবহারিক বলে মনে হয়। তবে হয়ত কোন সাধারণ সমাধান আছে?

সম্পাদনা 2 : যেহেতু শূন্যগুলি সনাক্তকরণের সীমা নীচে কেবল ঘনত্বকে নির্দেশ করে, সম্ভবত তাদের (সনাক্তকরণের সীমা) / 2 এ সেট করা উপযুক্ত হবে?


4
আপনি কেন পর্যবেক্ষণ / ভেরিয়েবলের নিচ্ছেন ? log

2
আপনি যদি আপনার ভেরিয়েবলগুলিতে যোগ করেন , তবে অরগিনাল স্কেলের যে ভেরিয়েবলগুলি শূন্য ছিল তা লগ স্কেলের শূন্য হবে। 1
MånsT

5
প্রতিক্রিয়া পরিবর্তনশীল বা কেবল ব্যাখ্যামূলক ভেরিয়েবলগুলি নিয়ে আপনার কী এই সমস্যা আছে? যদি কেবলমাত্র পরে, তবে নমুনা আকার বিবেচনার উপর নির্ভর করে একটি বিকল্প হ'ল একটি নির্দিষ্ট বিশ্লেষকের ঘনত্ব চিহ্নিতকরণের অতিরিক্ত ডামি ভেরিয়েবলগুলি যুক্ত করা সনাক্তকরণের দোরের নিচে ছিল। এটি স্বাধীনতার ডিগ্রি জাগিয়ে তোলে, তবে ডেটাগুলিতে একটি স্বেচ্ছাসেবক বিজ্ঞাপন চাপ না দেওয়ার সুবিধা রয়েছে। এটি সনাক্তকরণের দোরের কাছাকাছি অরৈঙ্গিকতা বা বিচ্ছিন্নতাগুলিও উন্মোচন করতে পারে যা অন্যথায় দায়ী হতে পারে।
কার্ডিনাল

2
ভারসাম্য রক্ষার জন্য লগ স্কেল প্রাকৃতিক কারণ ভারসাম্যহীন ধ্রুবক এবং গিবস শক্তির মধ্যে ঘনিষ্ঠ সম্পর্ক; প্রকৃতপক্ষে "অবিচ্ছিন্ন" রসায়নে 0 ঘনত্ব কিছুটা অবাস্তব।

2
একটি বিকল্প হিসাবে ডেটা কিউব রুট গ্রহণ করা হবে - লগ আপনি সমস্ত উপায় পেতে না, কিন্তু জিরো ডাব্লু / ও পুনরুদ্ধার সংরক্ষণ করে।
jboman

উত্তর:


26

যেহেতু শূন্যগুলি সনাক্তকরণের সীমাটির নিচে কেবল ঘনত্বকে নির্দেশ করে, সম্ভবত তাদের (সনাক্তকরণের সীমা) / 2 এ সেট করা উপযুক্ত হবে

আমি কেবল টাইপ করছিলাম যে জিনিসটি আমার মনে আসে যেখানে লগ (ঘন ঘন) বোঝায় এবং 0 ঘটতে পারে আপনি ঘনত্ব হ'ল যখন আপনি ২ য় সম্পাদনা করেছেন। আপনি যেমনটি বলেছেন, পরিমাপের ঘনত্বের জন্য 0 এর অর্থ কেবল "আমি সেই কম ঘনত্বকে পরিমাপ করতে পারিনি"।

পার্শ্ব নোট: আপনি কি LOD এর পরিবর্তে LOQ বলতে চান?

0 থেকে rac LOQ নির্ধারণ করা ভাল ধারণা বা না নির্ভর করে:12

  • দৃষ্টিকোণ থেকে যে আপনার "অনুমান" প্রকাশ করে যে গ 0 এবং LOQ এর মধ্যে যে কোনও জায়গায় থাকে, এটি বোঝা যায় না। তবে সংশ্লিষ্ট ক্যালিগ্রেশন ফাংশনটি বিবেচনা করুন: বামদিকে, ক্রমাঙ্কন ফাংশনটি LOQ এর নীচে c = 0 দেয় 0 ডানদিকে, 0 এর পরিবর্তে ব্যবহৃত হয়।12LOQ

    এখানে চিত্র বর্ণনা লিখুনএখানে চিত্র বর্ণনা লিখুন
    12LOQ

  • তবে, যদি মূল পরিমাপ করা মানটি পাওয়া যায় তবে এটি আরও ভাল অনুমান সরবরাহ করতে পারে। সর্বোপরি, LOQ এর সাধারণ অর্থ কেবল আপেক্ষিক ত্রুটি 10%। এর নীচে পরিমাপটি এখনও তথ্য বহন করে, তবে আপেক্ষিক ত্রুটি বিশাল হয়ে যায়।
    এখানে চিত্র বর্ণনা লিখুন
    (নীল: LOD, লাল: LOQ)

  • বিকল্প হিসাবে এই পরিমাপগুলি বাদ দেওয়া হবে। এটি যুক্তিসঙ্গত হতে পারে,
    উদাহরণস্বরূপ একটি ক্রমাঙ্কন বক্ররেখার কথা ভাবেন। অনুশীলনে আপনি প্রায়শই একটি সিগময়েড আকৃতি পর্যবেক্ষণ করেন: কম সি, সিগন্যাল ≈ ধ্রুবক, মধ্যবর্তী লিনিয়ার আচরণের জন্য, তারপরে সনাক্তকারী স্যাচুরেশন। এখানে চিত্র বর্ণনা লিখুন
    সেই পরিস্থিতিতে আপনি নিজেরাই ঘনত্ব সম্পর্কে বিবৃতিতে সীমাবদ্ধ রাখতে চাইতে পারেন যা সুস্পষ্টরূপে রৈখিক সীমার মধ্যে রয়েছে যেমন নীচে এবং উপরে অন্য প্রক্রিয়া উভয়ই ফলাফলকে প্রভাবিত করে।
    নিশ্চিত হয়ে নিন যে আপনি ব্যাখ্যা করেছেন যে ডেটাটি সেভাবে এবং কেন নির্বাচিত হয়েছিল।


সম্পাদনা: বুদ্ধিমান বা গ্রহণযোগ্য কী, তা অবশ্যই সমস্যার উপর নির্ভর করে। আশা করি, আমরা এখানে ডেটাগুলির একটি ছোট্ট অংশ সম্পর্কে কথা বলছি যা বিশ্লেষককে প্রভাবিত করে না।

সম্ভবত একটি দ্রুত এবং নোংরা চেকটি হ'ল: ডেটা (এবং আপনি যে কোনও চিকিত্সার প্রস্তাব দিই না) বাদ দিয়ে এবং আপনার ডেটা বিশ্লেষণ চালান এবং দেখুন যে কোনও কিছু উল্লেখযোগ্যভাবে পরিবর্তিত হয়েছে কিনা।

যদি আপনি পরিবর্তনগুলি দেখেন তবে অবশ্যই আপনি সমস্যায় পড়েছেন। তবে, বিশ্লেষণাত্মক রসায়ন দৃষ্টিকোণ থেকে, আমি বলব যে আপনার সমস্যাটি মূলত ডেটা মোকাবেলা করার জন্য কোন পদ্ধতিতে ব্যবহৃত হয় তা বোঝায় না, তবে অন্তর্নিহিত সমস্যাটি হ'ল বিশ্লেষণ পদ্ধতিটি (বা এর কার্যক্ষেত্রের জন্য) উপযুক্ত ছিল না হাতে সমস্যা। অবশ্যই এমন একটি অঞ্চল আছে যেখানে আরও পরিসংখ্যানগত পদ্ধতির আপনার দিনটি বাঁচাতে পারে তবে শেষ পর্যন্ত "আবর্জনা আবর্জনা, আবর্জনা বাইরে" প্রায় আরও অভিনব পদ্ধতিগুলির জন্য প্রায় থাকে holds

বিষয়টির জন্য উদ্ধৃতিগুলি:

  • একজন পরিসংখ্যানবিদ একবার আমাকে বলেছিলেন:

    আপনার (কেমিস্ট / স্পেকট্রোস্কোপিস্ট) সমস্যাটি হ'ল আপনার সমস্যাগুলি এতই শক্ত যে সেগুলি সমাধান করা যায় না বা এত সহজে হয় যে সেগুলি সমাধানে কোনও মজা নেই।

  • পরীক্ষাগুলির পরিসংখ্যান ময়না সম্পর্কে ফিশার


1
আমি নীচে উদ্ধৃতিটি পছন্দ (+1)।
মনিকা

32

রাসায়নিক ঘনত্বের ডেটাতে প্রায়শই শূন্য থাকে তবে এগুলি শূন্য মানের প্রতিনিধিত্ব করে না : এগুলি এমন কোড যা বিভিন্নভাবে (এবং বিভ্রান্তিকরভাবে) উভয়কেই অদৃশ্যভাবে উপস্থাপন করে (পরিমাপটি উচ্চমানের সম্ভাব্যতার সাথে প্রমাণিত হয় যে বিশ্লেষক উপস্থিত ছিলেন না) এবং "অযোগ্য" মানগুলি (পরিমাপটি বিশ্লেষকটিকে সনাক্ত করেছে তবে একটি নির্ভরযোগ্য সংখ্যাসূচক মান উত্পাদন করতে পারে নি)। আসুন এখানে অস্পষ্টভাবে এই "NDs" কল করুন।

সাধারণত, এনডি এর সাথে সম্পর্কিত একটি সীমা রয়েছে যা "সনাক্তকরণের সীমা," "পরিমাণ নির্ধারণের সীমা," বা (আরও সত্যই) একটি "রিপোর্টিং সীমা" হিসাবে পরিচিত, কারণ পরীক্ষাগার একটি সংখ্যার মান সরবরাহ না করার জন্য পছন্দ করে (প্রায়শই আইনী হিসাবে কারণ)। আমরা একটি এনডি সম্পর্কে সত্যই যা জানি, সেগুলি সম্পর্কে সঠিক মানটি সম্ভবত সম্পর্কিত সীমাটির চেয়ে কম: এটি প্রায় (তবে বেশ নয়) বাম সেন্সরিংয়ের একটি ফর্ম almost। (ভাল, এটি সত্যই সত্য নয়: এটি একটি সুবিধাজনক কল্পকাহিনী These এই সীমাগুলি ক্যালিব্রেশনগুলির মাধ্যমে নির্ধারিত হয় যা বেশিরভাগ ক্ষেত্রে ভয়াবহ পরিসংখ্যানগত বৈশিষ্ট্যগুলি থেকে খারাপ poor তারা স্থূল পরিমাণে বা কম-অনুমানযুক্ত হতে পারে when কখন এটি জেনে রাখা গুরুত্বপূর্ণ important আপনি ঘনত্বের উপাত্তগুলির একটি সেট দেখছেন যা মনে হচ্ছে যে লগনিকাল ডান লেজটি এ কেটে গেছে (বলুন) , এবং সমস্ত এনডিগুলির প্রতিনিধিত্ব করে তে একটি "স্পাইক" That চেয়ে সামান্য কম তবে ল্যাব ডেটা আপনাকে বা বা এটির মতো কিছু বলার চেষ্টা করতে পারে ))1.3301.330.50.1

এই জাতীয় ডেটাসেটের সংক্ষিপ্ত বিবরণ এবং মূল্যায়ন কীভাবে সর্বোত্তম concerning ডেনিস হেলসেল এই বিষয়ে একটি বই প্রকাশ করেছিল, ননডেকটেকস অ্যান্ড ডেটা অ্যানালাইসিস (উইলি, ২০০৫), একটি কোর্স পড়ায় এবং Rতার পক্ষে কিছু কৌশল অবলম্বনে একটি প্যাকেজ প্রকাশ করে। তাঁর ওয়েবসাইটটি ব্যাপক।

এই ক্ষেত্রটি ত্রুটি এবং ভুল ধারণা দ্বারা পরিপূর্ণ। হেলসেল এই সম্পর্কে স্পষ্ট: তাঁর বইয়ের প্রথম অধ্যায়ের প্রথম পৃষ্ঠায় তিনি লিখেছেন,

... আজ পরিবেশগত স্টাডিতে সর্বাধিক ব্যবহৃত পদ্ধতি, সনাক্তকরণের সীমা-অর্ধেকের প্রতিস্থাপন, সেন্সর করা ডেটার ব্যাখ্যার পক্ষে যুক্তিসঙ্গত পদ্ধতি নয়।

তো এখন কি করা? বিকল্পগুলির মধ্যে এই ভাল পরামর্শকে উপেক্ষা করা, হেলসেলের বইয়ের কয়েকটি পদ্ধতি প্রয়োগ করা এবং কিছু বিকল্প পদ্ধতি ব্যবহার করা অন্তর্ভুক্ত। এটা ঠিক, বইটি ব্যাপক নয় এবং বৈধ বিকল্পের উপস্থিতি নেই। ডেটাসেটে সমস্ত মানগুলিতে একটি ধ্রুবক যুক্ত করা (সেগুলি "" শুরু করা) একটি। তবে বিবেচনা করুন:

  • যোগ করার পদ্ধতি হয় না একটি ভাল জায়গা শুরু করার জন্য, কারণ এই রেসিপি পরিমাপের একক উপর নির্ভর করে। যোগ করার পদ্ধতি ডেসীলিত্র প্রতি মাইক্রোগ্রাম যোগ হিসাবে একই ফলাফল হবে না প্রতি লিটার millimole।111

  • সমস্ত মান শুরু করার পরে, আপনার এখনও এনডিগুলির সেই সংকলনকে উপস্থাপন করে, ক্ষুদ্রতম মানটিতে স্পাইক থাকবে। আপনার আশা হ'ল এই স্পাইকটি এই পরিমাণে পরিমানযুক্ত তথ্যের সাথে সামঞ্জস্যপূর্ণ যে এর মোট ভর এবং প্রারম্ভিক মানের মধ্যে লগনরমাল বিতরণের ভরগুলির সাথে প্রায় সমান ।0

    প্রারম্ভিক মানটি নির্ধারণের জন্য একটি দুর্দান্ত সরঞ্জাম হ'ল লগনরমাল সম্ভাব্যতা প্লট: এনডিগুলি বাদে ডেটা প্রায় লিনিয়ার হওয়া উচিত।

  • এনডিগুলির সংগ্রহকে তথাকথিত "ডেল্টা লগনারাল" বিতরণ দিয়েও বর্ণনা করা যায়। এটি একটি পয়েন্ট ভর এবং লগনারমালের মিশ্রণ।

সিমুলেটেড মানগুলির নিম্নলিখিত হিস্টোগ্রামগুলিতে যেমন স্পষ্ট হয়, সেন্সরযুক্ত এবং ডেল্টা বিতরণগুলি এক নয়। রিগ্রেশনটিতে ব্যাখ্যামূলক পরিবর্তনশীলগুলির জন্য ডেল্টা পদ্ধতির সবচেয়ে কার্যকর: আপনি এনডিগুলিকে নির্দেশ করতে একটি "ডামি" ভেরিয়েবল তৈরি করতে পারেন, সনাক্ত করা মানগুলির লগারিদম নিতে পারেন (বা অন্যথায় প্রয়োজনীয় হিসাবে তাদের রূপান্তর করতে পারেন), এবং এনডিগুলির প্রতিস্থাপনের মানগুলি নিয়ে চিন্তা করবেন না ।

Histograms

এই হিস্টোগ্রামগুলিতে, প্রায় 20% সর্বনিম্ন মানগুলি শূন্য দ্বারা প্রতিস্থাপিত হয়েছে। তুলনীয়তার জন্য, এগুলি সমস্ত একই 1000 সিমুলেটেড অন্তর্নিহিত লগনারমাল মানগুলির (উপরের বাম) ভিত্তিতে। ডেল্টা বিতরণটি এলোমেলোভাবে শূন্য দ্বারা 200 টি মানকে প্রতিস্থাপন করে তৈরি করা হয়েছিল । সেন্সরযুক্ত বিতরণটি 200 শূন্যতম মানগুলি শূন্য দ্বারা প্রতিস্থাপন করে তৈরি করা হয়েছিল । "বাস্তববাদী" বিতরণটি আমার অভিজ্ঞতার সাথে সঙ্গতিপূর্ণ, যা হ'ল রিপোর্টিং সীমাটি বাস্তবে পরিবর্তিত হয় (এমনকি এটি পরীক্ষাগার দ্বারা নির্দেশিত না হলেও!): আমি এগুলি এলোমেলোভাবে পরিবর্তিত করেছিলাম (কিছুটা হলেও, বিরল বিরল মধ্যে 30 এরও বেশি উভয় দিকনির্দেশ) এবং সমস্ত নকল মানগুলি শূন্য দ্বারা প্রতিবেদনের সীমাগুলির চেয়ে কম প্রতিস্থাপিত করে।

সম্ভাব্যতা প্লটের ইউটিলিটি প্রদর্শন করতে এবং এর ব্যাখ্যাটি ব্যাখ্যা করার জন্য , পরবর্তী চিত্রটি পূর্ববর্তী তথ্যের লগারিদমের সাথে সম্পর্কিত সাধারণ সম্ভাবনার প্লটগুলি প্রদর্শন করে।

সম্ভাবনা প্লট

উপরের বাম সমস্ত ডেটা দেখায় (কোনও সেন্সরিং বা প্রতিস্থাপনের আগে)। এটি আদর্শ তির্যক রেখার সাথে ভাল ফিট (আমরা চরম লেজগুলিতে কিছু বিচলন আশা করি)। পরবর্তী সমস্ত প্লটগুলিতে আমরা এটি অর্জন করার লক্ষ্য নিয়ে যাচ্ছি (তবে, এনডিগুলির কারণে আমরা অনিবার্যভাবে এই আদর্শের কমই পড়ব।) উপরের ডানটি সেন্সর করা ডেটাসেটের সম্ভাব্যতা প্লট, এটির প্রথম মানটি ব্যবহার করে। এটি একটি ভয়ানক ফিট, কারণ সমস্ত এনডি (০ তে প্লট করা হয়েছে, কারণlog(1+0)=0) অনেক কম পরিকল্পনা করা হয়। নীচের বামটি হল 120 ​​এর প্রারম্ভিক মান সহ সেন্সর করা ডেটাসেটের সম্ভাব্যতা প্লট, যা সাধারণ প্রতিবেদনের সীমাটির কাছাকাছি। নীচের বাম দিকের ফিটটি এখন শালীন - আমরা কেবল আশা করি যে এই সমস্ত মানগুলি কোথাও কোথাও আসবে তবে লাগানো রেখার ডানদিকে - তবে উপরের লেজের বক্ররেখাটি দেখায় যে 120 যোগ করা পরিবর্তন করতে শুরু করেছে বিতরণ আকার। নীচের ডানদিকে ডেল্টা-লগনারাল ডেটাতে কী ঘটে তা দেখায়: উপরের লেজের সাথে খুব ভাল ফিট রয়েছে তবে কিছু প্রতিবেদনের সীমা (প্লটের মাঝখানে) এর কাছাকাছি উচ্চারিত বক্ররেখা।

পরিশেষে, আসুন আরও কিছু বাস্তব পরিস্থিতি অনুসন্ধান করুন:

সম্ভাবনা প্লট 2

উপরের বামে জিরোগুলি প্রতিবেদনের সীমাতে অর্ধেক সেট করে সেন্সর করা ডেটাসেট দেখায়। এটি বেশ ভাল ফিট। উপরের ডানদিকে আরও বাস্তববাদী ডেটাসেট রয়েছে (এলোমেলোভাবে প্রতিবেদনের সীমাবদ্ধতার সাথে)। 1 এর শুরুর মানটি কোনও সাহায্য করে না, তবে - নীচে বাম দিকে - 120 এর শুরুর মূল্যের জন্য (প্রতিবেদনের সীমাটির উপরের সীমার কাছে) ফিট বেশ ভাল। মজার বিষয় হল, পয়েন্টগুলি এনডি থেকে মাপदार মানগুলিতে উত্থিত হওয়ায় মাঝের কাছাকাছি বক্রতাটি - দ্বীপ লগনারমাল বিতরণের (যেমন এই ডেটা এই জাতীয় মিশ্রণ থেকে উত্পন্ন হয়নি) স্মরণ করিয়ে দেয় । নীচের ডানদিকে সম্ভাব্যতা প্লট আপনি পাবেন যখন বাস্তববাদী ডেটা তাদের এনডি প্রতিস্থাপনের সীমা-অর্ধেক দ্বারা প্রতিস্থাপিত করে। এটি সেরা ফিট, যদিও এটি মাঝখানে কিছু ব-দ্বীপ-লগনারাল-জাতীয় আচরণ দেখায়।

আপনার অবশ্যই যা করা উচিত তা হ'ল এনডিগুলির জায়গায় বিভিন্ন ধ্রুবক ব্যবহার করা হওয়ায় বিতরণগুলি অন্বেষণ করার জন্য সম্ভাব্যতা প্লট ব্যবহার করা। নামমাত্র, গড়, প্রতিবেদনের সীমাটির অর্ধেক দিয়ে অনুসন্ধান শুরু করুন , তারপরে সেখান থেকে এটিকে উপরে এবং নীচে আলাদা করুন। নীচের ডানদিকের মতো দেখতে এমন একটি প্লট চয়ন করুন: পরিমাণযুক্ত মানের জন্য মোটামুটি একটি তির্যক সরল রেখা, একটি নিম্ন মালভূমিতে দ্রুত ড্রপ-অফ এবং মানগুলির একটি মালভূমি যা (কেবল সবে) তির্যকটির প্রসারকে পূরণ করে। তবে, হেলসের পরামর্শ (যা সাহিত্যে দৃ strongly়ভাবে সমর্থনযোগ্য) অনুসরণ করে, প্রকৃত পরিসংখ্যান সংক্ষিপ্তসারগুলির জন্য, কোনও ধ্রুবক দ্বারা এনডিদের প্রতিস্থাপনকারী কোনও পদ্ধতি এড়িয়ে চলুন। রিগ্রেশনের জন্য, এনডিগুলিকে নির্দেশ করার জন্য একটি ডামি ভেরিয়েবল যুক্ত করার বিষয়টি বিবেচনা করুন। কিছু গ্রাফিকাল ডিসপ্লের জন্য, সম্ভাব্যতা প্লট অনুশীলনের সাথে পাওয়া মান অনুসারে এনডিগুলির ধ্রুবক প্রতিস্থাপন ভালভাবে কাজ করবে। অন্যান্য গ্রাফিকাল ডিসপ্লেগুলির জন্য প্রকৃত প্রতিবেদন সীমা চিত্রিত করা গুরুত্বপূর্ণ হতে পারে, সুতরাং পরিবর্তে এনডিগুলিকে তাদের প্রতিবেদনের সীমা দ্বারা প্রতিস্থাপন করুন। আপনার নমনীয় হওয়া দরকার!


1
অত্যন্ত সুন্দর উত্তর! আমি পুরোপুরি একমত. আপনি যখন ডেটা দেখেন এবং অনুভূতির সাথে আমি পরিচিত তখন বুঝতে পারি যে এটি "যথারীতি" রূপান্তরিত হওয়ার আগে একটি সঠিক উপকারী ডেটা সেট ছিল ...
15

1
বিবিধ সীমা : উভয়ই এলওড গণনা করার জন্য বিভিন্ন ধরণের পদ্ধতির (সনাক্তকরণের সীমা -> গুণগত উত্তরের জন্য) এবং এলওকিউ (পরিমাণগত পরিমাপের জন্য পরিমাণের সীমা) বিদ্যমান। আমি অনুমান করি যে একটি ল্যাব সাধারণত এগুলি কীভাবে গণনা করা হয় সেই পদ্ধতিটি পরিবর্তন করবে না (একই অ্যানাটিকাল পদ্ধতিতে)। যাইহোক, এই মানগুলি প্রতিবার গণনা শেষ হওয়ার পরে পুনরায় গণনা করা হয়। যদি পদ্ধতিটি প্রতিটি কার্যদিবসের ক্রমাঙ্কণের প্রয়োজন হয়, তবে প্রতিদিন আপনার এক (কিছুটা) আলাদা সীমা থাকবে।
সিবেলাইটস

1
সীমাবদ্ধতা এবং কম নম্বর না দেওয়ার আইনী কারণ : আইনগত কারণে কাঁচা সংকেত, সংশ্লিষ্ট ঘনত্ব এবং আত্মবিশ্বাসের বিরতি / পরিমাপের রায় (যেমন "এলওকিউ এর নীচে") এর মতো আরও অতিরিক্ত শব্দবাচক তথ্য দেওয়া নিষেধ করবে না। এছাড়াও, আপনি ক্রমাঙ্কন বক্ররেখা জন্য বিশ্লেষণ ল্যাব জিজ্ঞাসা করতে পারেন। আমি আশা করছিলাম যে এটি অতিরিক্ত কাজ হিসাবে আপনাকে এর জন্য অর্থ প্রদান করতে হবে, তবে আমি এটি আশা করি আশা করি। সস্তা আপসটি হতে পারে যে তারা আপনাকে সমস্ত কাঁচা ডেটা দেয় এবং ডেটা বিশ্লেষণ আপনার কাছে ছেড়ে দেয়। তারা যদি জানতে পারে যে আপনি পরিসংখ্যানবিদ / কেমোমেট্রিকান / বিশ্লেষণী রসায়নবিদ ... ...
সিবিলেট

1
আমার চাকরিতে আমরা প্রায়শই শূন্যের মুখোমুখি হই কারণ ডেটা গোল হয়। এরকম ক্ষেত্রে এগুলি গোষ্ঠীযুক্ত ডেটা, দেখুন stats.stackexchange.com/questions/26950/…
স্টাফেন লরেন্ট

2
এটি এবং সম্পর্কিত বিষয়গুলির প্রতি নিবেদিত একটি পুরো ক্ষেত্র, "কেমোমেট্রিক্স" রয়েছে এবং পুরো বইগুলি "সনাক্তকরণের সীমা" কী তা সম্পূর্ণরূপে ডিল করে (এবং লেখা অবিরত থাকবে) লেখা হয়েছে। আমি 20 টিরও বেশি স্বতন্ত্র সংজ্ঞার মুখোমুখি হয়েছি! কোনও পরিবর্তনশীল পুনরায় প্রকাশের বিষয়টি (যেমন এটির লগারিদম গ্রহণ করা) ডেটা বিশ্লেষণ এবং ডেটা অনুসন্ধানেও মূল বিষয়; অনেক বইয়ের বড় অংশগুলি (বিশেষত গবেষণামূলক ডেটা বিশ্লেষণ সম্পর্কিত বই) এই ইস্যুকে কেন্দ্র করে।
হোবার

5

@miura

আমি স্টাটা ব্লগে বিল গল্ডের এই নিবন্ধটি জুড়ে এসেছি (আমার ধারণা তিনি আসলে স্টাটা প্রতিষ্ঠা করেছিলেন) যা আপনার বিশ্লেষণে সহায়তা করতে পারে বলে আমি মনে করি। নিবন্ধের শেষের দিকে তিনি শূন্যের কাছাকাছি স্বেচ্ছাসেবী সংখ্যার ব্যবহারের বিরুদ্ধে সতর্ক করেছেন, যেমন 0.01, 0.0001, 0.0000001, এবং 0 লগ হিসাবে সেগুলি -4.61, -9.21, -16.12, এবং ty ইনফটি । এই পরিস্থিতিতে তারা মোটেও স্বেচ্ছাচারী নয়। তিনি পোইসন রিগ্রেশন ব্যবহারের পরামর্শ দিয়েছেন কারণ এটি স্বীকৃত যে উপরের সংখ্যাটি আসলে একসাথে রয়েছে।


3

আপনি এর শূন্য সেট করতে পারেন পরিবর্তনশীল যেখানে যথেষ্ট বড় বাকি থেকে এইসব ক্ষেত্রে পার্থক্য হয় (যেমন, 6 বা 10)।ithmean(xi)n×stddev(xi)n

মনে রাখবেন যে এই জাতীয় কোনও কৃত্রিম সেটআপ আপনার বিশ্লেষণগুলিকে প্রভাবিত করবে সুতরাং আপনার ব্যাখ্যার সাথে আপনার সাবধানতা অবলম্বন করা উচিত এবং কিছু ক্ষেত্রে নিদর্শনগুলি এড়ানোর জন্য এই কেসগুলি বাতিল করুন।

সনাক্তকরণ সীমা ব্যবহার করাও একটি যুক্তিসঙ্গত ধারণা।


3

রিগ্রেশন মডেলগুলিতে শূন্যের লগটি কীভাবে মোকাবেলা করা যায় তা স্পষ্ট করার জন্য, আমরা একটি শিক্ষাগত গবেষণামূলক কাগজ লিখেছি যাতে সর্বোত্তম সমাধান এবং লোকেরা বাস্তবে যে সাধারণ ভুলগুলি করে তা ব্যাখ্যা করে। আমরাও এই সমস্যাটি মোকাবেলায় একটি নতুন সমাধান নিয়ে এসেছি।

আপনি এখানে ক্লিক করে কাগজটি পেতে পারেন: https://ssrn.com/abstract=3444996

প্রথমত, আমরা মনে করি যে লগের রূপান্তরটি কেন ব্যবহার করা উচিত তা নিয়ে ভাবতে হবে। রিগ্রেশন মডেলগুলিতে, লগ-লগ সম্পর্ক একটি স্থিতিস্থাপকতা সনাক্তকরণের দিকে পরিচালিত করে। প্রকৃতপক্ষে, যদি , তারপর এর স্থিতিস্থাপকতা অনুরূপ থেকে । লগ একটি তাত্ত্বিক মডেল লিনিয়ারাইজ করতে পারে। এটি ভিন্ন ভিন্ন কমানোর জন্যও ব্যবহার করা যেতে পারে। যাইহোক, বাস্তবে, এটি প্রায়শই ঘটে থাকে যে লগে নেওয়া পরিবর্তনশীলটিতে অ-ধনাত্মক মান থাকে।log(y)=βlog(x)+εβyx

একটি সমাধান যে প্রস্তাব করা হয়েছে সব পর্যবেক্ষণের একটি ইতিবাচক ধ্রুবক গ যুক্ত করতে গঠিত যাতে । তবে লিনিয়ার রেগ্রেশনগুলির বিপরীতে লগ-লিনিয়ার রেগ্রেশনগুলি নির্ভরশীল ভেরিয়েবলের রৈখিক রূপান্তরের পক্ষে শক্তিশালী নয়। এটি লগ ফাংশনের অ-লিনিয়ার প্রকৃতির কারণে is লগ রূপান্তরটি নিম্ন মানগুলিকে প্রসারিত করে এবং উচ্চতর মানগুলিকে সঙ্কুচিত করে। সুতরাং, ধ্রুবক যুক্ত করা তথ্যগুলিতে শূন্য এবং অন্যান্য পর্যবেক্ষণগুলির মধ্যে (লিনিয়ার) সম্পর্ককে বিকৃত করবে। ধ্রুবক দ্বারা উত্পন্ন পক্ষপাতের মাত্রা আসলে ডেটাতে পর্যবেক্ষণের পরিসরের উপর নির্ভর করে। যে কারণে, সবচেয়ে ছোট সম্ভাব্য ধ্রুবক যুক্ত করা সবচেয়ে ভাল সমাধানের প্রয়োজন হয় না।YY+c>0

আমাদের নিবন্ধে, আমরা আসলে একটি উদাহরণ প্রদান করি যেখানে খুব ছোট ধ্রুবক যুক্ত করা আসলে সর্বোচ্চ পক্ষপাত প্রদান করে। আমরা পক্ষপাতিত্ব একটি অভিব্যক্তি প্রদান।

আসলে, পোইসন সিউডো সর্বাধিক সম্ভাবনা (পিপিএমএল) এই সমস্যাটির একটি ভাল সমাধান হিসাবে বিবেচিত হতে পারে। নিম্নলিখিত প্রক্রিয়াটি বিবেচনা করতে হবে:

yi=aiexp(α+xiβ) সহE(ai|xi)=1

এই প্রক্রিয়াটি বিভিন্ন বৈশিষ্ট্য দ্বারা অনুপ্রাণিত হয়। প্রথমত, এটি একটি অর্ধ-লগ মডেল হিসাবে a একই ব্যাখ্যা সরবরাহ করে । দ্বিতীয়ত, এই ডেটা উত্পন্ন প্রক্রিয়া নির্ভরশীল ভেরিয়েবলের শূন্য মানের একটি যৌক্তিক যুক্তি সরবরাহ করে। গুণমান ত্রুটি শব্দ, , শূন্যের সমান হলে এই পরিস্থিতি দেখা দিতে পারে । তৃতীয়ত, পিপিএমএল দিয়ে এই মডেলটি অনুমান করা যখন তখন কম্পিউটেশনাল অসুবিধে হয় না । ভাবনাটি হলো এই যে অধীনে , আমরা । আমরা এই মুহুর্তের চতুর্ভুজ ত্রুটিটি হ্রাস করতে চাই, নিম্নলিখিত প্রথম-ক্রমের শর্তগুলির দিকে পরিচালিত করে:βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

থাকলেও এই শর্তগুলি সংজ্ঞায়িত করা হয় । এই প্রথম-শৃঙ্খলা শর্তগুলি একটি পোইসন মডেলের সাথে সংখ্যার সমতুল্য, তাই এটি কোনও স্ট্যান্ডার্ডিকাল সফ্টওয়্যার দিয়ে অনুমান করা যায়।yi=0

অবশেষে, আমরা একটি নতুন সমাধান প্রস্তাব করি যা কার্যকর করাও সহজ এবং এটি পক্ষপাতহীন অনুমান সরবরাহ করে । একটি সহজভাবে অনুমান করা প্রয়োজন:β

log(yi+exp(α+xiβ))=xiβ+ηi

আমরা দেখাই যে এই অনুমানকটি পক্ষপাতহীন এবং এটি কোনও মানক পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার সহ জিএমএম সহ সহজেই অনুমান করা যায়। উদাহরণস্বরূপ, এটি স্টাটা সহ কোডের একটি লাইন প্রয়োগ করে অনুমান করা যায়।

আমরা আশা করি যে এই নিবন্ধটি সহায়তা করতে পারে এবং আমরা আপনার কাছ থেকে প্রতিক্রিয়া জানাতে চাই।

ক্রিস্টোফ বেলাগো এবং লুই-ড্যানিয়েল পেপ, ক্রেস্ট - ইকোল পলিটেক্নিক - ইএনএসএই

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.