হাইপোথিসিস টেস্টিং এবং মোট প্রকরণের দূরত্ব বনাম কুলব্যাক-লেবলার ডাইভারজেন্স


10

আমার গবেষণায় আমি নিম্নলিখিত সাধারণ সমস্যাটি নিয়ে চলেছি: একই ডোমেনের উপরে আমার কাছে দুটি এবং কিউ এবং এই বিতরণগুলি থেকে একটি বৃহত (তবে সসীম) সংখ্যার নমুনা রয়েছে। নমুনাগুলি এই দুটি বিতরণের যে কোনও একটি থেকে স্বতন্ত্র এবং অভিন্নভাবে বিতরণ করা হয় (যদিও বিতরণ সম্পর্কিত হতে পারে: উদাহরণস্বরূপ, প্রশ্ন পি এবং কিছু অন্যান্য বিতরণের মিশ্রণ হতে পারে ।) নাল অনুমানটি হ'ল নমুনাগুলি পি থেকে আসে , বিকল্প অনুমানটি হ'ল নমুনা প্রশ্ন থেকে আসা ।পিপ্রশ্নঃপ্রশ্নঃপিপিপ্রশ্নঃ

আমি নমুনা পরীক্ষার ক্ষেত্রে টাইপ 1 এবং টাইপ II ত্রুটিগুলি চিহ্নিত করার চেষ্টা করছি, ডি এবং ডিস্ট্রিবিউশনগুলি এবং কিউ জেনে । বিশেষত, আমি পি এবং কিউ এর জ্ঞান ছাড়াও অন্যকে প্রদত্ত একটি ত্রুটি বেঁধে রাখতে আগ্রহী ।পিপ্রশ্নঃপিপ্রশ্নঃ

আমি গণিত.এসইতে একটি প্রশ্ন জিজ্ঞাসা করেছি পি এবং কিউর মধ্যে পার্থক্যের পরীক্ষার সাথে মোট পরিবর্তনের দূরত্বের সম্পর্ক সম্পর্কে এবং আমি একটি উত্তর পেয়েছি যা আমি স্বীকার করেছি। এই উত্তরটি বোধগম্য হয়, তবে আমার সমস্যার সাথে সম্পর্কিত হিসাবে টোটাল ভেরিয়েশন দূরত্ব এবং হাইপোথিসিস পরীক্ষার সম্পর্কের পিছনে গভীর অর্থের সাথে আমি এখনও আমার মনটি গুটিয়ে রাখতে সক্ষম হইনি। এইভাবে, আমি এই ফোরামে ফিরে যাওয়ার সিদ্ধান্ত নিয়েছি।পিপ্রশ্নঃ

আমার প্রথম প্রশ্নটি হ'ল: কোনও ব্যক্তি নিযুক্ত অনুমানের পরীক্ষার পদ্ধতি থেকে পৃথক টাইপ 1 এবং টাইপ II ত্রুটির সম্ভাবনার যোগফলের মোট পার্থক্য কি আবদ্ধ ? সংক্ষেপে, যতক্ষণ না কোনও শূন্যের সম্ভাবনা থাকে যে নমুনাটি যে কোনও একটি বিতরণের মাধ্যমে তৈরি করা যেতে পারে, ত্রুটিগুলির মধ্যে কমপক্ষে একটির সম্ভাবনা অবশ্যই শূন্য নয় be মূলত, আপনি যতটা সিগন্যাল প্রসেসিংই করেন না কেন, আপনার হাইপোথিসিস পরীক্ষক কোনও ভুল করবেন এই সম্ভাবনা থেকে আপনি বাঁচতে পারবেন না। এবং মোট বৈকল্পিক সঠিক সম্ভাবনার সীমাবদ্ধ। আমার বোধগম্যতা কি সঠিক?

টাইপ I এবং II ত্রুটিগুলির মধ্যে আরও একটি সম্পর্ক রয়েছে এবং এবং Q এর অন্তর্নিহিত সম্ভাব্যতা বিতরণ : কেএল ডাইভারজেন্স । সুতরাং, আমার দ্বিতীয় প্রশ্নটি হল: কেএল-ডাইভারজেন্সটি কেবলমাত্র একটি নির্দিষ্ট অনুমানের পরীক্ষা পদ্ধতিতে প্রযোজ্য (এটি লগ-সম্ভাবনা অনুপাতের পদ্ধতির চারপাশে প্রচুর পরিমাণে আসে বলে মনে হয়) বা কোনও এটি সমস্ত অনুমানের পরীক্ষা পদ্ধতিতে সাধারণত প্রয়োগ করতে পারে? এটি যদি সমস্ত অনুমানের পরীক্ষার পদ্ধতিগুলির মধ্যে প্রযোজ্য হয় তবে কেন এটি সম্পূর্ণ ভেরিয়েশন বাউন্ডের থেকে খুব আলাদা বলে মনে হয়? এটি কি অন্যরকম আচরণ করে?পিপ্রশ্নঃ

এবং আমার অন্তর্নিহিত প্রশ্নটি: আমার যখন আবদ্ধ ব্যবহার করা উচিত তখন কি পরিস্থিতিগুলির একটি নির্ধারিত সেট থাকে, বা এটি খাঁটি সুবিধার বিষয়? অন্যটি ব্যবহার করে একটি বাউন্ড হোল্ড ব্যবহার করে ফলাফল কখন নেওয়া উচিত?

এই প্রশ্নগুলি তুচ্ছ হলে আমি ক্ষমা চাইছি। আমি একজন কম্পিউটার বিজ্ঞানী (সুতরাং এটি আমার কাছে অভিনব প্যাটার্নের সাথে মিলে যাওয়ার সমস্যার মতো মনে হচ্ছে :)।) আমি তথ্য তত্ত্বটি যুক্তিসঙ্গতভাবে জানি, এবং সম্ভাব্যতা তত্ত্বে স্নাতক পটভূমিও রয়েছে। যাইহোক, আমি কেবল এই অনুমানের পরীক্ষার স্টাফগুলি শিখতে শুরু করছি। প্রয়োজনে আমি আমার প্রশ্নগুলি পরিষ্কার করার জন্য যথাসাধ্য চেষ্টা করব।

উত্তর:


8

সাহিত্য: আপনার বেশিরভাগ উত্তর অবশ্যই লেহম্যান এবং রোমানোর বইটিতে রয়েছে । ইনস্টার এবং সুসিলার বইটি আরও উন্নত বিষয়ের সাথে আলোচনা করে এবং আপনাকে অতিরিক্ত উত্তর দিতে পারে।

উত্তর: তবে, বিষয়গুলি খুব সহজ: (বা টি ভি ) হ'ল ব্যবহৃত "সত্য" দূরত্ব। এটা তোলে আনুষ্ঠানিক গণনার (বিশেষ করে পণ্যের পরিমাপ করে, অর্থাত্ যখন আপনি আকারের IID নমুনা সঙ্গে জন্য সুবিধাজনক নয় এন এবং অন্যান্য দূরত্বের (যে উপরের সীমা হয়) এল 1 ) ব্যবহার করা যাবে। আমি আপনাকে বিশদ দিন।এল1টিভীএনএল1

বিকাশ: আসুন আমরা বোঝাতে চাই

  • ন্যূনতমএবং বিকল্পেরজন্য পি 0 এবং পি 1 এরজন্যটাইপ 1 ত্রুটিα 0 সহ সর্বনিম্ন টাইপ II ত্রুটি।1(α0,পি1,পি0)α0পি0পি1
  • পি 0 এবং পি 1 নাল এবং বিকল্পেরসাথে ন্যূনতম সম্ভাব্য টি টাইপ আই + ( 1 - টি ) টাইপ II ত্রুটিরযোগফল।2(টি,পি1,পি0)টি(1-টি)পি0পি1

এগুলি আপনার বিশ্লেষণ করার জন্য ন্যূনতম ত্রুটি। সমতা (নিম্ন সীমা নয়) নীচে উপপাদ্য 1 দ্বারা দেওয়া হয়েছে ( দূরত্বের শর্তাবলী (বা টিভি দূরত্ব যদি আপনি থাকেন তবে))। মধ্যে অসাম্য এল 1 দূরত্ব এবং অন্যান্য দূরত্বের উপপাদ্য 2 দ্বারা দেওয়া হয় (নোট যা ত্রুটির তোমাদের উপর জয়ী সীমার প্রয়োজন আবদ্ধ কম এল 1 বা টি ভি )। এল1এল1এল1টিভী

কোনটি তখন ব্যবহার করতে বাধ্য তা সুবিধার বিষয় কারণ প্রায়শই হ্যালেঞ্জার বা কুলব্যাক বা χ 2 এর তুলনায় গণনা করা আরও বেশি কঠিন । যেমন একটি পার্থক্য প্রধান উদাহরণ উপস্থিত পি 1 এবং পি 0 পণ্যের পরিমাপ করে হয় পি আমি = P এন আমি আমি = 0 , 1 , যা পরীক্ষা ক্ষেত্রে উঠা যখন আপনি চান পি 1 বনাম পি 0 একটি আকার সঙ্গে এন IID নমুনা । এই ক্ষেত্রে h ( পি 1 , পিএল1χ2পি1পি0পিআমি=পিআমিএন আমি=0,1পি1পি0এন এবং অন্যান্যগুলি h ( পি 1 , পি 0 ) ( কে এল এবং χ 2 এর জন্য সমান ) থেকে সহজেই পাওয়া যায়তবে আপনি এল 1 দিয়ে এটি করতে পারবেন না...(পি1,পি0)(পি1,পি0)কেএলχ2এল1

সংজ্ঞা: সম্বন্ধ পরিমাপ করে দুই মধ্যে ν 1 এবং ν 2 হিসাবে সংজ্ঞায়িত করা হয় একটি 1 ( ν 1 , ν 0 ) = মিনিট ( ν 1 , ν 0 )একজন1(ν1,ν0)ν1ν2

একজন1(ν1,ν0)=সর্বনিম্ন(ν1,ν0)

উপপাদ্য 1 যদি (অর্ধেক টিভি ডিস্ট), তারপরে |ν1-ν0|1=|ν1-ν0|

  • 2একজন1(ν1,ν0)=(ν1+ +ν0)-|ν1-ν0|1
  • 1(α0,পি1,পি0)=অভিজ্ঞতার স্বাস পাত্তয়াটি[0,1/α0](একজন1(পি1,টিপি0)-টিα0)
  • 2(টি,পি1,পি0)=একজন1(টিপি0,(1-টি)পি1)

আমি এখানে প্রমাণ লিখেছি ।

এবং পি 0 সম্ভাব্যতা বিতরণের জন্য উপপাদ্য 2 : 1পি1পি0

12|পি1-পি0|1(পি1,পি0)কে(পি1,পি0)χ2(পি1,পি0)

এই সীমাগুলি বেশ কয়েকজন প্রখ্যাত পরিসংখ্যানবিদদের (লেক্যাম, পিনস্কার, ...) এর কারণে। হ্যালিঞ্জার দূরত্ব, কে কেএল ডাইভার্জেন এবং i 2 চি-বর্গ বিচ্যুতি। তারা সব এখানে সংজ্ঞায়িত করা হয় । এবং এই সীমাগুলির প্রমাণ দেওয়া আছে (আরও জিনিসগুলি Tsybacov বইয়ে পাওয়া যেতে পারে )। এমন কিছু আছে যা হেল্পিংগার দ্বারা এল 1 এর প্রায় নীচে আবদ্ধ ...কেχ2এল1


1
পি0পি1

এবং লেহম্যান এবং রোমানো বইয়ের পরামর্শের জন্য আপনাকে ধন্যবাদ, এটি আমার পক্ষে খুব বেশি সহায়ক এবং খুব বেশি লাগে না। এছাড়াও, আমার গ্রন্থাগারের একটি অনুলিপি আছে! :)
এমবিএম

একজন1

12একজন1
-12π|মেপুঃ(-এক্স2/2σ12)σ1-মেপুঃ(-এক্স2/2σ22)σ2|এক্স
একজন1
-12πসর্বনিম্ন(মেপুঃ(-এক্স2/2σ12)σ1,মেপুঃ(-এক্স2/2σ22)σ2)এক্স

(ν1+ +ν2)

1

আপনার প্রথম প্রশ্নের উত্তর: হ্যাঁ, সর্বমোট পরিবর্তনের দূরত্বটি এক বিয়োগ বিঘ্নের প্রকারের টাইপ 1 + টাইপ দ্বিতীয় ত্রুটির হারের যোগফলের সাথে একটি নিম্ন সীমাবদ্ধ। আপনি যে হাইপোথিসিস টেস্টিং অ্যালগরিদম নির্বাচন করেন তা বিবেচনা না করেই এই নিম্ন সীমাটি প্রযোজ্য।

একজন

(কড়া কথায় বলতে গেলে এই যুক্তির লাইনটি ধরে নিয়েছে যে আপনার অনুমানের পরীক্ষাটি একটি নির্বিচার পদ্ধতি is

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.