বিতরণের মধ্যে কলমোগোরভ দূরত্বের জন্য প্রেরণা


45

দুটি সম্ভাবনার বিতরণ কতটা সমান তা পরিমাপ করার অনেকগুলি উপায় রয়েছে। জনপ্রিয় পদ্ধতিগুলির মধ্যে (বিভিন্ন মহলে) রয়েছে:

  1. কোলমোগোরভ দূরত্ব: বন্টন কার্যের মধ্যবর্তী দূরত্ব;

  2. ক্যান্টোরোভিচ-রুবিনস্টাইন দূরত্ব: প্রত্যাশার মধ্যে সর্বাধিক পার্থক্যটি লিপস্চিটজ ধ্রুবক সাথে দুটি ক্রিয়াকলাপ বন্টনকে আরও বাড়িয়ে তোলে, যা বিতরণ ফাংশনগুলির মধ্যে দূরত্ব হিসাবেও পরিণত হয় ;1L1

  3. বেষ্টিত-Lipschitz দূরত্ব: কে আর দূরত্ব কিন্তু অধিকাংশ সময়ে ফাংশন এছাড়াও পরম মান আছে করার প্রয়োজন হয় মত ।1

এগুলির বিভিন্ন সুবিধা এবং অসুবিধা রয়েছে। কেবলমাত্র 3. এর অর্থে কনভার্সেশন আসলে বিতরণে রূপান্তরের সাথে সংক্ষিপ্তভাবে মিলিত হয়; 1. বা 2. অর্থে রূপান্তর সাধারণভাবে কিছুটা শক্তিশালী। (বিশেষত, যদি সম্ভাব্যতা সহ , হয়, তবে বিতরণে তে রূপান্তরিত হয় তবে দূরত্বে নয় However তবে সীমাবদ্ধতা বিতরণ যদি অবিচ্ছিন্ন থাকে তবে এই প্যাথলজিটি ঘটে না। )Xn=1n1Xn0

প্রাথমিক সম্ভাবনা বা পরিমাপ তত্ত্বের দৃষ্টিকোণ থেকে, ১. খুব স্বাভাবিক কারণ এটি কিছু সেট হওয়ার সম্ভাবনাগুলির তুলনা করে। অন্যদিকে আরও পরিশীলিত সম্ভাব্য দৃষ্টিভঙ্গি সম্ভাবনার চেয়ে প্রত্যাশাগুলিতে বেশি মনোনিবেশ করে। এছাড়াও, কার্যকরী বিশ্লেষণের দৃষ্টিকোণ থেকে, কিছু ফাংশন স্পেসের সাথে দ্বৈততার উপর ভিত্তি করে 2. বা 3 এর মতো দূরত্বগুলি খুব আকর্ষণীয়, কারণ এই জাতীয় জিনিসগুলির সাথে কাজ করার জন্য গাণিতিক সরঞ্জামগুলির একটি বিশাল সেট রয়েছে।

যাইহোক, আমার ধারণা (আমি ভুল হলে আমাকে সংশোধন করি!) হ'ল পরিসংখ্যানগুলিতে, কলমোগোরভ দূরত্ব বন্টনের মিল খুঁজে পাওয়ার জন্য সাধারণত পছন্দসই উপায়। আমি একটি কারণ অনুমান করতে পারি: যদি বিতরণগুলির মধ্যে একটি সীমাবদ্ধ সমর্থন সহ পৃথক হয় - বিশেষত যদি এটি কিছু বাস্তব-বিশ্বের ডেটা বিতরণ হয় - তবে একটি মডেল বিতরণের কলমোগোরভ দূরত্ব গণনা করা সহজ। (কেআর দূরত্ব গণনা করা কিছুটা শক্ত হবে, এবং বিএল দূরত্ব সম্ভবত ব্যবহারিক দিক থেকে অসম্ভব হবে))

সুতরাং আমার প্রশ্ন (শেষ অবধি), পরিসংখ্যানগত উদ্দেশ্যে কোলমোগোরভ দূরত্ব (বা অন্য কোনও দূরত্ব) কে সমর্থন করার জন্য কি অন্যান্য কারণগুলি ব্যবহারিক বা তাত্ত্বিক?


1
আমি প্রশ্নটি পছন্দ করি, ইতিমধ্যে বেশিরভাগ সম্ভাব্য উত্তর থাকতে পারে ... আপনার কী উত্তর / বিকাশের ধরন সম্পর্কে ধারণা আছে?
রবিন গিরার্ড

1
খুব বিশেষভাবে না। আমি পরিসংখ্যান সম্পর্কে বেশ অজ্ঞ এবং আমি জিজ্ঞাসার জন্য আমার অন্যতম কারণ হ'ল পরিসংখ্যানবিদরা বিভিন্ন মেট্রিকগুলির মধ্যে কোনটি বেছে নিতে ব্যবহার করবেন। যেহেতু আমি ইতিমধ্যে 1 এর একটি গুরুত্বপূর্ণ ব্যবহারিক সুবিধা বর্ণনা করেছি (আপনি আসলে এটি গণনা করতে পারেন) আমি তাত্ত্বিক প্রেরণাগুলিতে বিশেষভাবে আগ্রহী। বলুন, অ্যাপ্লিকেশনগুলিতে প্রায়শই সরাসরি ব্যবহারের জন্য কলমোগোরভ দূরত্বের অনুমানের দ্বারা সরবরাহ করা তথ্য?
মার্ক মেকস

আমি আমার কমেন্ট কম-বেশি স্পষ্ট করেই শেষ করতে ভুলে গিয়েছিলাম: এবং যদি তা হয় তবে কীভাবে?
মার্ক মেকস

আমি উপরে আমার দীর্ঘ মন্তব্যটি কেবল আবার পড়েছি এবং বুঝতে পেরেছি যে আমি উত্থাপিত শেষ প্রশ্নটি তাত্ত্বিক হিসাবে যতটা ব্যবহারিক বিবেচনা রয়েছে। যাই হোক না কেন, এটি যে ধরণের বিষয়ে আমি আগ্রহী তা জানতে আগ্রহী।
মার্ক মেকস

আমি জানি আপনি সম্পূর্ণরূপে বোঝাতে চাইছেন নি তবে আপনি অ্যান্ডারসন ডার্লিং স্ট্যাটিস্টিক যুক্ত করতে পারেন ( en.wikiki.org/wiki/Anderson%E2%80%93 ডার্লিং_স্টেস্ট )। এটি আমাকে জাগার এবং ওয়েলনার ( projecteuclid.org/… দেখুন ) এর একটি কাগজের স্মরণ করিয়ে দিয়েছে যা অ্যান্ডারসন প্রিয়তম পরিসংখ্যানকে ব্যাখ্যা করে / জেনারেলাইজ করে (এবং টুকির বিশেষ উচ্চতর সমালোচনাতে অন্তর্ভুক্ত করে) ...
রবিন গিরার্ড

উত্তর:


12

মার্ক,

আমি কেএস এর ব্যবহারের জন্য সচেতন তার মূল কারণ হ'ল এটি অবিচ্ছিন্ন অভিজ্ঞতাবাদী প্রক্রিয়াগুলিতে গ্লিভেনকো-ক্যান্টেলি উপপাদ্য থেকে প্রাকৃতিকভাবে উদ্ভূত হয়েছিল। আমি যে রেফারেন্সটির পরামর্শ দিচ্ছি তা হ'ল অ্যাভওয়ান ডের ভার্ট "অ্যাসিম্পটোটিক স্ট্যাটিস্টিকস", সিএইচ। ১৯. ওয়েলনার এবং ভ্যান ডের ভার্টের "আরও দুর্বল রূপান্তর এবং অভিজ্ঞতামূলক প্রক্রিয়াগুলি" আরও উন্নত মনোগ্রাফ।

আমি দুটি দ্রুত নোট যুক্ত করব:

  1. অবিচ্ছিন্ন বিতরণে সাধারণত ব্যবহূত আরেকটি দূরত্ব হ'ল ক্র্যামার-ভন মাইজেস দূরত্ব, যা একটি এল ^ 2 দূরত্ব;
  2. সাধারণ ভেক্টর স্পেসে বিভিন্ন দূরত্ব নিযুক্ত করা হয়; অনেক কাগজগুলিতে আগ্রহের স্থানটি পলিশ। একটি খুব ভাল ভূমিকা হ'ল বিলিংসলে "সম্ভাব্যতা পরিমাপের রূপান্তর"।

আমি আরও নির্দিষ্ট করে বলতে না পারলে ক্ষমা চাই apolog আশা করি এটা কাজে লাগবে.


2
আপনার নোটগুলিতে দুটি দ্রুত নোট। 1. সি-ভিএম দূরত্ব হ'ল কোলমোগোরভ (এল ^ ইনফিনিটি) এবং (অবিবাহিত) কেআর (এল ^ 1) দূরত্বের এল ^ 2 কাজিন এবং তাই তাদের মধ্যে বিভক্ত হয়। ২. কেআর এবং বিএল দূরত্বগুলির উল্লেখ না করে একটি সুবিধা হ'ল তারা উচ্চতর মাত্রিক জায়গাগুলিতে আরও স্বাভাবিকভাবে সাধারণীকরণ করে।
মার্ক মেকস

1. সম্পর্কিত, এটি সঠিক। সম্পর্কিত ২. নীতিগতভাবে উপরোক্ত সমস্ত দূরত্ব R RN পর্যন্ত বহন করতে পারে, তবে আমি কোনও দূরত্বের ভিত্তিতে জনপ্রিয় নন-প্যারাম্যাট্রিক পরীক্ষাগুলি সম্পর্কে জানি না । এটি আছে কিনা তা জানতে আকর্ষণীয় হবে।
gappy

8

গণনামূলক সমস্যাগুলি আমি একরকম বা অন্যভাবে শুনেছি সেই দৃ argument়তম যুক্তি। কলমোগোরভ দূরত্বের একক বৃহত্তম সুবিধা হ'ল যে কোনও সিডিএফের জন্য বিশ্লেষণাত্মকভাবে গণনা করা খুব সহজ। বেশিরভাগ অন্যান্য দূরত্বের মেট্রিকের গাউসির ক্ষেত্রে কখনও কখনও ব্যতীত কোনও ক্লোজড ফর্ম এক্সপ্রেশন থাকে না।

একটি নমুনার কোলমোগোরভ দূরত্বের সিডিএফ প্রদত্ত একটি নমুনা বিতরণও রয়েছে (আমি মনে করি না যে বেশিরভাগ অন্যান্যই করেন), যা শেষ হয় উইনার প্রক্রিয়া সম্পর্কিত। বিতরণে একটি নমুনা বা একে অপরের সাথে দুটি নমুনার তুলনা করার জন্য এটি কোলমোগোরভ-স্মারনফ পরীক্ষার ভিত্তি।

আরও কার্যকরী-বিশ্লেষণ নোটে, সমর্থনটি আদর্শটি দুর্দান্ত (যেমন আপনি উল্লেখ করেছেন) এটি মূলত অভিন্ন রূপান্তরকে সংজ্ঞায়িত করে। এটি আপনাকে আদর্শ অভিমুখে পয়েন্টওয়াইজ কনভার্জেন্স বোঝায়, এবং আপনি যদি আপনার ফাংশন ক্রমগুলি কীভাবে সংজ্ঞায়িত করেন সে সম্পর্কে আপনি যদি দক্ষ হন তবে আপনি আরকেএইচএসের মধ্যে কাজ করতে পারবেন এবং সেইসাথে সরবরাহ করে এমন দুর্দান্ত সরঞ্জামগুলি ব্যবহার করতে পারবেন।


8

সংক্ষিপ্তসার হিসাবে , আমার উত্তর হ'ল: যদি আপনার স্পষ্ট প্রকাশ হয় বা আপনার দূরত্ব কীভাবে পরিমাপ হচ্ছে (কী "পার্থক্যগুলি" এটির ওজন দেয়) কীভাবে তা নির্ধারণ করতে পারেন, তবে এটি কীসের জন্য ভাল তা আপনি বলতে পারেন। এই জাতীয় পরীক্ষার বিশ্লেষণ এবং তুলনা করার জন্য অন্য একটি পরিপূরক উপায় হ'ল মিনিম্যাক্স তত্ত্ব।

শেষে কিছু পরীক্ষা কিছু বিকল্পের জন্য ভাল এবং কিছু অন্যদের জন্য ভাল হবে। প্রদত্ত বিকল্পগুলির একটি সেটের জন্য আপনার টেস্টের সবচেয়ে খারাপ ক্ষেত্রে সর্বোত্তম সম্পত্তি রয়েছে কিনা তা প্রদর্শিত হতে পারে: এটি মিনিম্যাক্স তত্ত্ব।


কিছু বিশদ

অতএব, আপনি বিকল্পটির সেটটি সম্পর্কে যেগুলি তারা মিনিম্যাক্স (যেমন বিকল্প বিদ্যমান থাকলে) অর্থাত (ডোনহো এবং জিন শব্দটি ব্যবহার করে) তাদের "অনুকূল সনাক্তকরণ চৌদ্দদারি" তুলনা করে দুটি পৃথক পরীক্ষার বৈশিষ্ট্য সম্পর্কে বলতে পারেন http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492

আমাকে দূরত্বে যেতে দাও:

  1. এমপিআরএল সিডিএফ এবং সিডিএফের মধ্যে পার্থক্য নির্ধারণ করে কেএস দূরত্ব প্রাপ্ত হয়। একটি সাপ্রেম হিসাবে এটি স্থানীয় বিকল্পগুলির (সিডিএফের স্থানীয় পরিবর্তন) জন্য অত্যন্ত সংবেদনশীল হবে তবে বৈশ্বিক পরিবর্তনের সাথে নয় (কমপক্ষে সিডিএফের মধ্যে এল 2 এর দূরত্ব ব্যবহার করা কম স্থানীয় হবে (আমি কি খোলা দরজা খুলছি?))। তবে সবচেয়ে গুরুত্বপূর্ণ বিষয়টি হ'ল সিডিএফ ব্যবহার। এটি একটি অ্যাসিমেট্রি বোঝায়: আপনি আপনার বিতরণের লেজের পরিবর্তনগুলিকে আরও বেশি গুরুত্ব দিন।

  2. ওয়াসেরটাইন মেট্রিক (আপনি ক্যান্টোরোভিচ রুবিনস্টাইন বলতে কী বোঝেন?) Http://en.wikedia.org/wiki/Wassertein_metric সর্বব্যাপী এবং তাই তুলনা করা শক্ত hard

    • ডাব্লু 2 এর বিশেষ ক্ষেত্রে এটি http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 এ ব্যবহার করা হয়েছে এবং এটি সিডিএফ এর বিপরীতে L2 দূরত্বের সাথে সম্পর্কিত। আমার বোধগম্যতা হল এটি লেজগুলিকে আরও বেশি ওজন দেয় তবে আমি মনে করি এটি সম্পর্কে আরও জানতে আপনার কাগজটি পড়া উচিত।
    • ঘনত্ব ফাংশনের মধ্যে এল 1 দূরত্বের ক্ষেত্রে এটি ডেটা থেকে আপনার ডেন্টিটি ফাংশনটি কীভাবে অনুমান করবে তার উপর নির্ভর করবে ... তবে অন্যথায় এটি লেজগুলিকে গুরুত্ব না দেওয়ার জন্য এটি একটি "ভারসাম্য পরীক্ষা" বলে মনে হচ্ছে।

আমি যে মন্তব্যটি দিয়েছি তা প্রত্যাহার করতে এবং বাড়ানোর জন্য যা উত্তরটি সম্পূর্ণ করে:

আমি জানি আপনি সম্পূর্ণরূপে বোঝাতে চাইছেন নি তবে আপনি অ্যান্ডারসন ডার্লিং স্ট্যাটিস্টিক যুক্ত করতে পারেন (দেখুন http://en.wikedia.org/wiki/Anderson%E2%80%93 ডার্লিং_স্টেস্ট )। এটি আমাকে জাগার এবং ওয়েলনারের একটি কাগজের স্মরণ করিয়ে দিয়েছে (দেখুন http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) যা অ্যান্ডারসন প্রিয়তম পরিসংখ্যানকে বর্ধিত করে / সাধারণ করে তোলে টুয়ের উচ্চতর সমালোচনা)। উচ্চতর সমালোচনা ইতোমধ্যে বিস্তৃত বিকল্পের জন্য মিনিম্যাক্স হিসাবে দেখানো হয়েছিল এবং তাদের ধারণার জন্য জাগার এবং ওয়েলনার এটিই করেছেন। আমি মনে করি না যে কলিমোগোরভ পরীক্ষার জন্য মিনিম্যাক্স সম্পত্তি দেখানো হয়েছে। যাইহোক, আপনার পরীক্ষার মিনিম্যাক্স কোন ধরণের বিকল্পের জন্য তা বোঝার জন্য এটির শক্তিটি কোথায় তা আপনাকে জানতে সাহায্য করে, তাই আপনার উপরের কাগজটি পড়া উচিত ...


1
হ্যাঁ, আমি ক্যান্টোরোভিচ-রুবিনস্টাইন দূরত্বকে যা বলেছিলাম তাকে এল ^ 1 ওয়াসারস্টেইন দূরত্ব বা ডাব্লু 1ও বলে। এটি অন্যান্য অনেক নাম দ্বারাও যায়।
মার্ক মেকস

3
এল ^ 2 Wasserstein দূরত্ব (W2) হল: শুধু Wasserstein দূরত্বের যারা এই এবং ফাটল আছে এমন উত্তর সার্চ দিয়ে যে কেউ অপরিচিত জন্য নির্মল না Cramer-ভন মিসেস দূরত্ব হিসাবে একই।
মার্ক মেকস

4

আমি মনে করি আপনাকে দূরত্বের বিভিন্ন ধারণার তাত্ত্বিক বনাম প্রয়োগিত সুবিধাগুলি বিবেচনা করতে হবে। গাণিতিকভাবে প্রাকৃতিক বস্তুগুলি প্রয়োজনীয়ভাবে প্রয়োগের ক্ষেত্রে ভাল অনুবাদ করে না। কলমোগোরভ-স্মারনভ অ্যাপ্লিকেশনটির জন্য সর্বাধিক সুপরিচিত এবং ফিটের সচ্ছলতার জন্য পরীক্ষায় জড়িত। আমি অনুমান করি যে এর অন্যতম কারণ হ'ল অন্তর্নিহিত বিতরণ যখন অবিচ্ছিন্ন থাকে তখন পরিসংখ্যানগুলির বিতরণ স্বতন্ত্র থাকে । আর একটি হ'ল সিডিএফের জন্য আত্মবিশ্বাস ব্যান্ডগুলি দেওয়ার জন্য এটি সহজেই উল্টানো যায়।FF

তবে এটি প্রায়শই ব্যবহৃত হয় যেখানে by দ্বারা অনুমান করা হয় , এবং পরীক্ষার পরিসংখ্যানগুলি রূপটি গ্রহণ করে সুদ এইজন্য কত ভাল হয় ডেটা মাপসই করা হবে এবং অভিনয় হিসাবে যদি , যদিও মধ্যে asymptotic তত্ত্ব অগত্যা প্রযোজ্য নয়।FF^

supx|Fn(x)F^(x)|.
F^F^=F

3

আমি আপনাকে কোলমোগোরভ-স্মারনভ পরীক্ষাটি ব্যবহার করার অতিরিক্ত কারণ দিতে পারি না। তবে, আমি এটি ব্যবহার না করার একটি গুরুত্বপূর্ণ কারণ দিতে পারি। এটি ডিস্ট্রিবিউশনের লেজের সাথে ভাল মানায় না। এই ক্ষেত্রে, একটি উচ্চতর ডিস্ট্রিবিউশন ফিটিং টেস্ট হলেন অ্যান্ডারসন-ডার্লিং। দ্বিতীয় সেরা হিসাবে, চি স্কোয়ার পরীক্ষাটি বেশ ভাল। উভয়ই এক্ষেত্রে কেএস পরীক্ষার চেয়ে অনেক উচ্চতর হিসাবে বিবেচিত।


2

ক্রিয়ামূলক বিশ্লেষণ এবং পরিমাপ তত্ত্বের দৃষ্টিকোণ থেকে টাইপ দূরত্বগুলি কার্যকারিতার স্পেসে পরিমাপযোগ্য সেটগুলি সংজ্ঞায়িত করে না (মেট্রিক বলের আচ্ছাদনগুলিতে অসীম মাত্রিক স্থানগুলি looseিলে গণনাযোগ্য যুক্ত)। এটি দৃ 2়ভাবে পছন্দ 2 এবং 3 এর দূরত্বগুলির যে কোনও ধরণের পরিমাপযোগ্য ব্যাখ্যা ব্যাখ্যা করে।Lp

অবশ্যই কোলোমোগোরভ, আমাদের মধ্যে যে কোনও পোস্টিংয়ের চেয়ে অনেক বেশি উজ্জ্বল, বিশেষত আমাকে সহ, এটি প্রত্যাশিত। চতুর বিটটি হ'ল কেএস পরীক্ষার দূরত্বটি জাতের হলেও ইউনিফর্ম আদর্শটি পরিমাপযোগ্য সেটগুলি সংজ্ঞায়িত করতে ব্যবহৃত হয় না। বরং সেটগুলি পর্যবেক্ষণকৃত মানগুলিতে মূল্যায়নকৃত বিতরণের মধ্যে পার্থক্যগুলির উপর স্টোকাস্টিক পরিস্রাবণের অংশ; যা থামার সময় সমস্যার সমতুল্য।L0

সংক্ষেপে পছন্দের ইউনিফর্ম আদর্শ দূরত্ব 1 টি পছন্দনীয় কারণ এটি পরীক্ষা করে বোঝায় যে থামানো সময় সমস্যার সমান, যা নিজেই গণনাগতভাবে ট্র্যাকটেবল সম্ভাবনা তৈরি করে। যেখানে পছন্দগুলি 2 এবং 3 ফাংশনগুলির পরিমাপযোগ্য সাবসেটগুলি সংজ্ঞায়িত করতে পারে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.