পরিসংখ্যান সম্পর্কে সিদ্ধান্ত-তাত্ত্বিক পদ্ধতির একটি গভীর ব্যাখ্যা সরবরাহ করে। এটি বলেছে যে স্কোয়ারিং পার্থক্য হ'ল বিস্তৃত ক্ষতির ক্রিয়াকলাপের জন্য একটি প্রক্সি যা (যখনই তারা ন্যায়সঙ্গতভাবে গ্রহণ করা যেতে পারে) সম্ভাব্য পরিসংখ্যান পদ্ধতিতে বিবেচনার জন্য যথেষ্ট সরলকরণের দিকে পরিচালিত করে।
দুর্ভাগ্যক্রমে, এর অর্থ ব্যাখ্যা করে এবং কেন এটি সত্য তা বোঝাতে অনেকগুলি সেট আপ করা দরকার। স্বরলিপিটি দ্রুত বোঝা যায় না। আমি এখানে যা করতে চাই তা হ'ল মূল ধারণাগুলি স্কেচ করা, সামান্য বিস্তৃতি সহ। পূর্ণাঙ্গ অ্যাকাউন্টগুলির জন্য রেফারেন্সগুলি দেখুন।
ডেটাগুলির একটি স্ট্যান্ডার্ড, সমৃদ্ধ মডেল যে এগুলি এমন একটি (বাস্তব, ভেক্টর-মূল্যবান) র্যান্ডম ভেরিয়েবল উপলব্ধি, যার বন্টন কেবল কয়েকটি সেট বিতরণের , রাজ্যগুলির উপাদান হিসাবে পরিচিত প্রকৃতির । একটি পরিসংখ্যানগত পদ্ধতি হ'ল এর একটি ফাংশন , সিদ্ধান্তের কিছু সেট , সিদ্ধান্তের স্থানের মান গ্রহণ করে।এক্স এফ Ω টি এক্স ডিxXFΩtxD
উদাহরণস্বরূপ, একটি পূর্বানুমান বা ক্লাসিফিকেশন সমস্যা একটি "ট্রেনিং সেট" এবং একটি "ডেটার টেস্ট সেট" এর ইউনিয়ন গঠিত হবে এবং ম্যাপ করবে টেস্ট সেট জন্য আগাম অনুমান মানগুলির সেট করুন। সমস্ত সম্ভাব্য পূর্বাভাসিত মানগুলির সেট । টি এক্স ডিxtxD
পদ্ধতির একটি সম্পূর্ণ তাত্ত্বিক আলোচনায় এলোমেলো পদ্ধতি অনুসরণ করতে হয় । কিছু সম্ভাব্য বন্টন (যা ডেটা- উপর নির্ভর করে ) অনুযায়ী একটি এলোমেলোভাবে প্রক্রিয়া দুটি বা ততোধিক সম্ভাব্য সিদ্ধান্তের মধ্যে বেছে নেয় । এটি স্বজ্ঞাত ধারণাটিকে সাধারণীকরণ করে যে যখন ডেটা দুটি বিকল্পের মধ্যে পার্থক্য মনে হয় না, আপনি পরবর্তী সময়ে একটি সুনির্দিষ্ট বিকল্পের সিদ্ধান্ত নেওয়ার জন্য "একটি কয়েন ফ্লিপ করুন"। অনেকে এলোমেলো পদ্ধতিতে সিদ্ধান্ত গ্রহণ করতে আপত্তি জানায়, এলোমেলো পদ্ধতিগুলি পছন্দ করে না।x
সিদ্ধান্ত তত্ত্বের স্বতন্ত্র বৈশিষ্ট্য হ'ল এটি একটি ক্ষতির ক্রিয়াকলাপ । W of এবং সিদ্ধান্ত কোনও প্রকৃতির রাজ্যের জন্য ক্ষতিডি ∈ ডিF∈Ωd∈D
W(F,d)
একটি সাংখ্যিক মান প্রতিনিধিত্বমূলক কিভাবে "খারাপ" এটা সিদ্ধান্ত নেওয়ার জন্য হতে হবে যখন প্রকৃতির সত্য রাষ্ট্র : ছোট লোকসান ভালো, বড় লোকসান খারাপ হয়। অনুমানের পরীক্ষার পরিস্থিতিতে উদাহরণস্বরূপ, দুটি উপাদান "গ্রহণ" এবং "প্রত্যাখ্যান" (নাল অনুমান) রয়েছে has ক্ষতির ফাংশন সঠিক সিদ্ধান্ত গ্রহণের উপর জোর দেয়: সিদ্ধান্তটি সঠিক হলে এটি শূন্যে সেট করা হয় এবং অন্যথায় কিছুটা ধ্রুবক । (এটি একটি "বলা হয় ক্ষতি ফাংশন:"। সব খারাপ সিদ্ধান্ত সমানভাবে খারাপ এবং সব ভাল সিদ্ধান্ত সমানভাবে ভাল হয়) বিশেষ করে, যখন নাল হাইপোথিসিস এবংএফ ডি W 0 - 1 ওয়াট ( এফ , গ্রহণ ) = 0 এফ ডব্লিউ ( এফ , প্রত্যাখ্যান ) = 0 এফdFDw0−1W(F, accept)=0FW(F, reject)=0F বিকল্প অনুমানের মধ্যে রয়েছে।
যখন পদ্ধতি ব্যবহার করে , ডেটার জন্য ক্ষতির যখন প্রকৃতির সত্য রাষ্ট্র লেখা যেতে পারে । এই ক্ষতি তোলে একটি দৈব চলক যার বন্টন দ্বারা (অজানা) নির্ধারণ করা হয় ।x F W ( F , t ( x ) ) W ( F , t ( X ) ) FtxFW(F,t(x))W(F,t(X))F
একটি পদ্ধতির এর প্রত্যাশিত এর ঝুঁকি বলা হয় , । প্রত্যাশা প্রকৃতির প্রকৃত অবস্থা ব্যবহার করে যা প্রত্যাশা অপারেটরের সাবস্ক্রিপ্ট হিসাবে স্পষ্টভাবে উপস্থিত হবে। আমরা ঝুঁকিটি ক্রিয়াকলাপ হিসাবে দেখব এবং স্বরলিপি সহ এটিতে জোর দেব :r t F FtrtFF
rt(F)=EF(W(F,t(X))).
উন্নত পদ্ধতিতে ঝুঁকি কম থাকে। সুতরাং, ঝুঁকিপূর্ণ ক্রিয়াকলাপগুলির তুলনা করা ভাল পরিসংখ্যানগত পদ্ধতি নির্বাচন করার জন্য ভিত্তি। যেহেতু একটি সাধারণ (ধনাত্মক) ধ্রুবক দ্বারা সমস্ত ঝুঁকি ফাংশনগুলি উদ্ধার কোনও তুলনা পরিবর্তন করতে পারে না, তাই স্কেলের কোনও তাত্পর্য হয় না: আমরা আমাদের পছন্দসই ধনাত্মক মান দ্বারা এটির গুণ করতে মুক্ত। বিশেষত, ডাব্লুকে দ্বারা গুণিত করার পরে আমরা সর্বদা ক্ষতি ফাংশনের জন্য নিতে পারি (এর নামটি ন্যায়সঙ্গত করে)।ডব্লিউ 1 / W W = 1 0 - 1WW1/ww=10−1
হাইপোথিসিস পরীক্ষার উদাহরণটি চালিয়ে যেতে, যা লোকসানের কার্যকারিতা চিত্রিত করে, এই সংজ্ঞাগুলি নাল অনুমানের যে কোনও এর ঝুঁকিটি বোঝায় যে সিদ্ধান্তটি "প্রত্যাখ্যানযোগ্য", যখন বিকল্পে কোনও ঝুঁকিটি হ'ল সিদ্ধান্ত যে "গ্রহণ"। সর্বাধিক মান ( নাল হাইপোথিসিসের সমস্ত চেয়ে বেশি ) পরীক্ষার আকার , অন্যদিকে বিকল্প অনুমানের উপর সংজ্ঞায়িত ঝুঁকি ফাংশনের অংশটি পরীক্ষার শক্তির পরিপূরক ( )। এতে আমরা দেখতে পাই যে ধ্রুপদী (ঘন ঘনবাদী) হাইপোথিসিস টেস্টিং তত্ত্বের সম্পূর্ণতা কোনও বিশেষ ধরণের ক্ষতির জন্য ঝুঁকি ফাংশনগুলির তুলনা করার জন্য একটি নির্দিষ্ট উপায়ে সমান।0−1FFFpowert(F)=1−rt(F)
যাইহোক, এখন অবধি উপস্থাপিত সমস্ত কিছু বায়েসীয় দৃষ্টান্ত সহ সকল মূলধারার পরিসংখ্যানের সাথে পুরোপুরি সামঞ্জস্যপূর্ণ। বিশ্লেষণ উপর একটি "পূর্ব" সম্ভাব্যতা বিতরণ প্রবর্তন করে এবং ঝুঁকি কার্যগুলির তুলনা সহজ করার জন্য এটি ব্যবহার করে: সম্ভাব্য জটিল ফাংশন পূর্ববর্তী বিতরণের ক্ষেত্রে প্রত্যাশিত মান দ্বারা প্রতিস্থাপন করা যেতে পারে। সুতরাং সমস্ত প্রক্রিয়া একক সংখ্যা দ্বারা চিহ্নিত করা হয় ; একটি বেয়েস পদ্ধতি (যা সাধারণত অনন্য) কমিয়ে দেয় । ক্ষতি ফাংশন এখনও কম্পিউটিং একটি অপরিহার্য ভূমিকা পালন করে ।Ωrttrtrtrt
ক্ষতির ফাংশন ব্যবহারকে ঘিরে কিছুটা (অপরিবর্তনীয়) বিতর্ক রয়েছে। কিভাবে একটি চয়ন করেন ? হাইপোথিসিস টেস্টিংয়ের জন্য এটি মূলত অনন্য, তবে বেশিরভাগ অন্যান্য পরিসংখ্যানগত সেটিংয়ে অনেক পছন্দ সম্ভব হয়। তারা সিদ্ধান্ত গ্রহণকারীর মান প্রতিফলিত করে। উদাহরণস্বরূপ, যদি ডেটা কোনও চিকিত্সক রোগীর শারীরবৃত্তীয় পরিমাপ হয় এবং সিদ্ধান্তগুলি "চিকিত্সা" করা হয় বা "চিকিত্সা না করে", তবে চিকিত্সককে অবশ্যই বিবেচনা করতে হবে - এবং ভারসাম্যকে বিবেচনা করতে হবে - উভয়ই কর্মের পরিণতি। পরিণতিগুলি কীভাবে ওজন করা হয় তা নির্ভর করে রোগীর নিজস্ব ইচ্ছা, বয়স, তাদের জীবনযাত্রা এবং আরও অনেক কিছুর উপর। ক্ষতির ফাংশনের পছন্দটি ভরাট এবং গভীরভাবে ব্যক্তিগত হতে পারে। সাধারণত এটি পরিসংখ্যানবিদকে ছেড়ে দেওয়া উচিত নয়!W
একটি জিনিস আমরা জানতে চাই, তাহলে, ক্ষতির পরিবর্তন হয়ে গেলে কীভাবে সেরা পদ্ধতির পছন্দ পরিবর্তন হবে? দেখা যাচ্ছে যে অনেক সাধারণ, ব্যবহারিক পরিস্থিতিতে কোন পদ্ধতিটি সেরা তা পরিবর্তন না করে নির্দিষ্ট পরিমাণের বৈচিত্র্য সহ্য করা যায়। এই পরিস্থিতিতে নিম্নলিখিত শর্ত দ্বারা চিহ্নিত করা হয়:
সিদ্ধান্ত স্থান হ'ল উত্তল সেট (প্রায়শই সংখ্যার একটি বিরতি)। এর অর্থ হ'ল যে কোনও দুটি সিদ্ধান্তের মধ্যে থাকা কোনও মানই একটি বৈধ সিদ্ধান্ত।
ক্ষতিটি শূন্য হয় যখন সর্বোত্তম সম্ভাব্য সিদ্ধান্ত নেওয়া হয় এবং অন্যথায় বৃদ্ধি হয় (যে সিদ্ধান্ত নেওয়া হয় তার মধ্যে পার্থক্য প্রতিফলিত করতে এবং সত্য - তবে অজানা - প্রকৃতির রাষ্ট্রের জন্য তৈরি করা যেতে পারে এমন সেরাটির মধ্যে প্রতিফলন)।
ক্ষতি সিদ্ধান্তের একটি পার্থক্যমূলক ফাংশন (কমপক্ষে স্থানীয়ভাবে সর্বোত্তম সিদ্ধান্তের নিকটে)। এটি বোঝায় যে এটি অবিচ্ছিন্ন - এটি লোকসানের পথে লাফিয়ে ওঠে না - তবে এটি আরও বোঝায় যে সিদ্ধান্তটি সবচেয়ে ভালের কাছাকাছি থাকলে তুলনামূলকভাবে সামান্য পরিবর্তন হয়।0−1
যখন এই শর্তগুলি ধরে থাকে তখন ঝুঁকি সংক্রান্ত কার্যগুলির তুলনায় জড়িত কিছু জটিলতাগুলি চলে যায়। এর পার্থক্যতা এবং সংক্ষিপ্ততা আমাদের তা দেখাতে জেনসেনের অসমতা প্রয়োগ করার অনুমতি দেয়W
(1) আমাদের এলোমেলো পদ্ধতিগুলি বিবেচনা করতে হবে না [লেমন, বাস্তব 6.2]।
এক পদ্ধতি (2) যদি এক ধরনের জন্য শ্রেষ্ঠ ঝুঁকি আছে বলে মনে করা হয় , এটি একটি পদ্ধতি মধ্যে উন্নত করা যায় যা শুধুমাত্র নির্ভর করে যথেষ্ট পরিসংখ্যাত এবং অন্তত ভাল হিসাবে একটি ঝুঁকি ফাংশন আছে সব ধরনের জন্য [কেফার, পৃ। 151]।tWt∗ W
উদাহরণ হিসাবে, ধরুন হ'ল (এবং ইউনিটের বৈকল্পিক) সহ সাধারণ বিতরণের সেট । এটি real সমস্ত আসল সংখ্যার সেট দিয়ে চিহ্নিত করে , তাই (স্বরলিপিটি অপব্যবহার করে) আমি গড় দিয়ে বিতরণ শনাক্ত করতে " " ও ব্যবহার করব । যাক আকারের IID নমুনা হতে এই ডিস্ট্রিবিউশন এক থেকে। ধরুন উদ্দেশ্যটি । এটি space (যে কোনও আসল সংখ্যা) এর সমস্ত সম্ভাব্য মানগুলির সাথে ডিসেস স্পেস সনাক্ত করে । লেটিং একটি অবাধ সিদ্ধান্ত নামকরণ, লোকসান একটি ফাংশনΩμΩμΩμXnμDμμ^
W(μ,μ^)≥0
সঙ্গে যদি এবং কেবল যদি । পূর্ববর্তী অনুমানগুলি বোঝায় (টেলরের উপপাদ্য মাধ্যমে) এটিW(μ,μ^)=0μ=μ^
W(μ,μ^)=w2(μ^−μ)2+o(μ^−μ)2
কিছু ধ্রুবক ধনাত্মক সংখ্যা জন্য । (সামান্য-O স্বরলিপি " " অর্থ ফাংশন যেখানে সীমিত মান হয় হিসাবে ।) পূর্বে উল্লিখিত হিসাবে, আমরা rescale বিনামূল্যে তৈরি করতে । এই পরিবারের জন্য , লিখিত এর গড় অর্থ যথেষ্ট পরিসংখ্যান। পূর্ববর্তী ফলাফল (Kiefer থেকে উদ্ধৃত) বলেছেন কোন মূল্নির্ধারক , এর মধ্যে কয়েকটি অবাধ ফাংশন হতে পারে ভেরিয়েবল যে এক ধরনের জন্য ভালw2o(y)pff(y)/yp0y→0Ww2=1ΩXX¯μn(x1,…,xn)W, কেবলমাত্র উপর নির্ভর করে একটি অনুমানকারীতে রূপান্তর করা যেতে পারে যা কমপক্ষে যেমন সমস্ত জন্য ভাল ।x¯W
এই উদাহরণে যা সাধিত হয়েছে তা সাধারণ: সম্ভাব্য পদ্ধতির বিশাল জটিল সেট, যা মূলত ভেরিয়েবলের সম্ভবত এলোমেলোভাবে কার্যকরী সমন্বিত ছিল , একটি একক ভেরিয়েবলের নন-র্যান্ডমাইজড ফাংশন সমন্বিত প্রক্রিয়াগুলির একটি খুব সহজ সেটকে হ্রাস করা হয়েছে ( বা পর্যাপ্ত পরিসংখ্যান বহুগুণিত হয় এমন ক্ষেত্রে কমপক্ষে কয়েকটি সংখ্যক ভেরিয়েবল)। এবং সিদ্ধান্ত গ্রহণকারীর ক্ষতির কার্যকারিতা কী তা অবিকল চিন্তা না করেই এটি করা যেতে পারে, কেবলমাত্র এটি সরবরাহ করা যায় যে এটি উত্তল এবং পার্থক্যযোগ্য।n
এই জাতীয় ক্ষতির সহজতম কাজটি কী? যেটি বাকি শব্দটিকে উপেক্ষা করে, অবশ্যই এটি একেবারে চতুর্ভুজ ফাংশন করে। এই একই শ্রেণীর অন্যান্য ক্ষতির ফাংশনগুলির মধ্যেযা এর চেয়ে বেশি (যেমন প্রশ্নটিতে উল্লিখিত এবং ), এবং আরও অনেক কিছু।z=|μ^−μ|22.1,e,πexp(z)−1−z
নীল (উপরের) বক্ররেখা প্লট যখন লাল (নিম্ন) বক্ররেখা প্লট । যেহেতু নীল বক্ররেখাও সর্বনিম্ন , পার্থক্যযোগ্য এবং উত্সাহী, চতুর্ভুজ ক্ষতির দ্বারা উপভোগ করা স্ট্যাটিস্টিকাল পদ্ধতিগুলির অনেকগুলি দুর্দান্ত বৈশিষ্ট্য (লাল বক্ররেখা) নীল ক্ষয় ফাংশনেও প্রয়োগ হবে,জেড 2 02(exp(|z|)−1−|z|)z20 এমনকি (বিশ্বব্যাপী ক্ষতিকারক ক্রিয়াকলাপটি হলেও) চতুর্ভুজ ফাংশনের চেয়ে আলাদা আচরণ করে)।
এই ফলাফলগুলি (যদিও আরোপিত শর্তগুলির দ্বারা স্পষ্টতই সীমাবদ্ধ ছিল) পরিসংখ্যানগত তত্ত্ব এবং অনুশীলনে চতুর্ভুজগত ক্ষয়টি সর্বব্যাপী কেন তা ব্যাখ্যা করতে সহায়তা করে: সীমিত পরিমাণে, এটি কোনও উত্তল বিভেদযোগ্য ক্ষতির জন্য বিশ্লেষণযোগ্য সুবিধাজনক প্রক্সি is
চতুর্ভুজীয় ক্ষতি কোনওভাবেই বিবেচনা করার জন্য একমাত্র বা এমনকি সেরা ক্ষতি নয়। আসলে, লেমন এটি লিখেছেন writes
উত্তল ক্ষতি ফাংশনগুলি অনুমানের সমস্যার অনেকগুলি সরলকরণের দিকে পরিচালিত করতে দেখা গেছে। তবে কেউ ভাবতে পারেন যে এই ধরনের ক্ষতির কার্যকারিতা বাস্তবসম্মত হওয়ার সম্ভাবনা রয়েছে কিনা। যদি কেবলমাত্র একটি পরিসংখ্যানের ভুলতা না দেখায় তবে একটি বাস্তব (উদাহরণস্বরূপ, আর্থিক) ক্ষতি হয়, কেউ যুক্তি দিতে পারে যে এই ধরণের সমস্ত ক্ষতির সীমাবদ্ধ: আপনি যখন সমস্ত কিছু হারিয়ে ফেলেন, আপনি আর হারাতে পারবেন না। ...W(F,d)
... [এফ] বর্ধমান ক্ষয়ক্ষতি ফাংশনগুলি এমন অনুমানকারীকে নিয়ে যায় যেগুলি [অনুমানযোগ্য বিতরণের] [পুঁজির আচরণ] সম্পর্কে করা অনুমানের প্রতি সংবেদনশীল হয়ে থাকে এবং এই অনুমানগুলি সাধারণত অল্প তথ্যের উপর ভিত্তি করে থাকে এবং এইভাবে খুব বেশি হয় না নির্ভরযোগ্য।
দেখা যাচ্ছে যে স্কোয়ার ত্রুটি ক্ষতির দ্বারা উত্পাদিত অনুমানকারীরা প্রায়ই এই ক্ষেত্রে অস্বস্তিকর সংবেদনশীল হন।
[লেহম্যান, বিভাগ 1.6; স্বরলিপি কিছু পরিবর্তন সঙ্গে।]
বিকল্প ক্ষতির কথা বিবেচনা করে সম্ভাবনার সমৃদ্ধ সংকলন খুলে যায়: কোয়ান্টাইল রিগ্রেশন, এম-এসেক্টরগুলি, শক্তিশালী পরিসংখ্যান এবং আরও অনেক কিছুই এই সিদ্ধান্ত-তাত্ত্বিক পদ্ধতিতে ফ্রেম করা যেতে পারে এবং বিকল্প ক্ষতির কার্যকারিতা ব্যবহার করে ন্যায়সঙ্গত হতে পারে। একটি সাধারণ উদাহরণের জন্য, পারসেন্টাইল লোকস ফাংশন দেখুন ।
তথ্যসূত্র
জ্যাক কার্ল কেফার, পরিসংখ্যানগত অনুক্রমের পরিচিতি। স্প্রিঞ্জার-ভার্লাগ 1987।
ই এল লেহম্যান, পয়েন্ট অনুমানের তত্ত্ব । উইলে 1983।