কীভাবে প্রমাণ করবেন যে বহুগুণ অনুমানটি সঠিক?


9

মেশিন লার্নিংয়ে, প্রায়শই ধরে নেওয়া হয় যে একটি ডেটা সেট একটি স্বাচ্ছন্দ্য নিম্ন-মাত্রিক বহুগুণ (বহুবিধ অনুমান) এর উপর নির্ভর করে তবে কিছু শর্তটি সন্তুষ্ট বলে ধরে নিবারণের কোনও উপায় আছে, তবে ডেটা সেটটি প্রকৃতপক্ষে (আনুমানিক) উত্পন্ন হয়েছে নিম্ন মাত্রিক মসৃণ বহুগুণ থেকে?

উদাহরণস্বরূপ, একটি ডেটা সিকোয়েন্স দেওয়া হয়েছে যেখানে (বিভিন্ন মুখের ক্রম বলুন) এবং একটি লেবেল সিকোয়েন্স যেখানে (মুখের ক্রমের কোণগুলি বলুন)। ধরুন এবং when যখন খুব কাছাকাছি থাকে, তখন তাদের লেবেল এবং also খুব কাছাকাছি থাকে, আমরা ধারণা করতে পারি যে এটি সম্ভবত{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}নিম্ন-মাত্রিক বহুগুণে শুয়ে থাকুন। এটা কি সত্য? যদি তা হয় তবে কীভাবে আমরা এটি প্রমাণ করতে পারি? বা ক্রমটি কোন শর্ত পূরণ করতে প্রয়োজন যাতে বহুগুণ অনুমানটি সত্য প্রমাণিত হতে পারে?

উত্তর:


10

এটি "বহুগুণ অনুমান" এর অনেক বিবরণ দেখে দ্রুত প্রকাশ পেয়ে যায় যে অনেক লেখক এর অর্থ সম্পর্কে উল্লেখযোগ্যভাবে নিচু হয়ে আছেন। আরও সতর্কতার সাথে একটি সূক্ষ্ম তবে অত্যন্ত গুরুত্বপূর্ণ সাবধানতার সাথে এটি সংজ্ঞায়িত করা হয় : যে ডেটা নিম্ন-মাত্রিক বহুগুণে থাকে বা কাছে থাকে

এমনকি যারা "ক্লোজ বা ক্লোজ" অন্তর্ভুক্ত করেন না তারা গাণিতিক বিশ্লেষণ সম্পাদন করার জন্য সুবিধাজনক হিসাবে আনুমানিক কথাসাহিত্য হিসাবে বহুগুণ অনুমানকে গ্রহণ করেন, কারণ তাদের অ্যাপ্লিকেশনগুলি অবশ্যই ডেটা এবং আনুমানিক বহুগুণের মধ্যে বিচ্যুতি বিবেচনা করতে পারে। প্রকৃতপক্ষে, অনেক লেখক পরে বিচ্যুতির জন্য একটি স্পষ্ট প্রক্রিয়া প্রবর্তন করেন, যেমন বিরুদ্ধে রিগ্রেশন বিবেচনা করার ক্ষেত্রে যেখানে একাধিক তে মিথ্যা বলতে বাধ্য হয় তবে অন্তর্ভুক্ত থাকতে পারে এলোমেলো বিচ্যুতি এই ত সমতূল্য যে tuples মিথ্যা ঘনিষ্ঠyxxMkRd y(xi,yi)থেকে, তবে অগত্যা নয়, ফর্মটির একটি নিমজ্জন মাত্রিক বহুগুণk

(x,f(x))Mk×RRd×RRd+1

কিছু মসৃণ (রিগ্রেশন) ফাংশন জন্য । যেহেতু আমরা সমস্ত বিচলিত পয়েন্টগুলি দেখতে পাচ্ছি , যা কেবল এর গ্রাফের নিকটেই রয়েছে (একটি ডাইমেনশনাল বহুগুণ), মিথ্যা বলে উপর -dimensional নানাবিধ , এই থেকে "এ" পার্থক্য "ঘনিষ্ঠ থেকে" তত্ত্ব গুরুত্বহীন পারে সেই বিষয়ে ব্যাখ্যা কেন এমন sloppiness সাহায্য করে।f:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

অ্যাপ্লিকেশনগুলির জন্য "চালু" এবং "নিকটে" এর মধ্যে পার্থক্য অত্যন্ত গুরুত্বপূর্ণ। "ক্লোজ টু" মঞ্জুরি দেয় যে ডেটা বহুগুণ থেকে বিচ্যুত হতে পারে। সেই হিসাবে, যদি আপনি সেই বহুগুণ অনুমান করতে বেছে নেন, তবে ডেটা এবং বহুগুণের মধ্যে বিচরণের নির্দিষ্ট পরিমাণের পরিমাণ মাপতে পারে। একটি ফিট ম্যানিফোল্ড অন্যের চেয়ে ভাল হবে যখন সাধারণ পরিমাণে বিচ্যুতি কম হয়, সেটেরিস পারিবাস।

ব্যক্তিত্ব

চিত্রটি ডেটাগুলির জন্য বহুবিধ অনুমানের দুটি সংস্করণ দেখায় (বৃহত্তর নীল বিন্দুগুলি): কালো ম্যানিফোল্ড তুলনামূলকভাবে সহজ (বর্ণনা করার জন্য কেবলমাত্র চারটি পরামিতি প্রয়োজন) তবে কেবল তথ্যটি "কাছাকাছি" আসে, যখন লাল বিন্দুযুক্ত বহুগুণ ডেটা ফিট করে পুরোপুরি তবে জটিল (17 পরামিতি প্রয়োজন)।

এই জাতীয় সমস্ত সমস্যার মতোই, বহুগুণ বর্ণনা করার জটিলতা এবং ফিটের উপকারের (অত্যধিক মানসিক সমস্যা) মধ্যে একটি বাণিজ্য রয়েছে। এটি সর্বদা ক্ষেত্রে যে এক-মাত্রিক বহুগুণে এর যে কোনও সীমাবদ্ধ পরিমাণের ডেটা পুরোপুরি ফিট করতে পাওয়া যায় (চিত্রটিতে লাল বিন্দুযুক্ত বহুগুণ হিসাবে, কেবলমাত্র সমস্ত পয়েন্টের মাধ্যমে একটি মসৃণ বক্ররেখা চালান , যে কোনও ক্রমে: প্রায় অবশ্যই এটি নিজেকে ছেদ করবে না, তবে এটি যদি হয় তবে এটিকে নির্মূল করার জন্য এই জাতীয় কোনও ছেদগুলির আশেপাশে অবস্থিত বক্ররেখাকে আটকান। অন্য চূড়ান্তভাবে, যদি কেবলমাত্র সীমিত শ্রেণীর বহুগুণ অনুমোদিত হয় (যেমন কেবল স্ট্রেইট ইউক্লিডিয়ান হাইপারপ্লেন) কেবলমাত্র মাত্রা নির্বিশেষে একটি ভাল ফিট অসম্ভব হতে পারে এবং ডেটা এবং ফিটের মধ্যে আদর্শ বিচ্যুতি বড় হতে পারে।Rd

এটি বহুগুণ অনুমানের মূল্যায়ন করার জন্য একটি সহজ এবং বাস্তব উপায়ের দিকে পরিচালিত করে: যদি বহুগুণ অনুমানের থেকে বিকশিত মডেল / প্রেডিক্টর / শ্রেণিবদ্ধী গ্রহণযোগ্যভাবে ভালভাবে কাজ করে তবে অনুমিতিটি ন্যায়সঙ্গত হয়েছিল। সুতরাং, প্রশ্নে উপযুক্ত উপযুক্ত শর্তগুলি হ'ল ফিটের ধার্মিকতার জন্য কিছু প্রাসঙ্গিক পরিমাপ গ্রহণযোগ্যভাবে ছোট। (কী পরিমাপ? এটি সমস্যার উপর নির্ভর করে এবং ক্ষতির ফাংশনটি নির্বাচন করার সমতুল্য is)

এটা সম্ভব যে বিভিন্ন মাত্রার বহুগুণ (তাদের বক্ররেখাতে বিভিন্ন ধরণের প্রতিবন্ধকতা সহ) ডেটা মাপসই করতে পারে - এবং বহিরাগত ডেটা পূর্বাভাস - সমানভাবে ভাল। সাধারণভাবে "অন্তর্নিহিত" বহুগুণ সম্পর্কে কিছুই "প্রমাণিত" হতে পারে না , বিশেষত বড়, অগোছালো, মানব ডেটাসেটের সাথে কাজ করার সময়। আমরা সাধারণত যা আশা করতে পারি তা হ'ল এটি মাপের বহু গুণ একটি ভাল মডেল।

আপনি যদি কোনও ভাল মডেল / ভবিষ্যদ্বাণী / শ্রেণিবদ্ধার সাথে না উপস্থিত হন, তবে হয় বহুগুণ অনুমানটি অবৈধ, আপনি খুব ছোট মাত্রার বহুগুণ ধরে নিচ্ছেন, বা আপনি যথেষ্ট শক্ত বা যথেষ্ট দেখছেন নি।


1
+1 খুব সুন্দর। আমাকে যুক্ত করতে দাও (আপনি আমার মতামতকে বোঝানো ছাড়াই) যা এটি আবার দেখায় যে মূলত কিন্তু সংশয়বাদী এবং প্রায়শই বহুবার ধরে পরিসংখ্যানগুলিতে যেভাবে চিন্তাভাবনা করা হয়েছে তা প্রায়শই অস্পষ্ট, দ্রুত, চকচকে-নতুন- মেশিন লার্নিং এবং ডেটা বিজ্ঞানের খেলনা বিশ্ব।
মোমো

5

যে কোনও পয়েন্টের সীমাবদ্ধ সেট যে কোনও বহুগুণে ফিট করতে পারে (তাত্ত্বিক রেফারেন্স প্রয়োজন, আমি উপপাদ কী তা মনে করতে পারি না, আমি কেবল ইউনি থেকে এই ঘটনাটি মনে করি)।

যদি কেউ সমস্ত পয়েন্ট চিহ্নিত করতে না চায় তবে সর্বনিম্ন সম্ভাব্য মাত্রা 1 হয়।

একটি সাধারণ উদাহরণ হিসাবে বিবেচনা করুন, এন 2 ডি পয়েন্ট দেওয়া, সেখানে কিছু এন - 1 অর্ডার বহুপদী উপস্থিত রয়েছে যেখানে সমস্ত এন পয়েন্টগুলি সেই বহুবর্ষের উপর অবস্থিত। অতএব যে কোনও 2 ডি ডেটাসেটের জন্য আমাদের কাছে 1 ডি বহুগুণ রয়েছে। আমি মনে করি স্বেচ্ছাচারী মাত্রার জন্য যুক্তিটি একই রকম।

সুতরাং, এটি সমস্যা নয়, আসল অনুমানগুলি বহুগুণের কাঠামো / সরলতার উপর রয়েছে, বিশেষত যখন সংযুক্ত রিমানিয়ান ম্যানিফোল্ডগুলি মেট্রিক স্পেস হিসাবে বিবেচনা করে। আমি এই বহুগুণে হোকাস পোকাসে কাগজপত্র পড়েছি এবং যদি আপনি সাবধানে পড়েন তবে বেশ কয়েকটি বিশাল অনুমানগুলি প্রকাশিত হয়!

অনুমানগুলি যখন করা হয় তখন "ঘনিষ্ঠতা" এর প্ররোচিত সংজ্ঞাটি "আমাদের ডেটাসেটের তথ্য সংরক্ষণ করা" বলে ধরে নেওয়া হয়, তবে যেহেতু এটি তথ্য তাত্ত্বিক পদগুলিতে আনুষ্ঠানিকভাবে সংজ্ঞায়িত হয় না, ফলস্বরূপ সংজ্ঞাটি বেশ আদৌ একটি বাস্তব ধারণা এবং এটি বেশ বিশাল একটি অনুমান। বিশদ বিবরণে সমস্যাটি মনে হয় যে "ঘনিষ্ঠতা" সংরক্ষণ করা হয়েছে, অর্থাৎ দুটি নিকটতম পয়েন্ট, কাছাকাছি থাকুন, তবে সেই "প্রহসন" হয় না এবং সুতরাং দুটি "দূরে" পয়েন্ট দূরে থাকে না।

উপসংহারে আমি মেশিন লার্নিংয়ে এ জাতীয় কৌশল সম্পর্কে খুব সতর্ক থাকব যদি না এর পরিচিত ডেটাসেটটি প্রকৃতপক্ষে ইউক্যালিডিয়ান না হয়, যেমন ভিজ্যুয়াল প্যাটার্ন স্বীকৃতি। আমি আরও সাধারণ সমস্যার জন্য এই পদ্ধতিগুলি উপযুক্ত বিবেচনা করব না।


ধন্যবাদ! আপনার উত্তর আমাকে সমস্যাটি আরও ভালভাবে বুঝতে সাহায্য করেছে। আপনি এখানে উল্লিখিত বহুগুণ অনুমান সম্পর্কে কিছু কাগজপত্র সুপারিশ করতে পারেন?
থিঙ্কবার

দুঃখিত, কোনও স্মৃতি মনে নেই, গুগলের সাহায্য করতে সক্ষম হওয়া উচিত :)
সামিটবেস্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.