ডেটাটিকে পরীক্ষা এবং প্রশিক্ষণে বিভক্ত করা কি নিখুঁতভাবে একটি "পরিসংখ্যান" জিনিস সেট করে?


11

আমি একজন পদার্থবিজ্ঞানের ছাত্র যিনি মেশিন লার্নিং / ডেটা সায়েন্স অধ্যয়ন করে যাচ্ছি তাই আমি এই প্রশ্নটির কোনও বিবাদ শুরু করার অর্থ বোঝাতে চাই না :) যাইহোক, কোনও পদার্থবিজ্ঞানের আন্ডারগ্রাজুয়েট প্রোগ্রামের একটি বড় অংশ ল্যাব / পরীক্ষা-নিরীক্ষা করা, যার অর্থ প্রচুর ডেটা প্রক্রিয়াজাতকরণ এবং পরিসংখ্যান বিশ্লেষণ। তবে পদার্থবিজ্ঞানীরা যেভাবে ডেটা নিয়ে কাজ করেন এবং যেভাবে আমার ডেটা সায়েন্স / স্ট্যাটিস্টিকাল লার্নিং বইগুলি ডেটা নিয়ে কাজ করে তার মধ্যে আমি একটি তীব্র পার্থক্য লক্ষ্য করি।

কী পার্থক্য যে, যখন পদার্থবিদ্যা পরীক্ষায় থেকে প্রাপ্ত তথ্য রিগ্রেশন সম্পাদন করতে চেষ্টা রিগ্রেশন আলগোরিদিম প্রয়োগ করা হয় গোটা ডেটা সেটটি, সেখানে একেবারে প্রশিক্ষণ ও পরীক্ষা সেটে কোন বিভাজন নেই। পদার্থবিজ্ঞানের জগতে R ^ 2 বা কিছু ধরণের সিউডো-আর ^ 2 পুরো ডেটা সেটের ভিত্তিতে মডেলটির জন্য গণনা করা হয়। পরিসংখ্যান বিশ্বে ডেটা প্রায় সর্বদা ৮০-২০, -30০-৩০ ইত্যাদি ইত্যাদিতে বিভক্ত হয় এবং তারপরে মডেলটিকে পরীক্ষার ডেটাসেটের বিপরীতে মূল্যায়ন করা হয়।

এখানে কিছু বড় পদার্থবিজ্ঞান পরীক্ষা (আটলাস, বিসিসিপি, ইত্যাদি ...) রয়েছে যা কখনই এই ডেটা বিভক্ত হয় না, তাই আমি ভাবছি যে পদার্থবিজ্ঞানী / পরীক্ষাগারবিদরা যেভাবে পরিসংখ্যান করেন এবং ডেটা বিজ্ঞানীদের মধ্যে কেন এইরকম দৃ difference় পার্থক্য রয়েছে? পরিসংখ্যান না।


1
(+1) খুব সুন্দর প্রশ্ন (আমার কাছে সঠিকভাবে উত্তর দেওয়ার সময় নেই)। মন্তব্য: পদার্থবিদ্যায় "আসল পরীক্ষা-নিরীক্ষার" বিলাসিতা রয়েছে; সাধারণত নিয়ন্ত্রিত / পরীক্ষাগার শর্ত, বেশিরভাগ সু-সংজ্ঞায়িত ফলাফল / ভেরিয়েবল এবং অনুমানযোগ্য পুনরাবৃত্তিযোগ্যতা। সাধারণ জনস্বাস্থ্য / একনোমেট্রিক্স / সমীক্ষা পরিসংখ্যান প্রকল্পগুলি (কয়েকটি সুস্পষ্ট উপ-ক্ষেত্র উল্লেখ করার জন্য) কেবল এটি পান না। বিস্ময়কর, মৌসুমতা (সময়-নির্ভরতা) এবং সাধারণত ধারণা বামন পরিসংখ্যানগুলিতে ছড়িয়ে পড়ে তাই এই "ডেটা বিভক্তকরণ" সম্পূর্ণ নিরীহ ফলাফলগুলি প্রতিরোধের একটি সুস্পষ্ট উপায়। এছাড়াও সমস্ত অনুমানকারী সমান দক্ষ তৈরি হয় না। :)
usεr11852

3
আপনি ডেভিড Donoho, একটি পরিসংখ্যান স্ট্যানফোর্ড অধ্যাপক দ্বারা একটি সাম্প্রতিক আলোচনা কাগজে প্রাসঙ্গিক আলোচনা এবং ব্যাকগ্রাউন্ড একটি সম্পদ পাবেন: courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf দেখুন বিশেষ করে "এর ভবিষ্যদ্বাণীপূর্ণ সংস্কৃতি আলোচনা "যেমনটি গতানুগতিক পরিসংখ্যানের সাথে বিপরীত।
গর্ডন স্মিথ

1
আমি মনে করি এটি একটি "তত্ত্বের অনুপস্থিতিতে ভবিষ্যদ্বাণী" জিনিস, যা "পরিসংখ্যান" এর একটি ছোট উপসেট, এবং মেশিন লার্নিংয়ের একটি বৃহত উপসেট।
ল্যাকোনিক

পরিসংখ্যানবিদরা তাদের ডেটা বিভক্ত করেন না (p <.05)
rep_ho

@ রিপ_হো - কেউ কেউ - সম্ভবত অনেকগুলি - এমন পরিস্থিতিতে জড়িত পরিসংখ্যানবিদরা যেখানে নমুনা পূর্বাভাসের বাইরে গুরুত্বপূর্ণ তা করা (এবং কিছু দীর্ঘকাল ধরে করেছেন)। ক্রসওয়েডিয়েশন এবং লেভ-ওয়ান-আউট পরিসংখ্যানের মতো ধারণা (উদাহরণস্বরূপ) যুগে যুগে রয়েছে। পরিসংখ্যানবিদরা কেবল একবারই বিভক্ত হবে না, যদি না তা অনিবার্য না হয়। এটি নির্ভর করে আপনি কোন পরিসংখ্যানবিদদের সাথে কথা
বলছেন

উত্তর:


6

সমস্ত পরিসংখ্যানগত পদ্ধতি প্রশিক্ষণ / পরীক্ষার ডেটাতে বিভক্ত হয় না, একে "ক্রস-বৈধকরণ" (যদিও পুরো পদ্ধতিটির চেয়ে কিছুটা বেশি জড়িত)।

বরং এটি এমন একটি কৌশল যা বিশেষত নমুনা ছাড়াই ত্রুটিটি অনুমান করতে ব্যবহৃত হয় ; অর্থাত্ আপনার মডেল একটি নতুন ডেটাসেট ব্যবহার করে নতুন ফলাফলের পূর্বাভাসটি কতটা ভাল করবে? উদাহরণস্বরূপ, আপনার ডেটাসেটে স্যাম্পেলগুলির সংখ্যার তুলনায় প্রেডিক্টরগুলির একটি খুব বড় সংখ্যক যখন এটি থাকে তখন এটি একটি অত্যন্ত গুরুত্বপূর্ণ সমস্যা হয়ে দাঁড়ায়। এই ধরনের ক্ষেত্রে, দুর্দান্ত ইন-স্যাম্পল ত্রুটিযুক্ত একটি মডেল তৈরি করা সত্যিই সহজ তবে নমুনা ত্রুটির বাইরে ভয়াবহ ("ওভার ফিটিং" নামে পরিচিত)। আপনার কাছে বিপুল সংখ্যক ভবিষ্যদ্বাণী এবং বিপুল সংখ্যক নমুনা উভয় ক্ষেত্রেই রয়েছে, নতুন ডেটা নিয়ে ভবিষ্যদ্বাণী করার সময় মডেলটি কতটা ভাল আচরণ করবে তা নির্ধারণে সহায়তা করার জন্য ক্রস-বৈধকরণ একটি প্রয়োজনীয় সরঞ্জাম। প্রতিযোগী ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির মধ্যে নির্বাচন করার সময় এটি একটি গুরুত্বপূর্ণ সরঞ্জামও।

অন্য নোটে, ভবিষ্যদ্বাণীমূলক মডেল তৈরি করার চেষ্টা করার সময় ক্রস-বৈধতা প্রায় সর্বদা ব্যবহৃত হয় । সাধারণভাবে, আপনি যখন কিছু চিকিত্সার প্রভাব অনুমান করার চেষ্টা করছেন তখন মডেলগুলির পক্ষে এটি খুব কার্যকর নয়। উদাহরণস্বরূপ, যদি আপনি উপকরণ এ এবং বি ("চিকিত্সা" উপাদান ধরণের হচ্ছে) মধ্যে প্রসার্য শক্তি বিতরণ তুলনা করছেন, ক্রস বৈধতা প্রয়োজন হবে না; যদিও আমরা আশা করি যে চিকিত্সার প্রভাবের আমাদের অনুমানটি নমুনা ছাড়াই সাধারণীকরণ করে, বেশিরভাগ সমস্যার জন্য ক্লাসিক পরিসংখ্যানগত তত্ত্ব উত্তরটি দিতে পারে (যেমন অনুমানের "স্ট্যান্ডার্ড ত্রুটি") ক্রস-বৈধকরণের চেয়ে আরও সঠিকভাবে। দুর্ভাগ্যক্রমে, শাস্ত্রীয় পরিসংখ্যান পদ্ধতি 1স্ট্যান্ডার্ড ত্রুটিগুলি অত্যধিক ফিটনের ক্ষেত্রে ধরে রাখে না। সেক্ষেত্রে ক্রস-বৈধতা প্রায়শই আরও ভাল করে।

অন্যদিকে, আপনি যদি 10,000,000 পরিমাপের ভেরিয়েবলের উপর ভিত্তি করে কোনও উপাদান কখন ভেঙে পড়বে তা 100,000 পর্যবেক্ষণের ভিত্তিতে কিছু মেশিন লার্নিং মডেলটিতে ফেলে দিচ্ছেন এমন ভবিষ্যদ্বাণী করার চেষ্টা করছেন, আপনার ক্রস বৈধতা ছাড়াই দুর্দান্ত মডেল তৈরি করতে অনেক সমস্যা হবে!

আমি প্রচুর পদার্থবিজ্ঞানের পরীক্ষাগুলিতে অনুমান করছি, আপনি সাধারণত প্রভাবগুলির অনুমানের বিষয়ে আগ্রহী। এই ক্ষেত্রে, ক্রস-বৈধকরণের খুব কম প্রয়োজন।

1 যে কেউ তর্ক করতে পারে যে তথ্যবহুল প্রিয়ারদের সাথে বয়েসীয় পদ্ধতিগুলি একটি শাস্ত্রীয় পরিসংখ্যান পদ্ধতি যা অত্যধিক মানকে সম্বোধন করে। তবে সেটা অন্য আলোচনা।

পার্শ্ব দ্রষ্টব্য: ক্রস-বৈধকরণটি প্রথম পরিসংখ্যানের সাহিত্যে প্রকাশিত হয়েছিল, এবং স্পষ্টতই যারা নিজেকে পরিসংখ্যানবিদ বলেছেন তাদের দ্বারা ব্যবহৃত হয়, এটি মেশিন লার্নিং সম্প্রদায়ের একটি প্রয়োজনীয় প্রয়োজনীয় সরঞ্জাম হয়ে উঠেছে become প্রচুর পরিসংখ্যান মডেল ক্রস-বৈধতা ব্যবহার না করে ভাল কাজ করবে, তবে প্রায় সমস্ত মডেল যেগুলি "মেশিন লার্নিং প্রেডিকটিভ মডেল" হিসাবে বিবেচিত হয় তাদের ক্রস-বৈধকরণ প্রয়োজন , কারণ তাদের প্রায়শই সুর করার প্যারামিটারগুলির নির্বাচন প্রয়োজন হয়, যা ক্রস ছাড়াই করা প্রায় অসম্ভব। -validation।


এনপি

@ ইউএসআর ১১৮৫২: হ্যাঁ, তবে ক্রস-বৈধতা ছাড়াই যুক্তিসঙ্গত নিয়ন্ত্রণ জরিমানা বাছাই প্রায় অসম্ভব (বায়সিয়ান প্রিয়ার হিসাবে পেনাল্টি সম্পর্কে চিন্তাভাবনা বাদে, তবে ব্ল্যাক বক্সের মডেলগুলির সাথে এটি শক্ত)! এবং যখন আমরা আমাদের ফলাফলগুলিকে A থেকে B এর তুলনা করে নমুনা ধরে রাখতে চাই, তবে এটি সাধারণত কোনও সমস্যা নয় যা মডেল টিউনিংয়ের প্রয়োজন হয় (যেমন পূর্বাভাস প্রায়শই হয়), এবং তুলনামূলকভাবে কম সংখ্যক পরামিতি সহ, শাস্ত্রীয় পরিসংখ্যান তত্ত্ব এটি পরিচালনা করতে পারে ক্রস বৈধতা ব্যবহার না করে।
ক্লিফ এবি

এটি একটি বিজ্ঞপ্তি যুক্তি, নিয়ামকরণ ক্রস-বৈধকরণ ব্যবহার করে তবে ক্রম-বৈধকরণ নিয়মিতকরণের জন্য করা হয়। এ কারণেই আমি এর শুরুতে কিছুটা বিরুদ্ধেই মন্তব্য করেছি। আমি মনে করি পরিসংখ্যানগত অনুমান / কার্যকারিতা এই নন-মডেল টিউনিং পদ্ধতির থেকে দূরে সরে গেছে (উদাহরণস্বরূপ দেখুন 2016 জোহানসন এট আল। "কাউন্টারফ্যাক্টুয়াল ইনফারেন্সের জন্য উপস্থাপনাগুলি শেখা" - এমন অগোছালো সুন্দর কাগজ)। অবশেষে ফান্ডামেন্টাল ফিজিক্স গবেষণা যখন এটি কঠিন সমস্যাগুলি উপস্থাপন করে তখন এমএল (যেমন হিগস বোসন মেশিন লার্নিং চ্যালেঞ্জ ) পদ্ধতির উপরও নির্ভর করতে পারে ।
usεr11852

@ usεr11852 নিয়মিতকরণ ক্রস-বৈধকরণ "ব্যবহার" করে না, বরং নিয়মিতকরণের জন্য আপনার টিউনিং প্যারামিটারটি ক্রস বৈধতা ব্যবহার করে বেছে নেওয়া হয়েছে। উদাহরণস্বরূপ, দেখুন glment's cv.glmnetএকটা চমৎকার কম্প্যাক্ট ফাংশনে পুরো প্রক্রিয়া জন্য।
ক্লিফ এবি

1
এছাড়াও, আমি কখনও দাবি করি নি যে পদার্থবিজ্ঞানের গবেষণা এমএল পন্থাগুলি বা ক্রস-বৈধকরণ ব্যবহার করতে পারে না! আমি কেবল ব্যাখ্যা করছিলাম যে ক্রস-বৈধকরণ সাধারণত অনুমানমূলক মডেলগুলিতে জটিল মডেল / টিউনিং পরামিতিগুলির মধ্যে চয়ন করার জন্য বিশেষত ব্যবহৃত হয় এবং অনেকগুলি ক্লাসিক পদার্থবিজ্ঞানের পরীক্ষায় ক্রস-বৈধকরণ প্রয়োজন হয় না। সুতরাং পদার্থবিজ্ঞানীরা সেই ডেটা দিয়ে কী করবেন তা স্ট্যাটিস্টিস্টিয়ানরা সেই ডেটা নিয়ে কী করবেন তার সাথে মতবিরোধ নয়, যা আমি বিশ্বাস করি যে ওপি'র প্রশ্নের মূল বিষয়।
ক্লিফ এবি

3

(বিশ্লেষণাত্মক) রসায়নবিদ হওয়ায় আমি উভয় পদ্ধতির মুখোমুখি হয়েছি: যোগ্যতার পরিসংখ্যানগুলির বিশ্লেষণী গণনা [বেশিরভাগ অদ্বিতীয় প্রতিরোধের জন্য] পাশাপাশি যোগ্যতার ভবিষ্যদ্বাণীমূলক পরিসংখ্যানের সরাসরি পরিমাপ।
আমার কাছে ট্রেন / পরীক্ষার বিভাজন হ'ল পূর্বাভাসের গুণমানকে পরিমাপ করার জন্য একটি বৈধতা পরীক্ষার "ছোট ভাই"।


দীর্ঘ উত্তর:

সুনির্দিষ্ট পরীক্ষাগুলি আমরা উদাহরণস্বরূপ স্নাতক শারীরিক রসায়নগুলিতে অবিচ্ছিন্ন রিগ্রেশন ব্যবহার করি। আগ্রহের সম্পত্তি প্রায়শই মডেল প্যারামিটার হয়, যেমন প্রতিক্রিয়া গতিবিদ্যা পরিমাপ করার সময় সময় ধ্রুবক, তবে কখনও কখনও ভবিষ্যদ্বাণীও (যেমন আগ্রহের কিছু মান পূর্বাভাস / পরিমাপের জন্য অবিবাহিত রৈখিক ক্যালিগ্রেশন)।
এই পরিস্থিতিগুলি অত্যধিক মানানসই না হওয়ার দিক থেকে খুব সৌম্যবহুল: সাধারণত সমস্ত প্যারামিটার অনুমানের পরে স্বাচ্ছন্দ্যের অনেক ডিগ্রি বাকী থাকে এবং তারা শাস্ত্রীয় আত্মবিশ্বাস বা ভবিষ্যদ্বাণী ব্যবস্থার গণনা এবং শাস্ত্রীয় ত্রুটিযুক্ত শিক্ষার্থীদের প্রশিক্ষণের জন্য (শিক্ষার ক্ষেত্রে) ব্যবহার করা হয় প্রচার - তারা এই পরিস্থিতিতে জন্য উন্নত ছিল। এবং পরিস্থিতি পুরোপুরি পাঠ্যপুস্তকের মতো না হলেও (উদাহরণস্বরূপ আমার ডেটাতে আমার কাঠামো আছে, উদাহরণস্বরূপ গতিশাস্ত্রে আমি প্রত্যাশা করছিলাম যে ডেটা একটি রানের চেয়ে পরিমাপের মধ্যে প্রতিক্রিয়া রানের মধ্যে পার্থক্য দ্বারা বর্ণনা করা হবে) সরল এক-বৈকল্পিক-কেবল পদ্ধতির), আমি এখনও কার্যকর ফলাফল পেতে পরীক্ষার যথেষ্ট রান করতে পারি।

পিএনএন<পিএনএনএন, ধ্রুপদী দৃষ্টিভঙ্গি কার্যকর হয় না। তবে আমি প্রায়শই ভবিষ্যদ্বাণী করছি বলে আমার মডেলটির ভবিষ্যদ্বাণীপূর্ণ দক্ষতা পরিমাপের খুব সদা সম্ভাবনা থাকে: আমি ভবিষ্যদ্বাণী করি এবং সেগুলি রেফারেন্স মানগুলির সাথে তুলনা করি।

এই পদ্ধতির প্রকৃতপক্ষে খুব শক্তিশালী (যদিও পরীক্ষামূলক প্রচেষ্টার ফলে ব্যয়বহুল), কারণ এটি আমাকে প্রশিক্ষণ / ক্রমাঙ্কণের ডেটাতে আওতাভুক্ত শর্তগুলির জন্য ভবিষ্যদ্বাণীমূলক গুণাগুণও তদন্ত করতে দেয়। উদাহরণস্বরূপ, কীভাবে এক্সট্রাপোলেশন দিয়ে ভবিষ্যদ্বাণীমূলক গুণগতমানের অবনতি ঘটে তা পরিমাপ করতে পারি (এক্সট্রাপোলেশনের মধ্যে রয়েছে উদাহরণস্বরূপ পরিমাপও করা হয়েছে, বলুন, প্রশিক্ষণের ডেটা অর্জিত হওয়ার এক মাস পরে), আমি যে উদ্বেগজনক কারণগুলি আশা করি যেগুলি গুরুত্বপূর্ণ বলে প্রতিরোধ করতে পারি, ইত্যাদি আমি অন্য কথায় বলতে পারি other , আমরা অন্য মডেলের আচরণ যেমন অধ্যয়ন করতে পারি ঠিক তেমনভাবে অন্য যে কোনও সিস্টেমের আচরণ সম্পর্কেও অধ্যয়ন করতে পারি: আমরা নির্দিষ্ট পয়েন্টগুলি অনুসন্ধান করি, বা এটিকে পর্যবেক্ষণ করি এবং সিস্টেমের উত্তরের পরিবর্তনকে লক্ষ্য করি ইত্যাদি

আমি বলব যে আরও গুরুত্বপূর্ণ ভবিষ্যদ্বাণীমূলক গুণ হ'ল (এবং অতিরিক্ত চাপের ঝুঁকি তত বেশি) আমরা বিশ্লেষণাত্মকভাবে প্রাপ্ত সংখ্যার পরিবর্তে ভবিষ্যদ্বাণীমূলক মানের সরাসরি পরিমাপ পছন্দ করি। (অবশ্যই আমরা এই সমস্ত বিভ্রান্তকারীকে প্রশিক্ষণ পরীক্ষার নকশার মধ্যে অন্তর্ভুক্ত করতে পারতাম)। কিছু রোগ যেমন মেডিকেল ডায়াগনস্টিকস দাবি করেন যে সত্যিকারের রোগীদের উপর মডেলটি "আলগা হতে দিন" তার আগে যথাযথ বৈধতা অধ্যয়ন করা হয়।

ট্রেন / পরীক্ষার বিভাজন (তা হোল্ড আউট * বা ক্রস বৈধতা বা বুটস্ট্র্যাপের বাইরে বা ...) এটি এক ধাপ আরও সহজ করে নেয়। আমরা অতিরিক্ত পরীক্ষা সংরক্ষণ করি এবং এক্সট্রোপোলেট করি না (আমরা কেবল প্রশিক্ষণের ডেটার খুব একই বিতরণের অজানা স্বতন্ত্র কেসগুলির পূর্বাভাস দিতেই সাধারণীকরণ করি)। আমি এটিকে বৈধতার চেয়ে যাচাইকরণ হিসাবে বর্ণনা করব (যদিও বৈধতা এখানে পরিভাষায় গভীরভাবে রয়েছে)। যোগ্যতার পরিসংখ্যানগুলির নির্ভুলতার উপরে খুব বেশি চাহিদা না থাকলে এটি প্রায়শই ব্যবহারিক উপায় (

* পূর্বাভাসের গুণমানকে পরিমাপ করার জন্য একটি একক এলোমেলো বিভাজনকে ট্রেনে বিভ্রান্ত করবেন না এবং সঠিকভাবে নকশা করা স্টাডি দিয়ে পরীক্ষা করুন।


2
যাচাইকরণ এবং বৈধতার পার্থক্যটি নির্দেশ করার জন্য +1।
পূর্বাভাসকারী
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.