ভবিষ্যদ্বাণীপূর্ণ মডেল: পরিসংখ্যান সম্ভবত মেশিন লার্নিংকে বীট করতে পারে না? [বন্ধ]


14

আমি বর্তমানে পরিসংখ্যান / একোমেট্রিক্সের উপর দৃষ্টি নিবদ্ধ করে একটি মাস্টার প্রোগ্রাম অনুসরণ করছি। আমার মাস্টারে, সমস্ত শিক্ষার্থীদের 3 মাস গবেষণা করতে হয়েছিল। গত সপ্তাহে, সমস্ত গ্রুপকে তাদের গবেষণাটি মাস্টার্সের বাকী শিক্ষার্থীদের কাছে উপস্থাপন করতে হয়েছিল।

প্রায় প্রতিটি গোষ্ঠী তাদের গবেষণামূলক বিষয়গুলির জন্য কিছু পরিসংখ্যানগত মডেলিং এবং কিছু মেশিন লার্নিং মডেলিং করেছিল এবং প্রতি একক বারের নমুনা পূর্বাভাসের কথা বলতে এসেছিল সহজ মেশিন লার্নিং মডেলগুলি অত্যন্ত পরিশীলিত পরিসংখ্যানের মডেলগুলিকে পরাজিত করে যে প্রত্যেকে গত 3 টির জন্য খুব কঠোরভাবে কাজ করেছিল beat মাস। প্রত্যেকের পরিসংখ্যানের মডেলগুলি যত ভালই পায় না কেন, একটি সাধারণ এলোমেলো বনটি সর্বদা নমুনা ছাড়াই খুব কম নমুনা পেয়ে থাকে।

আমি ভাবছিলাম যে এটি কি সাধারণভাবে গৃহীত পর্যবেক্ষণ? এটি যদি স্যাম্পলটির পূর্বাভাসের বাইরে চলে আসে তবে সাধারণ এলোমেলো অরণ্য বা চূড়ান্ত গ্রেডিয়েন্ট বুস্টিং মডেলটিকে পেটানোর কোনও উপায় নেই? এই দুটি পদ্ধতি আর প্যাকেজ ব্যবহার করে প্রয়োগ করা অত্যন্ত সহজ, যেখানে সমস্ত পরিসংখ্যানের মডেলগুলি যার সাথে প্রত্যেকে এসেছিল তাদের জন্য যথেষ্ট পরিমাণ দক্ষতা, জ্ঞান এবং অনুমান করার প্রচেষ্টা প্রয়োজন।

এই সম্পর্কে আপনার চিন্তা কি? পরিসংখ্যান / ইকোনোমেট্রিক মডেলগুলির একমাত্র উপকার যা আপনি ব্যাখ্যা অর্জন করেন? বা আমাদের মডেলগুলি কি এতটা ভাল ছিল না যে তারা সাধারণ এলোমেলো বনের পূর্বাভাসগুলি উল্লেখযোগ্যভাবে কার্যকর করতে ব্যর্থ হয়েছিল? এই সমস্যাটি সম্বোধন করে এমন কোনও কাগজপত্র রয়েছে কি?


5
এটি "খুব বিস্তৃত" হিসাবে বন্ধ হয়ে যেতে পারে। (আশা করি "মতামত ভিত্তিক" হিসাবে নয়!) আমার গ্রহণ: আমার মনে হয় না যে সর্বজনীন উত্তর আছে। আমার অভিজ্ঞতা হ'ল পরিসংখ্যানের মডেলগুলি যদি কম পর্যবেক্ষণ থাকে তবে আরও ভাল, কারণ তখন কিছু ধরণের কাঠামো চাপিয়ে দেওয়া বেশিরভাগ ক্ষেত্রে মডেল-মুক্ত পদ্ধতির উন্নতি করে। বিপরীতে, যদি অনেক পর্যবেক্ষণ থাকে তবে আরএফগুলি আরও ভাল। ...
স্টিফান কোলাসা

4
... অন্য প্রশ্নটি হ'ল মূল্যায়ন কী হয়েছিল, এবং কীভাবে। যদি পয়েন্ট পূর্বাভাসগুলি যথাযথভাবে মূল্যায়ন করা হয় ( যথাযথ ব্যবস্থাগুলি আশ্চর্যরূপে বিভ্রান্তিমূলক হতে পারে), এটি ঘনত্বের পূর্বাভাসগুলি ছিল কিনা তার চেয়ে আলাদা বিষয়। পরিসংখ্যান সংক্রান্ত মডেলগুলি আবার ঘনত্বের পূর্বাভাসে আরও ভাল হতে পারে কারণ আপনার আরও অনেক ডেটা প্রয়োজন।
স্টিফান কোলাসা 12 '12

1
@ স্টাফানকোলাসা: আমি মনে করি যে এই প্রশ্নের উত্তম উত্তর (বা বেশ কয়েকটি উত্তরের সেট) সর্বজনীন উত্তর না থাকার কারণগুলি নিয়ে গঠিত হবে - তাত্ত্বিকভাবে এবং ব্যবহারিকভাবে - কীভাবে ভবিষ্যদ্বাণীমূলক পারফরম্যান্সকে মূল্যায়ন করা হয়, কীভাবে পরিসংখ্যান ও মেশিনের মধ্যে পার্থক্য তৈরি করা যায়? শিক্ষার পদ্ধতিগুলি, ভবিষ্যদ্বাণী ছাড়িয়ে কী লক্ষ্য থাকতে পারে, এবং আমি দু'টি জিনিস ভাবিনি। সুতরাং একটি বিস্তৃত সুযোগ; তবে আমার মতে খুব বেশি বিস্তৃত নয়, এবং এটি সীমাবদ্ধ করার চেষ্টা করা কেবল দরকারী সাধারণ পয়েন্টগুলি তৈরির কাজকেই থামিয়ে দিতে পারে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

5
আমরা যা চাই না তা হ'ল উপাখ্যানগুলির সংগ্রহ - আমি ব্যবহারকারীদের মুছে ফেলার উত্তরের জন্য ফ্ল্যাগ করার অনুরোধ করি যা উদাহরণস্বরূপের তুলনায় কিছুটা কম আসে "যদিও আমি সর্বদা খুঁজে পেয়েছি যে এলোমেলো বনগুলি লজিস্টিক রিগ্রেশনকে পরাজিত করেছে", যদিও শব্দযুক্ত। আমরা মন্তব্য সম্পর্কে কিছুটা স্লিকার হতে পারি, তবে দীর্ঘ থ্রেডগুলি চ্যাটে স্থানান্তরিত হবে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

14
আমি মনে করি না যে পরিসংখ্যান এবং মেশিন লার্নিংয়ের মধ্যে অর্থপূর্ণ পার্থক্য রয়েছে। উদাহরণস্বরূপ, বিশিষ্ট এলোমেলো বন গবেষক লিও ব্রেইমন ইউসি বার্কলে-তে পরিসংখ্যানের অধ্যাপক ছিলেন । আপনার উপাখ্যানের প্রসঙ্গে, আরএফটি অন্যান্য মডেলগুলির চেয়ে উপযুক্ত বলে মনে হয়েছিল, তবে সাধারণভাবে এটি সত্য হওয়া উচিত বলে আমি কোনও কারণ দেখছি না (নিখরচায় দুপুরের খাবারের উপপাদ্যটিও দেখুন)। সম্ভবত এটি পদ্ধতির চেয়ে ডেটা সেট (বা এমনকি শিক্ষার্থীরা) সম্পর্কে আরও কিছু বলেছেন।
সাইকোরাক্স মনিকাকে

উত্তর:


20

পরিসংখ্যানগত মডেলিং মেশিন লার্নিং থেকে পৃথক। উদাহরণস্বরূপ, লিনিয়ার রিগ্রেশন হ'ল স্ট্যাটিস্টিকাল মডেল এবং একটি মেশিন লার্নিং মডেল। সুতরাং আপনি যদি এলোমেলো বনের সাথে লিনিয়ার রিগ্রেশন তুলনা করেন তবে আপনি কেবল একটি সহজ মেশিন লার্নিং মডেলকে আরও জটিল একটির সাথে তুলনা করছেন। আপনি না কোনও পরিসংখ্যানের মডেলকে একটি মেশিন লার্নিং মডেলের সাথে তুলনা ।

পরিসংখ্যানগত মডেলিং ব্যাখ্যার চেয়ে বেশি সরবরাহ করে; এটি আসলে কিছু জনসংখ্যার প্যারামিটারের একটি মডেল দেয়। এটি গাণিতিক এবং তত্ত্বের একটি বৃহত কাঠামোর উপর নির্ভর করে, যা সহগের বৈচিত্র্য, ভবিষ্যদ্বাণীগুলির বৈকল্পিক এবং অনুমানের পরীক্ষার মতো সূত্রের জন্য অনুমতি দেয়। স্ট্যাটিসটিকাল মডেলিংয়ের সম্ভাব্য ফলন মেশিন লার্নিংয়ের চেয়ে অনেক বেশি, কারণ আপনি কেবল হোল্ডআউটটিতে ত্রুটি পরিমাপ করার পরিবর্তে জনসংখ্যার পরামিতি সম্পর্কে দৃ strong় বক্তব্য দিতে পারেন, তবে একটি পরিসংখ্যানের মডেল নিয়ে কোনও সমস্যার কাছে যাওয়া আরও জটিল।


1
যতদূর আমি বুঝতে পেরেছি আপনি বলেছেন যে পরিসংখ্যানগুলির সাথে আপনি সহগের বিভিন্নতা, ভবিষ্যদ্বাণীগুলির বৈকল্পিকতা এবং অনুমানের পরীক্ষার মতো আরও বেশি সুবিধা পান benefits কিন্তু যখন এটি নির্ভুলভাবে ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের কাছে আসে, অর্থাত্ কিছু প্রতিক্রিয়ার ভেরিয়েবলের পয়েন্ট পূর্বাভাস তৈরি করে, আপনি কি মনে করেন পরিসংখ্যানগত মডেলগুলি মেশিন লার্নিং মডেলগুলিকে পরাজিত করতে পারে?
ডাব্বাইস

5
এই উত্তর (+1 টি!)। আমার দৃষ্টিতে (এবং অন্যদেরও সম্ভবত) বিভিন্ন ধরণের পরিসংখ্যান বিশ্লেষণ রয়েছে: বর্ণনামূলক, অনুমানমূলক, ভবিষ্যদ্বাণীমূলক, অনুসন্ধানমূলক ইত্যাদি, মেশিন লার্নিং বেশিরভাগই ভবিষ্যদ্বাণীমূলক বিশ্লেষণের মধ্যে পড়ে এবং এর বেশিরভাগ অংশই আপনাকে অনুমানমূলক করতে দেয় না বিষয়গুলির উপর জোর দেওয়া, সুতরাং এটি সমস্ত "হাতের কাজের জন্য সঠিক সরঞ্জামটি ব্যবহার করতে " ফোটে (লিনিয়ার রিগ্রেশন উদাহরণটি দেওয়া হয়, এটি সমস্ত ক্ষেত্রে ব্যবহার করা যেতে পারে, যেমন শর্তসাপেক্ষ প্রত্যাশা অনুমান করা, যা একটি বর্ণনামূলক কাজ)।
ফায়ারব্যাগ

2
এটি দৃ like়তার সাথে মনে হচ্ছে যে স্ট্যান্ডার্ড স্ট্যাটিস্টিকাল মডেলিং মেশিন লার্নিংয়ের চেয়ে অনুমানের জন্য (পূর্বাভাসের বিপরীতে) ভাল হতে পারে, যা মডেল ব্যাখ্যায় সহায়তা করতে পারে। যদিও এটি সত্যিই সত্য যদি আমরা একটি সাধারণ ন্যূনতম নেটওয়ার্কগুলির সাথে একটি সাধারণ ন্যূনতম স্কোয়ার রিগ্রেশনকে তুলনা করি, তবে মূল প্রশ্নটি বিশেষভাবে এলোমেলো বনকে (অনুক্রমের জন্য একটি ভাল এমএল অ্যালগরিদম) উল্লেখ করে তবে এ জাতীয় যুক্তিটি কিছুটা অস্পষ্ট।
গ্রিনস্টিক

2
এখানে সময় সিরিজের ডোমেনের কিছু দৃ evidence় প্রমাণ রয়েছে যেখানে পরিসংখ্যানগত মডেলগুলি ধারাবাহিকভাবে মেশিন লার্নিং পদ্ধতিকে পরাজিত করে: ম্যাক্রিডাকিস "পরিসংখ্যান এবং মেশিন লার্নিংয়ের পূর্বাভাস পদ্ধতি: উদ্বেগ এবং এগিয়ে যাওয়ার উপায়"
রিচার্ড হার্ডি

1
এটি ঠিক নিখুঁত উত্তর। এখানে একটি উদাহরণ রয়েছে: বলুন আপনার একটি পরিমাপ রয়েছে যা প্রদত্ত রোগের রোগীদের বেঁচে থাকার পূর্বাভাস দেয়। এই পরিমাপটিকে চিকিত্সাগতভাবে বৈধ ক্ষেত্রে কীভাবে সংজ্ঞায়িত করা যায় সে সম্পর্কে আন্তর্জাতিক মান রয়েছে (মূলত যদি গুণাগুণ একটি অবিবাহিত বা মাল্টিভারিয়েট মডেলের 5% এর নীচে মানের সাথে 0 এর চেয়ে আলাদা হয়)। যদিও আমি পুরোপুরি নিশ্চিত যে 99% সময় পর্যাপ্ত ডেটা সহ একটি এলোমেলো বন একটি উপায়ের পূর্বাভাসের মডেল হয়ে উঠবে।
রুমি নিকোল

5

প্রশ্নটি আপনি যেভাবে বলেছিলেন তা বলা ভুল। উদাহরণস্বরূপ, মেশিন লার্নিংয়ের একটি উল্লেখযোগ্য অংশকে স্ট্যাটিস্টিকাল লার্নিং বলা যেতে পারে । সুতরাং, আপনার তুলনা আপেল বনাম ফলমূলগুলির মতো।

যাইহোক, আমি আপনাকে যেভাবে ফ্রেম বানিয়েছি সেটির সাথেই চলে যাব, এবং নিম্নলিখিতগুলির দাবি করব: যখন ভবিষ্যদ্বাণী আসে তখন কোনও ধরণের পরিসংখ্যান ব্যতীত কিছুই করা যায় না কারণ ভবিষ্যদ্বাণীটি সহজাতভাবে এলোমেলো (অনিশ্চয়তা) রয়েছে। এটি বিবেচনা করুন: কিছু অ্যাপ্লিকেশনগুলিতে মেশিন লার্নিংয়ের বিশাল সাফল্য সত্ত্বেও এর একেবারেই কিছুই নেই এর সম্পদের দামের পূর্বাভাসে প্রদর্শন করার । কিছু না. কেন? কারণ বেশিরভাগ উন্নত তরল বাজারে সম্পদের দাম অন্তর্নিহিত স্টোকাস্টিক।

আপনি পরমাণুগুলির তেজস্ক্রিয় ক্ষয়টি পর্যবেক্ষণ করতে এবং শিখতে সারা দিন মেশিন লার্নিং চালাতে পারেন এবং এটি এলোমেলোভাবে কেবল পরবর্তী পরমাণুর ক্ষয় সময় সম্পর্কে ভবিষ্যদ্বাণী করতে সক্ষম হবে না simply

উচ্চাকাঙ্ক্ষী পরিসংখ্যানবিদ হিসাবে এটি আপনার পক্ষে মেশিন শিখতে না পারার জন্য বোকামি হবে, কারণ এটি পরিসংখ্যানের অন্যতমতম প্রয়োগ, যদি না আপনি অবশ্যই নিশ্চিত হন যে আপনি একাডেমিতে যাচ্ছেন। যে কেউ শিল্পে কাজ করার সম্ভাবনা রয়েছে তাদের এমএল মাস্টার করা উচিত। পরিসংখ্যান এবং এমএল ভিড়ের মধ্যে কোনও শত্রুতা বা প্রতিযোগিতা নেই। আসলে, আপনি যদি প্রোগ্রামিং পছন্দ করেন তবে আপনি এমএল ক্ষেত্রে ঘরে বসে অনুভব করবেন


2

সাধারণত না, তবে সম্ভাব্যভাবে হ্যাঁ ভুল বানানের অধীনে। আপনি যে ইস্যুটির সন্ধান করছেন তাকে প্রশংসাপত্র বলে। কোনও সিদ্ধান্ত নেওয়ার পক্ষে যদি ঝুঁকিপূর্ণ কোনও উপায় না থাকে তবে তা গ্রহণযোগ্য।

সমস্ত বায়েশীয় দ্রবণগুলি গ্রহণযোগ্য এবং বেআইসিয়ান সমাধানগুলি এমন পরিমাণে গ্রহণযোগ্য যা তারা হয় প্রতিটি নমুনায় বা সীমাতে বায়েশীয় সমাধানের সাথে মিলে। একটি গ্রহণযোগ্য ফ্রিকোয়েন্সিস্ট বা বায়েশিয়ান সমাধান সর্বদা একটি এমএল দ্রবণকে পরাজিত করবে যদি না এটি গ্রহণযোগ্যও হয়। যা বলেছিল, এমন কিছু ব্যবহারিক মন্তব্য রয়েছে যা এই বিবৃতিটিকে সত্য তবে শূন্য করে তোলে।

প্রথমত, বয়েশিয়ান বিকল্পের জন্য পূর্বটি আপনার আসল প্রাক হতে হবে এবং কোনও জার্নালে সম্পাদককে খুশি করার জন্য ব্যবহৃত কিছু পূর্ব বিতরণ নয়। দ্বিতীয়ত, অনেক ফ্রিকোয়েন্সিস্ট দ্রবণগুলি অগ্রহণযোগ্য এবং মানক সমাধানের পরিবর্তে একটি সঙ্কুচিত অনুমানক ব্যবহার করা উচিত ছিল। স্টেইনের লেমা এবং নমুনা ত্রুটি থেকে বেরিয়ে আসার জন্য এর প্রভাব সম্পর্কে অনেক লোক অজানা। অবশেষে, এমএল ভুল বানান ত্রুটির ক্ষেত্রে অনেক ক্ষেত্রে আরও কিছুটা শক্ত হতে পারে।

আপনি যখন সিদ্ধান্ত গাছ এবং তাদের চাচাত ভাইদের বনে যান, আপনি যদি কোনও বেয়েসের জালের মতো কিছু ব্যবহার না করেন তবে আপনি একটি অনুরূপ পদ্ধতি ব্যবহার করছেন না are একটি গ্রাফ দ্রষ্টব্যটিতে এতে অন্তর্ভুক্ত তথ্যের যথেষ্ট পরিমাণ থাকে, বিশেষত একটি নির্দেশিত গ্রাফ। যখনই আপনি কোনও সম্ভাব্য বা পরিসংখ্যান প্রক্রিয়াতে তথ্য যুক্ত করবেন আপনি ফলাফলের পরিবর্তনশীলতা হ্রাস করবেন এবং যা গ্রহণযোগ্য বলে বিবেচিত হবে তা পরিবর্তন করবেন।

আপনি যদি ফাংশনগুলির দৃষ্টিভঙ্গির সংমিশ্রণ থেকে মেশিন লার্নিংয়ের দিকে লক্ষ্য করেন তবে এটি কেবল একটি পরিসংখ্যানগত সমাধানে পরিণত হয় তবে সমাধানটিকে ট্র্যাটেবল করার জন্য আনুমানিক ব্যবহার করে। বয়েসিয়ান সমাধানগুলির জন্য, এমসিএমসি অবিশ্বাস্য পরিমাণ সময় সাশ্রয় করে অনেক এমএল সমস্যার জন্য গ্রেডিয়েন্ট বংশোদ্ভূত হিসাবে। আপনি যদি অনেক এমএল সমস্যার একীভূত করতে বা ব্রুট ফোর্স ব্যবহার করতে একটি সঠিক পোস্টারিয়র নির্মাণ করতে চান তবে উত্তর পাওয়ার আগেই সৌরজগৎ তার উত্তাপের কারণে মারা যেত।

আমার অনুমান যে পরিসংখ্যান, বা অনুপযুক্ত পরিসংখ্যান ব্যবহার করছেন তাদের কাছে আপনার কাছে ভুল বর্ণিত মডেল রয়েছে। আমি একটি বক্তৃতা শিখিয়েছিলাম যেখানে আমি প্রমাণ করেছি যে নবজাতকগুলি যথাযথভাবে সোডলড না হলে উইন্ডোজগুলি ভাসিয়ে তুলবে এবং যেখানে কোনও বয়েশিয়ান পদ্ধতি এতদূর থেকে বহুজাতিক পছন্দে একটি ফ্রিকোয়েনসিস্ট পদ্ধতিকে ছাড়িয়ে যায় যে ফ্রিকোয়ালিস্ট পদ্ধতিটি প্রত্যাশায়ও ভেঙে যায়, যখন বায়সিয়ান পদ্ধতিটি অংশগ্রহণকারীদের অর্থ দ্বিগুণ করে দেয় । এখন আমি পূর্বে পরিসংখ্যানগুলিকে অপব্যবহার করেছি এবং পরবর্তীকালে ফ্রিকোয়ালিস্ট অনুমানকারীর অগ্রহণযোগ্যতার সুযোগ নিয়েছিলাম, তবে পরিসংখ্যানের এক নির্বোধ ব্যবহারকারী সহজেই আমার কাজটি করতে পেরেছিলেন। উদাহরণগুলি স্পষ্ট করে তুলতে আমি কেবল তাদের চরম করে তুলেছি তবে আমি একেবারে বাস্তব ডেটা ব্যবহার করেছি।

এলোমেলো বনগুলি ধারাবাহিক অনুমানকারী এবং এগুলি নির্দিষ্ট বায়েশিয়ান প্রক্রিয়াগুলির সাথে সাদৃশ্যপূর্ণ বলে মনে হয়। কার্নেল অনুমানকারীগুলির সাথে সংযোগের কারণে, তারা বেশ ঘনিষ্ঠ হতে পারে। যদি আপনি সমাধানের ধরণের মধ্যে পারফরম্যান্সে কোনও উপাদানগত পার্থক্য দেখেন, তবে অন্তর্নিহিত সমস্যার মধ্যে এমন কিছু আছে যা আপনি ভুল বোঝাবুঝি করছেন এবং যদি সমস্যাটির কোনও গুরুত্ব থাকে তবে আপনাকে অবশ্যই পার্থক্যের উত্স সন্ধান করতে হবে কারণ এটি হতে পারে যদি সমস্ত মডেল ভুল বানানযুক্ত হয়।


1

অনেকগুলি মেশিন লার্নিং কমপক্ষে কিছু উদ্দেশ্যে পি-হ্যাকিংয়ের চেয়ে আলাদা নাও হতে পারে।

আপনি যদি possibleতিহাসিক তথ্যের ভিত্তিতে সর্বাধিক পূর্বাভাসের যথাযথতা (historicalতিহাসিক ভবিষ্যদ্বাণী বা আউট-গ্রুপ পূর্বাভাস) রয়েছে এমন কোনও সন্ধানের জন্য প্রতিটি মডেল পরীক্ষা করেন তবে এর অর্থ এই নয় যে ফলাফলগুলি কী হচ্ছে তা বুঝতে সহায়তা করবে। যাইহোক, সম্ভবত এটি সম্ভাব্য সম্পর্কগুলি আবিষ্কার করবে যা একটি অনুমানকে অবহিত করতে পারে।

নির্দিষ্ট অনুমানকে অনুপ্রাণিত করা এবং তার পরে পরিসংখ্যান পদ্ধতি ব্যবহার করে তাদের পরীক্ষা করা অবশ্যই একইভাবে পি-হ্যাক (বা অনুরূপ) হতে পারে।

তবে মুল বক্তব্যটি হ'ল মানদণ্ডটি যদি "dataতিহাসিক তথ্যের উপর ভিত্তি করে সর্বাধিক পূর্বাভাসের যথাযথতা" হয় তবে সেই dতিহাসিক ফলাফলগুলি কী ঘটেছে এবং / বা তারা ভবিষ্যতের জন্য তথ্যমূলক হতে পারে কিনা।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.