জিএলএম কোনও পরিসংখ্যান বা মেশিন লার্নিং মডেল?


11

আমি ভেবেছিলাম যে জেনারালাইজড লিনিয়ার মডেল (জিএলএম) একটি পরিসংখ্যান মডেল হিসাবে বিবেচিত হবে, তবে একটি বন্ধু আমাকে বলেছিল যে কিছু কাগজপত্র এটিকে মেশিন লার্নিংয়ের কৌশল হিসাবে শ্রেণিবদ্ধ করে। কোনটি সত্য (বা আরও নির্ভুল)? কোন ব্যাখ্যা প্রশংসা হবে।


1
আমি মনে করি মেশিন লার্নিং সাধারণত স্ট্যাটিস্টিকাল মডেলিংয়ের প্রয়োগ, তাই আমি বলি এটি উভয়ই।
জোউজ

উত্তর:


21

একটি জিএলএম একেবারে একটি পরিসংখ্যান মডেল, তবে পরিসংখ্যান মডেল এবং মেশিন লার্নিং কৌশলগুলি পারস্পরিক একচেটিয়া নয়। সাধারণভাবে, পরিসংখ্যানগুলি অনুমিতকরণের পরামিতিগুলির সাথে আরও বেশি উদ্বিগ্ন, যেখানে মেশিন লার্নিংয়ে ভবিষ্যদ্বাণী করা চূড়ান্ত লক্ষ্য।


15

পূর্বাভাস সম্পর্কে, পরিসংখ্যান এবং মেশিন লার্নিং বিজ্ঞানগুলি বিভিন্ন দৃষ্টিকোণ থেকে বেশিরভাগ একই সমস্যা সমাধান করতে শুরু করে।

মূলত পরিসংখ্যান ধরে নেয় যে ডেটা একটি প্রদত্ত স্টোকাস্টিক মডেল দ্বারা উত্পাদিত হয়েছিল। সুতরাং, একটি পরিসংখ্যানগত দৃষ্টিকোণ থেকে, একটি মডেল ধরে নেওয়া হয় এবং বিভিন্ন অনুমান দেওয়া হয় ত্রুটিগুলি চিকিত্সা করা হয় এবং মডেল পরামিতি এবং অন্যান্য প্রশ্নগুলি অনুমান করা হয়।

মেশিন লার্নিং কম্পিউটার বিজ্ঞানের দৃষ্টিকোণ থেকে আসে। মডেলগুলি অ্যালগোরিদমিক এবং সাধারণত খুব কম ডেটা সম্পর্কিত অনুমানের প্রয়োজন হয়। আমরা অনুমানের স্থান এবং শেখার পক্ষপাত নিয়ে কাজ করি। আমি খুঁজে পেয়েছি মেশিন লার্নিংয়ের সর্বোত্তম এক্সপোশনটি টম মিচেলের মেশিন লার্নিং নামে বইটিতে রয়েছে ।

দুটি সংস্কৃতি সম্পর্কে আরও বিস্তৃত এবং সম্পূর্ণ ধারণার জন্য আপনি স্ট্যাটিস্টিকাল মডেলিং নামক লিও ব্রেইম্যান পেপারটি পড়তে পারেন : দ্য সংস্কৃতি

তবে যা যুক্ত করতে হবে তা হ'ল এমনকি যদি দুটি বিজ্ঞান বিভিন্ন দৃষ্টিভঙ্গি দিয়ে শুরু হয় তবে এখন উভয়ই এখন সাধারণ জ্ঞান এবং কৌশলগুলি একটি পর্যাপ্ত পরিমাণে ভাগ করে নিয়েছে। কেন, কারণ সমস্যাগুলি একই ছিল, তবে সরঞ্জামগুলি ভিন্ন ছিল। সুতরাং এখন মেশিন লার্নিং বেশিরভাগ ক্ষেত্রে একটি পরিসংখ্যানিক দৃষ্টিভঙ্গি থেকে চিকিত্সা করা হয় (স্ট্যাটিস্টিকাল ট্র্যায়েটমেন্ট সহ দ্য মেশিন লার্নিং পয়েন্ট থেকে দ্য হস্টি, তিবশিরানী, ফ্রেডম্যান বই স্ট্যাটাসটিকাল লার্নিং পরীক্ষা করুন এবং সম্ভবত কেভিন পি। মরফির বই মেশিন লার্নিং: এ সম্ভাব্য দৃষ্টিভঙ্গি , আজ উপলব্ধ কয়েকটি সেরা বইয়ের নামকরণ করতে)।

এমনকি এই ক্ষেত্রের বিকাশের ইতিহাস এই দৃষ্টিভঙ্গির একত্রিত হওয়ার সুবিধাও দেখায়। আমি দুটি ঘটনা বর্ণনা করব।

প্রথমটি হ'ল সিআরটি গাছের সৃষ্টি, যা ব্রেইমান একটি দৃ background় পরিসংখ্যানগত পটভূমি সহ তৈরি করেছিলেন। প্রায় একই সময়ে, কুইনলান আরও কম্পিউটার বিজ্ঞানের পটভূমির সাথে আইডি 3, সি 45, সি 5 এবং আরও অনেক কিছু নিয়ে সিদ্ধান্ত ফ্রিট স্যুট তৈরি করেছে। এখন গাছের এই উভয় পরিবার এবং ব্যাগিং এবং বনগুলির মতো জড়ো পদ্ধতিগুলি একইরকম হয়ে উঠেছে।

দ্বিতীয় গল্পটি উত্সাহ দেওয়া সম্পর্কে। প্রাথমিকভাবে এগুলি অ্যাডাবোস্ট আবিষ্কার করার পরে ফ্রেন্ড এবং শাপায়ার দ্বারা বিকাশ করা হয়েছিল। অ্যাডাবোস্ট ডিজাইনের জন্য পছন্দগুলি বেশিরভাগই একটি গণনামূলক দৃষ্টিকোণ থেকে করা হয়েছিল। এমনকি লেখকরা কেন এটি কাজ করে তা ভাল করে বুঝতে পারেন নি। মাত্র 5 বছর পরে ব্রেইমান (আবার!) অ্যাডাবুস্ট মডেলটিকে একটি পরিসংখ্যানিক দৃষ্টিকোণ থেকে বর্ণনা করেছেন এবং কেন এটি কাজ করে তার জন্য একটি ব্যাখ্যা দিয়েছিলেন। সেই থেকে, উভয় প্রকারের ব্যাকগ্রাউন্ড সহ বিভিন্ন প্রখ্যাত বিজ্ঞানীরা সেই ধারণাগুলি আরও বিকাশ করেছিলেন, যেমন লজিস্টিক বুস্টিং, গ্রেডিয়েন্ট বুস্টিং, কোমল বুস্টিং আনস ইত্যাদির মতো আলগোরিদিমগুলিকে উত্সাহিত করার প্লাইয়াদের দিকে নিয়ে যায়। কোনও কঠিন পরিসংখ্যান ব্যাকগ্রাউন্ড ছাড়াই উত্সাহ দেওয়ার কথা ভাবা এখন কঠিন।

জেনারাইজড লিনিয়ার মডেলগুলি একটি পরিসংখ্যানগত বিকাশ। তবে নতুন বায়েশিয়ান চিকিত্সা এই অ্যালগরিদমটিকে মেশিন লার্নিং খেলার মাঠে রাখে। সুতরাং আমি বিশ্বাস করি যে উভয় দাবিই সঠিক হতে পারে, যেহেতু এটি কীভাবে কাজ করে তার ব্যাখ্যা এবং চিকিত্সা আলাদা হতে পারে।


5

বেনের উত্তর ছাড়াও, পরিসংখ্যান মডেল এবং মেশিন লার্নিং মডেলগুলির মধ্যে সূক্ষ্ম পার্থক্য হ'ল, পরিসংখ্যানিক মডেলগুলিতে আপনি মডেলটি তৈরির আগে আউটপুট সমীকরণ কাঠামো স্পষ্টভাবে সিদ্ধান্ত নেন। মডেলটি পরামিতি / গুণফলগুলি গণনা করার জন্য নির্মিত।

লিনিয়ার মডেল বা GLM নিন উদাহরণস্বরূপ,

y = a1x1 + a2x2 + a3x3

আপনার স্বতন্ত্র ভেরিয়েবলগুলি এক্স 1, এক্স 2, এক্স 3 এবং নির্ধারিত সহগগুলি এ 1, এ 2, এ 3 হয় a আপনি মডেলটি তৈরির আগে এইভাবে আপনার সমীকরণ কাঠামোটি সংজ্ঞায়িত করেন এবং এ 1, এ 2, এ 3 গুনান। আপনি যদি বিশ্বাস করেন যে y কোনওভাবে কোনও অ-রৈখিক উপায়ে x2 এর সাথে সম্পর্কিত হয় তবে আপনি এরকম কিছু চেষ্টা করতে পারেন।

y = a1x1 + a2(x2)^2 + a3x3.

সুতরাং, আপনি আউটপুট কাঠামোর ক্ষেত্রে একটি সীমাবদ্ধতা রেখেছেন। সহজাত পরিসংখ্যানগত মডেলগুলি লিনিয়ার মডেল হয় যদি না আপনি স্পষ্টভাবে সিগময়েড বা কার্নেলের মতো রূপান্তরগুলি প্রয়োগ করেন তবে এগুলি অরৈখিক (জিএলএম এবং এসভিএম) তৈরি করতে পারেন।

মেশিন লার্নিং মডেলগুলির ক্ষেত্রে, আপনি খুব কমই আউটপুট কাঠামো এবং সিদ্ধান্ত গাছের মতো অ্যালগরিদমগুলি নির্দিষ্টভাবে অন্তর্নিহিতভাবে অ-রৈখিকভাবে নির্দিষ্ট করে এবং দক্ষতার সাথে কাজ করেন।

বেন যা বলেছিলেন তার বিপরীতে, মেশিন লার্নিং মডেলগুলি কেবল ভবিষ্যদ্বাণী সম্পর্কে নয়, তারা শ্রেণিবিন্যাস, রিগ্রেশন ইত্যাদি করেন যা পূর্বাভাস দেওয়ার জন্য ব্যবহার করা যেতে পারে যা বিভিন্ন পরিসংখ্যানের মডেল দ্বারাও করা হয়।


আর্কিটেকচারটি আগে থেকেই সিদ্ধান্ত নেওয়ার পরে লজিক নিউরাল নেটওয়ার্কগুলি ব্যবহার করা স্ট্যাটিস্টিকাল মডেল। আমি মনে করি না যে পরিসংখ্যান এবং মেশিন লার্নিংয়ের মধ্যে একটি পরিষ্কার কাট সংজ্ঞা দেওয়ার প্রচেষ্টা সম্ভব এবং প্রয়োজনীয় নয়।
মার্ক ক্লিসেন

ঠিক এই কারণেই আমি মেশিন লার্নিং অনুচ্ছেদে 'বিরল' শব্দটি উল্লেখ করেছি। আমি বলিনি যে আপনি একেবারে না! ভাল, যারা এই বিষয়গুলি অন্বেষণ করা শুরু করেন তাদের কাছে পরিসংখ্যান শেখার এবং মেশিন লার্নিংয়ের মধ্যে প্রয়োজনীয়তাগুলি জানা ভাল
বিঙ্গা

আমি এই ব্যাখ্যা পছন্দ। আমি খুঁজে পেয়েছি যে পরিসংখ্যান বিশ্বে ডেটা নরমালাইজেশন, ফিচার ইঞ্জিনিয়ারিং এবং মডেল ফিটিংয়ের উপর একটি বড় জোর দেওয়া আছে। এমএল বিশ্বে এখনও এটি গুরুত্বপূর্ণ হওয়ার পরেও দেখা যাচ্ছে যে লোকেরা নিয়মিতকরণ এবং প্রচুর পরিমাণে ডেটা ব্যবহার করে 'সঠিক মডেলটি সন্ধান করতে', যার জন্য সামনের অনুমানগুলি কম করা দরকার। দ্রষ্টব্য: উভয় ক্ষেত্রেই স্নাতকোত্তর করা আমার বুদ্ধি তবে আমি অন্যকে ভুল বলে যদি তারা আমাকে সংশোধন করে তবে আমি তাকে স্বাগত জানাই।
ব্যবহারকারী 1761806

2

জিএলএম একেবারে একটি পরিসংখ্যানের মডেল, অন্যদিকে আরও বেশি পরিসংখ্যানগত পদ্ধতি শিল্প উত্পাদনে মেশিন লার্নিং ট্রিক হিসাবে প্রয়োগ করা হচ্ছে । এই দিনগুলিতে আমি সবচেয়ে বেশি যে মেটা-বিশ্লেষণটি পড়ি তা পরিসংখ্যানের ক্ষেত্রে একটি ভাল উদাহরণ।

জিএলএম সহ একটি নিখুঁত শিল্প অ্যাপ্লিকেশন ব্যাখ্যা করতে পারে যে আপনার বন্ধু আপনাকে কেন বলেছিল যে জিএলএমকে একটি মেশিন লার্নিং কৌশল হিসাবে বিবেচনা করা হয়েছিল । আপনি এটি সম্পর্কে উত্স কাগজ http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf উল্লেখ করতে পারেন ।

আমি একটি সরলিকৃত যা প্রয়োগ করেছি যা কয়েক সপ্তাহ আগে উত্পাদনের দৃশ্যে আমার সুপারিশ সিস্টেমের মূল কাঠামো হিসাবে বিবেচিত হয়েছিল। আপনি আমাকে কিছু টিপস দিলে অনেক প্রশংসা হয়েছে এবং আপনি উত্স কোডটি যাচাই করতে পারেন: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala

আশা করি এটি আপনাকে সাহায্য করবে, দিনটি!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.