আমি ভেবেছিলাম যে জেনারালাইজড লিনিয়ার মডেল (জিএলএম) একটি পরিসংখ্যান মডেল হিসাবে বিবেচিত হবে, তবে একটি বন্ধু আমাকে বলেছিল যে কিছু কাগজপত্র এটিকে মেশিন লার্নিংয়ের কৌশল হিসাবে শ্রেণিবদ্ধ করে। কোনটি সত্য (বা আরও নির্ভুল)? কোন ব্যাখ্যা প্রশংসা হবে।
আমি ভেবেছিলাম যে জেনারালাইজড লিনিয়ার মডেল (জিএলএম) একটি পরিসংখ্যান মডেল হিসাবে বিবেচিত হবে, তবে একটি বন্ধু আমাকে বলেছিল যে কিছু কাগজপত্র এটিকে মেশিন লার্নিংয়ের কৌশল হিসাবে শ্রেণিবদ্ধ করে। কোনটি সত্য (বা আরও নির্ভুল)? কোন ব্যাখ্যা প্রশংসা হবে।
উত্তর:
পূর্বাভাস সম্পর্কে, পরিসংখ্যান এবং মেশিন লার্নিং বিজ্ঞানগুলি বিভিন্ন দৃষ্টিকোণ থেকে বেশিরভাগ একই সমস্যা সমাধান করতে শুরু করে।
মূলত পরিসংখ্যান ধরে নেয় যে ডেটা একটি প্রদত্ত স্টোকাস্টিক মডেল দ্বারা উত্পাদিত হয়েছিল। সুতরাং, একটি পরিসংখ্যানগত দৃষ্টিকোণ থেকে, একটি মডেল ধরে নেওয়া হয় এবং বিভিন্ন অনুমান দেওয়া হয় ত্রুটিগুলি চিকিত্সা করা হয় এবং মডেল পরামিতি এবং অন্যান্য প্রশ্নগুলি অনুমান করা হয়।
মেশিন লার্নিং কম্পিউটার বিজ্ঞানের দৃষ্টিকোণ থেকে আসে। মডেলগুলি অ্যালগোরিদমিক এবং সাধারণত খুব কম ডেটা সম্পর্কিত অনুমানের প্রয়োজন হয়। আমরা অনুমানের স্থান এবং শেখার পক্ষপাত নিয়ে কাজ করি। আমি খুঁজে পেয়েছি মেশিন লার্নিংয়ের সর্বোত্তম এক্সপোশনটি টম মিচেলের মেশিন লার্নিং নামে বইটিতে রয়েছে ।
দুটি সংস্কৃতি সম্পর্কে আরও বিস্তৃত এবং সম্পূর্ণ ধারণার জন্য আপনি স্ট্যাটিস্টিকাল মডেলিং নামক লিও ব্রেইম্যান পেপারটি পড়তে পারেন : দ্য সংস্কৃতি
তবে যা যুক্ত করতে হবে তা হ'ল এমনকি যদি দুটি বিজ্ঞান বিভিন্ন দৃষ্টিভঙ্গি দিয়ে শুরু হয় তবে এখন উভয়ই এখন সাধারণ জ্ঞান এবং কৌশলগুলি একটি পর্যাপ্ত পরিমাণে ভাগ করে নিয়েছে। কেন, কারণ সমস্যাগুলি একই ছিল, তবে সরঞ্জামগুলি ভিন্ন ছিল। সুতরাং এখন মেশিন লার্নিং বেশিরভাগ ক্ষেত্রে একটি পরিসংখ্যানিক দৃষ্টিভঙ্গি থেকে চিকিত্সা করা হয় (স্ট্যাটিস্টিকাল ট্র্যায়েটমেন্ট সহ দ্য মেশিন লার্নিং পয়েন্ট থেকে দ্য হস্টি, তিবশিরানী, ফ্রেডম্যান বই স্ট্যাটাসটিকাল লার্নিং পরীক্ষা করুন এবং সম্ভবত কেভিন পি। মরফির বই মেশিন লার্নিং: এ সম্ভাব্য দৃষ্টিভঙ্গি , আজ উপলব্ধ কয়েকটি সেরা বইয়ের নামকরণ করতে)।
এমনকি এই ক্ষেত্রের বিকাশের ইতিহাস এই দৃষ্টিভঙ্গির একত্রিত হওয়ার সুবিধাও দেখায়। আমি দুটি ঘটনা বর্ণনা করব।
প্রথমটি হ'ল সিআরটি গাছের সৃষ্টি, যা ব্রেইমান একটি দৃ background় পরিসংখ্যানগত পটভূমি সহ তৈরি করেছিলেন। প্রায় একই সময়ে, কুইনলান আরও কম্পিউটার বিজ্ঞানের পটভূমির সাথে আইডি 3, সি 45, সি 5 এবং আরও অনেক কিছু নিয়ে সিদ্ধান্ত ফ্রিট স্যুট তৈরি করেছে। এখন গাছের এই উভয় পরিবার এবং ব্যাগিং এবং বনগুলির মতো জড়ো পদ্ধতিগুলি একইরকম হয়ে উঠেছে।
দ্বিতীয় গল্পটি উত্সাহ দেওয়া সম্পর্কে। প্রাথমিকভাবে এগুলি অ্যাডাবোস্ট আবিষ্কার করার পরে ফ্রেন্ড এবং শাপায়ার দ্বারা বিকাশ করা হয়েছিল। অ্যাডাবোস্ট ডিজাইনের জন্য পছন্দগুলি বেশিরভাগই একটি গণনামূলক দৃষ্টিকোণ থেকে করা হয়েছিল। এমনকি লেখকরা কেন এটি কাজ করে তা ভাল করে বুঝতে পারেন নি। মাত্র 5 বছর পরে ব্রেইমান (আবার!) অ্যাডাবুস্ট মডেলটিকে একটি পরিসংখ্যানিক দৃষ্টিকোণ থেকে বর্ণনা করেছেন এবং কেন এটি কাজ করে তার জন্য একটি ব্যাখ্যা দিয়েছিলেন। সেই থেকে, উভয় প্রকারের ব্যাকগ্রাউন্ড সহ বিভিন্ন প্রখ্যাত বিজ্ঞানীরা সেই ধারণাগুলি আরও বিকাশ করেছিলেন, যেমন লজিস্টিক বুস্টিং, গ্রেডিয়েন্ট বুস্টিং, কোমল বুস্টিং আনস ইত্যাদির মতো আলগোরিদিমগুলিকে উত্সাহিত করার প্লাইয়াদের দিকে নিয়ে যায়। কোনও কঠিন পরিসংখ্যান ব্যাকগ্রাউন্ড ছাড়াই উত্সাহ দেওয়ার কথা ভাবা এখন কঠিন।
জেনারাইজড লিনিয়ার মডেলগুলি একটি পরিসংখ্যানগত বিকাশ। তবে নতুন বায়েশিয়ান চিকিত্সা এই অ্যালগরিদমটিকে মেশিন লার্নিং খেলার মাঠে রাখে। সুতরাং আমি বিশ্বাস করি যে উভয় দাবিই সঠিক হতে পারে, যেহেতু এটি কীভাবে কাজ করে তার ব্যাখ্যা এবং চিকিত্সা আলাদা হতে পারে।
বেনের উত্তর ছাড়াও, পরিসংখ্যান মডেল এবং মেশিন লার্নিং মডেলগুলির মধ্যে সূক্ষ্ম পার্থক্য হ'ল, পরিসংখ্যানিক মডেলগুলিতে আপনি মডেলটি তৈরির আগে আউটপুট সমীকরণ কাঠামো স্পষ্টভাবে সিদ্ধান্ত নেন। মডেলটি পরামিতি / গুণফলগুলি গণনা করার জন্য নির্মিত।
লিনিয়ার মডেল বা GLM নিন উদাহরণস্বরূপ,
y = a1x1 + a2x2 + a3x3
আপনার স্বতন্ত্র ভেরিয়েবলগুলি এক্স 1, এক্স 2, এক্স 3 এবং নির্ধারিত সহগগুলি এ 1, এ 2, এ 3 হয় a আপনি মডেলটি তৈরির আগে এইভাবে আপনার সমীকরণ কাঠামোটি সংজ্ঞায়িত করেন এবং এ 1, এ 2, এ 3 গুনান। আপনি যদি বিশ্বাস করেন যে y কোনওভাবে কোনও অ-রৈখিক উপায়ে x2 এর সাথে সম্পর্কিত হয় তবে আপনি এরকম কিছু চেষ্টা করতে পারেন।
y = a1x1 + a2(x2)^2 + a3x3.
সুতরাং, আপনি আউটপুট কাঠামোর ক্ষেত্রে একটি সীমাবদ্ধতা রেখেছেন। সহজাত পরিসংখ্যানগত মডেলগুলি লিনিয়ার মডেল হয় যদি না আপনি স্পষ্টভাবে সিগময়েড বা কার্নেলের মতো রূপান্তরগুলি প্রয়োগ করেন তবে এগুলি অরৈখিক (জিএলএম এবং এসভিএম) তৈরি করতে পারেন।
মেশিন লার্নিং মডেলগুলির ক্ষেত্রে, আপনি খুব কমই আউটপুট কাঠামো এবং সিদ্ধান্ত গাছের মতো অ্যালগরিদমগুলি নির্দিষ্টভাবে অন্তর্নিহিতভাবে অ-রৈখিকভাবে নির্দিষ্ট করে এবং দক্ষতার সাথে কাজ করেন।
বেন যা বলেছিলেন তার বিপরীতে, মেশিন লার্নিং মডেলগুলি কেবল ভবিষ্যদ্বাণী সম্পর্কে নয়, তারা শ্রেণিবিন্যাস, রিগ্রেশন ইত্যাদি করেন যা পূর্বাভাস দেওয়ার জন্য ব্যবহার করা যেতে পারে যা বিভিন্ন পরিসংখ্যানের মডেল দ্বারাও করা হয়।
জিএলএম একেবারে একটি পরিসংখ্যানের মডেল, অন্যদিকে আরও বেশি পরিসংখ্যানগত পদ্ধতি শিল্প উত্পাদনে মেশিন লার্নিং ট্রিক হিসাবে প্রয়োগ করা হচ্ছে । এই দিনগুলিতে আমি সবচেয়ে বেশি যে মেটা-বিশ্লেষণটি পড়ি তা পরিসংখ্যানের ক্ষেত্রে একটি ভাল উদাহরণ।
জিএলএম সহ একটি নিখুঁত শিল্প অ্যাপ্লিকেশন ব্যাখ্যা করতে পারে যে আপনার বন্ধু আপনাকে কেন বলেছিল যে জিএলএমকে একটি মেশিন লার্নিং কৌশল হিসাবে বিবেচনা করা হয়েছিল । আপনি এটি সম্পর্কে উত্স কাগজ http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf উল্লেখ করতে পারেন ।
আমি একটি সরলিকৃত যা প্রয়োগ করেছি যা কয়েক সপ্তাহ আগে উত্পাদনের দৃশ্যে আমার সুপারিশ সিস্টেমের মূল কাঠামো হিসাবে বিবেচিত হয়েছিল। আপনি আমাকে কিছু টিপস দিলে অনেক প্রশংসা হয়েছে এবং আপনি উত্স কোডটি যাচাই করতে পারেন: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala
আশা করি এটি আপনাকে সাহায্য করবে, দিনটি!