পরিসংখ্যানবিদদের জন্য কী মেশিন লার্নিং শেখা জরুরি?


22

কোনও পরিসংখ্যানবিদদের সাথে পরিচিত হওয়ার জন্য কি মেশিন লার্নিং একটি গুরুত্বপূর্ণ বিষয়? মনে হচ্ছে মেশিন লার্নিং হ'ল পরিসংখ্যান। কেন পরিসংখ্যান প্রোগ্রাম (স্নাতক এবং স্নাতক) মেশিন শেখার প্রয়োজন হয় না?



2
জানেন না, তবে আমি নিশ্চিত যে মেশিন লার্নিং করা প্রত্যেকেরই পরিসংখ্যান শেখা উচিত।
ডেভ

উত্তর:


18

মেশিন লার্নিং উচ্চ মাত্রিক প্রয়োগ পরিসংখ্যানগুলির একটি বিশেষ ক্ষেত্র। এটির জন্য যথেষ্ট প্রোগ্রামিং ব্যাকগ্রাউন্ডও প্রয়োজন যা একটি ভাল পরিমাণগত প্রোগ্রামের জন্য বিশেষত স্নাতক স্তরে তবে স্নাতক স্তরে কিছুটা হলেও প্রয়োজনীয় নয়। এটি কেবল পরিসংখ্যানের পূর্বাভাসের দিকগুলিতে প্রয়োগ রয়েছে, যেখানে গাণিতিক পরিসংখ্যান পাশাপাশি অনন্য এবং বর্ণনামূলক প্রয়োগিত পরিসংখ্যানগুলিতে মনোযোগ প্রয়োজন। অনেক প্রোগ্রাম শিক্ষার্থীদের মেশিন লার্নিংয়ের (সিএমইউ) উদাহরণস্বরূপ প্রচুর পরিমাণে এক্সপোজার থাকার সুযোগ দেয় তবে কিছু নির্দিষ্ট প্রোফাইল টেক চাকরি বাদ দিয়ে শিল্প পরিসংখ্যানবিদরা খুব কমই এই সরঞ্জামগুলি প্রয়োগ করার সুযোগ পান।

আমি সম্প্রতি বহু ডেটা বিজ্ঞানী ও মেশিন চাকরির বাজারে অবস্থানের শেখার দেখেছি যদিও, আমি একটি মেশিন পটভূমি শেখার আবশ্যকতা নেই "পরিসংখ্যানবিদ" সাধারণ কাজের বিবরণ মনে করি, কিন্তু নেই মৌলিক পরিসংখ্যান, অনুমান, এবং যোগাযোগের একজন নিষ্পাপ বোঝার প্রয়োজন: এগুলি সত্যই স্নাতক পরিসংখ্যান প্রোগ্রামের মূল হওয়া উচিত। মেশিন লার্নিং এবং ডেটা সায়েন্সও কাজের শিরোনাম এবং শাখা হিসাবে তুলনামূলকভাবে নতুন। 10 বা 20 বছরে কার্যকরভাবে দক্ষতা অর্জনের জন্য ব্যবসায় / ফার্মা / বায়োসায়েন্স এন্টারপ্রাইজে যদি বেশিরভাগ ব্যবসায় / ফার্মা / বায়োসায়েন্স এন্টারপ্রাইজে পরিত্যক্ত হয় তবে স্ট্যাটিস্টিস্টদের হিসাবে কর্মসংস্থান খুঁজছেন এমন লোকদের জন্য এটি একটি উপকার হবে।

সবশেষে, আমি অনুভব করি না যে মেশিন লার্নিং পরিসংখ্যানের দৃ understanding় বোঝার উন্নতি করে। পরিসংখ্যান মূলত একটি আন্তঃশাসনীয় ক্ষেত্র এবং আপনার ক্ষেত্রের নন-প্রযুক্তি বিশেষজ্ঞদের (যেমন ডাক্তার, সিএফও বা প্রশাসকগণ) ঠিক কীভাবে আপনি যে পদ্ধতিটি বেছে নিয়েছিলেন তা কেন বেছে নেওয়া এবং তা বোঝানো গুরুত্বপূর্ণ। মেশিন লার্নিং এমন একটি কুলুঙ্গি, অত্যন্ত প্রযুক্তিগত ক্ষেত্র যা অনেকগুলি প্রয়োগিত পদ্ধতিতে কেবল স্ট্যান্ডার্ড সরঞ্জাম এবং কৌশলগুলির চেয়ে ক্রমবর্ধমান উন্নত পারফরম্যান্সের প্রতিশ্রুতি দেয়। তত্ত্বাবধানে থাকা এবং নিরীক্ষণযোগ্য শিক্ষার অনেকগুলি পদ্ধতি অ-বিশেষজ্ঞ (এবং এমনকি কিছু কম প্রশিক্ষিত বিশেষজ্ঞ) "ব্ল্যাক বক্স" হিসাবে উপলব্ধি করেছেন। যখন তাদের একটি নির্দিষ্ট শেখার পদ্ধতির পছন্দটি রক্ষার জন্য বলা হয়, এমন ব্যাখ্যা রয়েছে যেগুলি সমতল হয় এবং প্রয়োগিত সমস্যার প্রেরণাভিত্তিক পরিস্থিতিতে কোনওটিরই উপর দৃষ্টি আকর্ষণ করে না।


1
আপনি কি আরও কিছুটা বিশদে ব্যাখ্যা করতে পারবেন যে ব্যাখ্যাগুলি ফ্ল্যাটটিতে পড়ে যাচ্ছেন তার অর্থ (উদাহরণগুলি কী?)?
সিবিলেটগুলি মনিকাকে

10
আমি লিনিয়ার বৈষম্যমূলক বিশ্লেষণ, সমর্থন ভেক্টর মেশিন এবং একটি জিএলএম লাসো-এর মধ্যে পার্থক্যগুলি এমনভাবে বর্ণনা করতে পারি না যা কোনও চিকিত্সককে বোঝায়। সুতরাং আমি স্তন ক্যান্সারের ঝুঁকির পূর্বাভাসের জন্য কয়েকটি মুখ্য সাবধানতার সাথে সমন্বিত কোভেরিয়েট ব্যবহার করে একটি লজিস্টিক রিগ্রেশন মডেল তৈরি করেছি। যখন উপস্থাপিত হয়, চিকিত্সকরা অবিলম্বে তাদের প্রভাবের আকারগুলি সম্পর্কে একটি আলোকিত আলোচনার সূচনা করেছিলেন। আমার "বিজ্ঞান" মডেলের বৈষম্য আরও পরিশীলিত এমএল কৌশলগুলির সাথে তুলনামূলক ছিল (যাচাইকরণের নমুনায় বুটস্ট্র্যাপের উপর ভিত্তি করে এউসি-র জন্য 90% সিআই ওভারল্যাপিং), এবং আমি এই জাতীয় কেস রিপোর্টের সাথে একা নই!
আদমো

4
@ কেবেলাইটস, আপনি কি কোনও কলেজের বীজগণিতের পরিমাণে সবচেয়ে ভাল পরিমাণে গণিত জ্ঞানের সাথে কোনও পর্যাপ্ত ব্যক্তির সাথে যোগাযোগ করতে পারেন? এসভিএম যে আকারে চিকিত্সকরা বুঝতে পারে সেগুলি আকারের আকার দেয় না; মার্জিনের প্রস্থ তাদের পক্ষে কোন তাত্পর্যপূর্ণ নয়, বিচিত্র অনুপাতের বিপরীতে যা তারা খুব ব্যবহার করে। আপনি যদি ক্লায়েন্টের ভাষায় কথা বলতে না পারেন তবে তারা আপনার সময় এবং অর্থ অপচয় করবেন না।
StasK

2
@ গ্রেমেওয়ালশ দুর্দান্ত পয়েন্ট ভবিষ্যদ্বাণীমূলক অনুমানের জন্য পরিশীলিত ভবিষ্যদ্বাণীপূর্ণ মডেলগুলি ব্যবহার করার ধারণার সাথে আমি প্রচুর সংগ্রাম করি, কারণ প্রায়শই কাঠামোগত সমীকরণ মডেলিং বা গ্রানজারের নামকরণকারীর কারণ হিসাবে দেখা যায়। আমি মনে করি এই অঞ্চলে অনেক বড় কাজ করা বাকি আছে। উদাহরণস্বরূপ, স্বজ্ঞাতভাবে আমি আধা-প্যারামেট্রিক মডেলিং এবং প্রান্তিক কাঠামোগত মডেলগুলির মধ্যে একটি বৃহত্তর মিলকে স্বীকৃতি জানাই তবে এই পার্থক্যটি কোথায় রয়েছে তা সম্পর্কে আমি নিশ্চিত নই।
অ্যাডমো

2
@ যাজ আপনার নেটফ্লিক্স প্রতিযোগী বিজয়ীদের কাছ থেকে আমন্ত্রিত কাগজগুলি একবার দেখে নেওয়া উচিত। তাদের প্রতিবেদনগুলি খুব একই রকম ছিল, এমনকি বায়েশিয়ান মডেলদের গড়পড়তা ওজনের ভারী মডেলের মডেলের গড় সহ, তারা দেখেছেন যে সমস্ত অবস্থার অধীনেই পিসিএর উপরের ওজন রয়েছে have এটি যে তারা সমতুল্য তা বলার অপেক্ষা রাখে না, তবে সরলতা এবং নির্ভুলতার মধ্যে একটি বাণিজ্য বন্ধ রয়েছে যা আমাকে এমএল অঙ্গনের চেয়ে সহজ মডেলগুলির পক্ষে পছন্দ করে তোলে favor পরিশীলিত প্যারামেট্রিক মডেলগুলি ননপ্যারমেট্রিকগুলির সাথে একইভাবে কীভাবে সম্পাদন করে তা ভাবতে পারেন কেউ an
অ্যাডমো

14

ঠিক আছে, আসুন আমরা আমাদের গ্রেড প্রোগ্রামগুলিতে ঘনিষ্ঠভাবে কাজ করেছি এমন একজন বা দু'জনের কাছ থেকে যা শিখেছি তার দ্বারা চোখের পাড়ে আমাদের চোখের সাথে পরিসংখ্যানের হাতির কথা বলি ...

স্ট্যাটাস প্রোগ্রামগুলির জন্য তারা উপযুক্ত কি দেখায় তা হ'ল, এটি কি সর্বাধিক গুরুত্বপূর্ণ জিনিস যা তারা চায় যে তাদের শিক্ষার্থীরা প্রোগ্রামটিতে সীমিত পরিমাণে সময় দিতে পারে তা শিখতে পারে। একটি সংকীর্ণ অঞ্চল প্রয়োজন মানে সমানভাবে গুরুত্বপূর্ণ বলে যুক্তিযুক্ত হতে পারে এমন কিছু অন্যান্য অঞ্চলে বিদায় চুম্বন। কিছু প্রোগ্রামের তাত্ত্বিক সম্ভাবনা পরিমাপ করা প্রয়োজন, কিছু না। কারও কারও কাছে একটি বিদেশী ভাষা প্রয়োজন, তবে বেশিরভাগ প্রোগ্রামের প্রয়োজন হয় না। কিছু প্রোগ্রাম বাইয়েশিয়ান দৃষ্টান্তকে পড়াশোনা করার একমাত্র জিনিস হিসাবে গ্রহণ করে তবে বেশিরভাগ তা নয়। কিছু প্রোগ্রাম জানে যে পরিসংখ্যানবিদদের সর্বাধিক চাহিদা জরিপের পরিসংখ্যানগুলিতে (কমপক্ষে মার্কিন যুক্তরাষ্ট্রে এটিই ঘটে) তবে বেশিরভাগ ক্ষেত্রে তা হয় না। বায়োস্ট্যাট প্রোগ্রামগুলি অর্থ অনুসরণ করে এবং এসএএস + এমন পদ্ধতিগুলি শেখায় যেগুলি চিকিত্সা এবং ফার্মাস বিজ্ঞানের কাছে সহজে বিক্রয় করবে।

কোনও ব্যক্তি কৃষি পরীক্ষার নকশা তৈরি করার জন্য, বা ফোন জরিপের মাধ্যমে জরিপ ডেটা সংগ্রহ করার জন্য, বা সাইকোমেট্রিক স্কেলগুলি বৈধতা দেওয়ার জন্য বা কোনও জিআইএসে রোগের ঘটনার মানচিত্র তৈরি করার জন্য, মেশিন লার্নিং কম্পিউটার বিজ্ঞানের একটি বিমূর্ত শিল্প যা তারা প্রতিদিনের সাথে কাজ করে এমন পরিসংখ্যান থেকে খুব দূরে art ভিত্তিতে। সমর্থনকারী ভেক্টর মেশিন বা এলোমেলো বন শেখার মাধ্যমে এই লোকগুলির মধ্যে কোনও তাত্ক্ষণিক সুবিধা দেখতে পাবেন না।

সব মিলিয়ে, মেশিন লার্নিং পরিসংখ্যানের অন্যান্য ক্ষেত্রগুলির একটি দুর্দান্ত পরিপূরক, তবে আমি যুক্তি দিয়ে বলব যে মূলধারার জিনিসগুলি মাল্টিভারিয়েট স্বাভাবিক বিতরণ এবং সাধারণীকরণীয় রৈখিক মডেলের মতো প্রথমে আসা উচিত।


5

মেশিন লার্নিং তথ্য থেকে জ্ঞান অর্জন / শেখার সম্পর্কে। উদাহরণস্বরূপ, আমি মেশিন লার্নিং অ্যালগরিদমগুলির সাথে কাজ করি যা ডিএনএ মাইক্রোয়ারে ডেটা (যেমন ক্যান্সার বা ডায়াবেটিস) থেকে একটি বিশেষ ধরণের রোগে জড়িত হতে পারে এমন কয়েকটি জিন নির্বাচন করতে পারে। তারপরে বিজ্ঞানীরা ভবিষ্যতে প্রাথমিক সনাক্তকরণের জন্য এই জিনগুলি (শিখেছেন মডেলগুলি) ব্যবহার করতে পারবেন (অদেখা নমুনার শ্রেণিবিন্যাস)।

মেশিন লার্নিংয়ের সাথে জড়িত প্রচুর পরিসংখ্যান রয়েছে তবে মেশিন লার্নিংয়ের এমন শাখা রয়েছে যেগুলিতে পরিসংখ্যানের প্রয়োজন হয় না (যেমন জেনেটিক প্রোগ্রামিং)। এই উদাহরণগুলিতে আপনার কেবলমাত্র একবারের পরিসংখ্যানের প্রয়োজন হবে তা দেখার জন্য আপনি মেশিন লার্নিং ব্যবহার করে তৈরি করেছেন এমন কোনও মডেল অন্য কোনও মডেলের চেয়ে পরিসংখ্যানগতভাবে আলাদা different

আমার মতে, পরিসংখ্যানবিদদের জন্য মেশিন লার্নিংয়ের একটি ভূমিকা সুবিধাজনক হবে । এটি পরিসংখ্যানবিদদের পরিসংখ্যান প্রয়োগের বাস্তব বিশ্বের পরিস্থিতি দেখতে সহায়তা করবে। তবে এটি বাধ্যতামূলক হওয়া উচিত নয় । আপনি একজন সফল পরিসংখ্যানবিদ হয়ে উঠতে পারেন এবং মেশিন লার্নিংয়ের কাছাকাছি না গিয়েই আপনার পুরো জীবন ব্যয় করতে পারেন!


2
আমি বলব প্রতিবার আপনার মডেলের পারফরম্যান্সের প্রতিবেদন দেওয়ার জন্য আপনার পরিসংখ্যানের প্রয়োজন। মাবে কারণ এটি আমার পেশা বিশ্লেষণাত্মক রসায়ন, যেখানে গুরুত্বপূর্ণ নিয়মের একটি হ'ল "আত্মবিশ্বাসের ব্যবধান ব্যতিরেকে কোনও ফলাফল হয় না"।
সিবেলাইটস মনিকা

1
@cbeleites আমি আপনার সাথে একমত আমি যা বোঝাতে চেয়েছিলাম তা হল পরিসংখ্যানবিদদের অগত্যা মেশিন লার্নিং বিশেষজ্ঞ হওয়ার দরকার নেই! তারা মেশিন শিখতে না
শিখেই

1
@ কেবেলাইটস বা মাল্টিমোডাল এসিমেটারগুলির ক্ষেত্রে একাধিক আত্মবিশ্বাসের বিরতি (যেমন, সিভিয়া এবং স্কিলিং ডেটা বিশ্লেষণ )।
আলঙ্কালভিটি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.