বড় ডেটা সেটগুলি বোঝার জন্য আমার কোন প্রাথমিক পদক্ষেপগুলি ব্যবহার করা উচিত এবং আমার কোন সরঞ্জামগুলি ব্যবহার করা উচিত?


10

ক্যাভেট: মেশিন লার্নিংয়ের ক্ষেত্রে আমি সম্পূর্ণ শিক্ষানবিস, তবে শিখতে আগ্রহী।

আমার একটি বড় ডেটাসেট রয়েছে এবং আমি এটিতে প্যাটার্ন সন্ধান করার চেষ্টা করছি। তথ্য জুড়ে পারস্পরিক সম্পর্ক থাকতে পারে, হয় হয় পরিচিত ভেরিয়েবলগুলির সাথে, বা ডেটাতে থাকা ভেরিয়েবলগুলি যা আমি এখনও বুঝতে পারি নি সেগুলি আসলে ভেরিয়েবল / প্রাসঙ্গিক।

আমি অনুমান করছি এটি ডেটা বিশ্লেষণের বিশ্বে একটি পরিচিত সমস্যা হবে, তাই আমার কয়েকটি প্রশ্ন রয়েছে:

  1. 'সিলভার বুলেট' হ'ল এই সমস্ত ডেটা একটি পরিসংখ্যান / ডেটা বিশ্লেষণ প্রোগ্রামের মধ্যে ফেলে দেওয়া এবং এটি সম্পর্কের সন্ধানের জন্য পরিচিত / অজানা নিদর্শনগুলির জন্য অনুসন্ধান করা ডেটা ক্রাচ করা। এসপিএসএস উপযুক্ত বা অন্য কোনও অ্যাপ্লিকেশন রয়েছে যা আরও ভাল উপযুক্ত হতে পারে।

  2. আমি কি আর এর মতো একটি ভাষা শিখি এবং কীভাবে ডেটা ম্যানুয়ালি প্রক্রিয়াকরণ করব তা নির্ধারণ করতে হবে। আমাকে কীভাবে এবং কীভাবে ডেটা বিশ্লেষণ করতে হবে তা ম্যানুয়ালি নির্দিষ্ট করতে হবে বলে এই সম্পর্কের সন্ধানের বিষয়টি কি সমীচীন হবে না?

  3. কোনও পেশাদার ডেটা মাইনার কীভাবে এই সমস্যার কাছে যেতে পারে এবং সে কী পদক্ষেপ গ্রহণ করবে?

উত্তর:


11

আমি আপনার প্রশ্নের উত্তর দেওয়ার চেষ্টা করব, তবে আমি এখানে লক্ষ করতে চাই যে "বৃহত্তর" একটি আপেক্ষিক ধারণা হিসাবে "বৃহত ডেটাসেট" শব্দটি ব্যবহার বিভ্রান্তিকর । আপনাকে আরও বিশদ সরবরাহ করতে হবে। আপনি যদি বিডের ডেটা নিয়ে কাজ করছেন , তবে সম্ভবত এই তথ্যটি আপনার ডেটা বিশ্লেষণের জন্য পছন্দসই সরঞ্জামগুলি , পদ্ধতির এবং অ্যালগরিদমের নির্বাচনকে প্রভাবিত করবে । আমি আশা করি যে ডেটা বিশ্লেষণে আমার নিম্নলিখিত চিন্তাগুলি আপনার উপ-প্রশ্নগুলিকে সম্বোধন করবে। দয়া করে মনে রাখবেন যে আমার পয়েন্টগুলির সংখ্যাটি আপনার সাব-প্রশ্নের সংখ্যার সাথে মেলে না। তবে আমি বিশ্বাস করি যে এটি সাধারণ তথ্য বিশ্লেষণের কর্মপ্রবাহকে আরও ভালভাবে প্রতিফলিত করে , কমপক্ষে, কীভাবে আমি এটি বুঝতে পারি।

1) প্রথমত, আমি মনে করি আপনার কমপক্ষে কোনও ধরণের ধারণাগত মডেলটি মনে রাখা উচিত (বা কাগজের উপর আরও ভাল)। এই মডেলটি আপনাকে আপনার অনুসন্ধানের ডেটা বিশ্লেষণে (ইডিএ) গাইড করবে । মডেলটিতে একটি নির্ভরশীল ভেরিয়েবল (ডিভি) উপস্থিতির অর্থ হ'ল আপনার মেশিন লার্নিং (এমএল) পর্যায়ে পরে বিশ্লেষণে আপনি তথাকথিত তদারকি করা এমএল এর সাথে মোকাবিলা করবেন, চিহ্নিত ডিভি'র অনুপস্থিতিতে নিরীক্ষণযোগ্য এমএল এর বিপরীতে।

2) দ্বিতীয়ত, ইডিএ একটি গুরুত্বপূর্ণ অঙ্গ। আইএমএইচও, ইডিএর সাথে বর্ণনামূলক পরিসংখ্যান এবং ডেটা ভিজ্যুয়ালাইজেশন উত্পাদন করার একাধিক পুনরাবৃত্তি অন্তর্ভুক্ত করা উচিত , কারণ আপনি ডেটা সম্পর্কে আপনার বোঝাপড়াটি পরিমার্জন করেন। এই ধাপটিই আপনাকে আপনার ডেটাসেটগুলি সম্পর্কে মূল্যবান অন্তর্দৃষ্টি দেবে না, তবে এটি আপনার পরবর্তী গুরুত্বপূর্ণ পর্ব - ডেটা পরিষ্কার এবং রূপান্তরকে খাওয়াবে । কেবলমাত্র আপনার কাঁচা তথ্য একটি পরিসংখ্যান সফ্টওয়্যার প্যাকেজে ফেলে দেওয়া বেশি দেয় না - কোনও বৈধ পরিসংখ্যান বিশ্লেষণের জন্য, ডেটা পরিষ্কার, সঠিক এবং সামঞ্জস্যপূর্ণ হওয়া উচিত । এটি প্রায়শই সর্বাধিক সময়- এবং প্রচেষ্টা ব্যয়কারী, তবে একেবারে প্রয়োজনীয় অংশ। এই বিষয়ে আরও তথ্যের জন্য, এই দুর্দান্ত কাগজপত্র পড়ুন:http://vita.had.co.nz/papers/tidy-data.pdf (হ্যাডলি উইকহাম লিখেছেন) এবং http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo- পরিচয়_আর_ডাটা_ক্লানিং_ওয়থ_আর.পিডিএফ (দ্বারা এডউইন ডি জঞ্জা এবং মার্ক ভ্যান ডার লু)।

3) এখন, আপনি যেমন আশা হিসাবে EDA পাশাপাশি ডেটা পরিষ্কার এবং রূপান্তর সম্পন্ন করেছেন, তেমন আরও কিছু পরিসংখ্যানে জড়িত পর্যায় শুরু করার জন্য প্রস্তুত ready এই ধরণের একটি পর্যায়ের এক্সপ্লোরেশন ফ্যাক্টর অ্যানালাইসিস (ইএফএ) , যা আপনাকে আপনার ডেটার অন্তর্নিহিত কাঠামোটি বের করার অনুমতি দেবে । বিপুল সংখ্যক ভেরিয়েবলযুক্ত ডেটাসেটের জন্য, ইএফএর ইতিবাচক পার্শ্ব প্রতিক্রিয়া হ'ল মাত্রিক মাত্রা হ্রাস । এবং, যখন সেই দিক থেকে ইএফএ মূল উপাদানগুলির বিশ্লেষণের (PCA) সমানএবং অন্যান্য মাত্রিকতা হ্রাসের পদ্ধতির কাছে, আমি মনে করি যে ইএফএ আরও গুরুত্বপূর্ণ কারণ এটি আপনার ডেটাসেটগুলি বোঝার জন্য আপনার ডেটা "বর্ণিত" যে ঘটনার আপনার ধারণাগত মডেলটিকে পরিমার্জন করতে দেয়। অবশ্যই, এএফএ ছাড়াও, আপনি পূর্ববর্তী পর্যায়ে আপনার ফলাফলগুলির উপর ভিত্তি করে রিগ্রেশন বিশ্লেষণ করতে পারেন এবং পাশাপাশি মেশিন লার্নিং কৌশল প্রয়োগ করতে পারেন ।

অবশেষে, সফ্টওয়্যার সরঞ্জামগুলিতে একটি নোট । আমার মতে, বর্তমান পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার প্যাকেজগুলির এমন অবস্থা যে কার্যত কোনও বড় সফ্টওয়্যার প্যাকেজগুলির তুলনামূলক অফার বৈশিষ্ট্য অনুসারে থাকে। আপনি যদি এমন কোনও প্রতিষ্ঠানের পড়াশোনা করেন বা সফ্টওয়্যার সরঞ্জামগুলির মেয়াদে নির্দিষ্ট নীতি এবং পছন্দসই সংস্থায় কাজ করেন, তবে আপনি তাদের দ্বারা সীমাবদ্ধ থাকেন । তবে, যদি এটি না হয় তবে আমি আন্তরিকভাবে ওপেন সোর্স স্ট্যাটিস্টিকাল সফটওয়্যারটির নির্দিষ্ট প্রোগ্রামিং ভাষা , শেখার বক্ররেখা এবং আপনার ক্যারিয়ারের দৃষ্টিভঙ্গির সাথে স্বাচ্ছন্দ্যের ভিত্তিতে সুপারিশ করব । আমার পছন্দের বর্তমান প্ল্যাটফর্মটি আর প্রকল্প, যা প্যাকেজ, বিশেষজ্ঞ এবং উত্সাহীদের আশ্চর্যজনক বাস্তুতন্ত্রের পাশাপাশি পরিপক্ক, শক্তিশালী, নমনীয়, বিস্তৃত এবং উন্মুক্ত পরিসংখ্যান সফ্টওয়্যার সরবরাহ করে। অন্যান্য দুর্দান্ত পছন্দগুলির মধ্যে পাইথন , জুলিয়া এবং বড় ডেটা প্রক্রিয়াকরণের জন্য নির্দিষ্ট ওপেন সোর্স সফ্টওয়্যার যেমন হ্যাডোপ , স্পার্ক , নোএসকিউএল ডেটাবেসস , ওয়েকাএ অন্তর্ভুক্ত রয়েছেডেটা মাইনিংয়ের জন্য ওপেন সোর্স সফ্টওয়্যার সম্পর্কিত আরও উদাহরণের জন্য , যার মধ্যে সাধারণ এবং নির্দিষ্ট পরিসংখ্যান এবং এমএল সফ্টওয়্যার অন্তর্ভুক্ত রয়েছে, একটি উইকিপিডিয়া পৃষ্ঠার এই বিভাগটি দেখুন: http://en.wikedia.org/wiki/Data_mining# ফ্রি_অপেন- উত্স_ডাটা_মিনিং_সোফটি_এন্ড_প্লিকেশন

আপডেট: রাটলের ( http://rattle.togaware.com ) উল্লেখ করতে ভুলে গেছেন , যা ডেটা মাইনিংয়ের জন্য একটি খুব জনপ্রিয় ওপেন সোর্স আর-ওরিয়েন্টেড জিইউআই সফটওয়্যারও।


1
এক বছর পরে এই প্রশ্নে ফিরে আসার পরে, আমি অবশ্যই প্রতিধ্বনিত করতে পারি যে আপনার ডেটা জানা কী এবং আপনার "মাটির" বনাম "ভাল" ডেটা কী তা আপনার মনে রাখা দরকার। আমি নিউরাল নেটওয়ার্ক ইত্যাদির মতো যাদুকরী সমাধানগুলি ব্যবহার করার চেষ্টা করেছি, তবে ডেটা ক্লিনআপ প্রক্রিয়াটি সহজ ছিল না। (লুকানো মার্কভ মডেলগুলি নোংরা ইনপুটটিতে সর্বোত্তম প্রতিক্রিয়া দেখিয়েছিল এবং ফলাফলগুলি ভালভাবে ভবিষ্যদ্বাণী করতে সক্ষম হয়েছিল) এমএল ব্যর্থ হওয়ার পরে এবং অনেকগুলি গ্রাফ তৈরি করার পরে এটি বেশ কয়েক সপ্তাহ ধরে ডেটা overালাও ছিল না (তথ্যের ভিজ্যুয়াল উপস্থাপনা খুব গুরুত্বপূর্ণ) যে আমি আমার সমস্যার সমাধানগুলি স্পট করতে সক্ষম হয়েছি!
ব্যবহারকারী 3791372

@ user3791372 আপনার কাছ থেকে শুনে খুশি! এটি স্পষ্টভাবে মনে হয় যে বছরটি আপনার জন্য ডেটা সায়েন্সের বিভিন্ন দিক সম্পর্কে আরও ভাল ধারণা অর্জনের জন্য কার্যকর ছিল। আমি আশা করি আমার আরও বেশি কিছু শেখার সুযোগ থাকুক, তবে অন্যদিকে, আমি অনেক কিছু শিখেছি বলেও অভিযোগ করতে পারি না (ডেটা সায়েন্সের সাথে সবসময় সম্পর্কিত নয়, তবে সম্ভবত এটি আরও ভাল)। এটা বজায় রাখা!
আলেকসান্দ্র ব্লেক

3
  1. এসপিএস একটি দুর্দান্ত সরঞ্জাম, তবে আপনি এক্সেল এর মতো আপনার কম্পিউটারে ইতিমধ্যে থাকা সংস্থানগুলি বা আর-প্রকল্পের মতো নিখরচায় রিসোর্সগুলির সাথে আপনি একটি দুর্দান্ত কাজ সম্পাদন করতে পারেন। যদিও এই সরঞ্জামগুলি শক্তিশালী, এবং নিদর্শনগুলি সনাক্ত করতে আপনাকে সহায়তা করতে পারে, বিশ্লেষণ চালানোর আগে আপনার নিজের ডেটা সম্পর্কে দৃ gra় ধারণা থাকা দরকার (আমি আপনার ডেটাতে বর্ণনামূলক পরিসংখ্যান চালানোর পরামর্শ দিই এবং সবকিছু নিশ্চিত করার জন্য গ্রাফ সহ ডেটা অন্বেষণ করার পরামর্শ দেব) স্বাভাবিক দেখাচ্ছে) অন্য কথায়, আপনি যে সরঞ্জামটি ব্যবহার করছেন তা "সিলভার বুলেট" সরবরাহ করবে না, কারণ আউটপুট কেবল ইনপুটটির মতোই মূল্যবান হবে (আপনি এই কথাটি জানেন ... "আবর্জনা ভিতরে, আবর্জনা বাইরে")। আমি যা বলছি তার বেশিরভাগই ইতিমধ্যে আলেকসান্দ্রের জবাবে জানিয়েছে - স্পট অন।

  2. আর আমাদের মধ্যে যারা কোডিংয়ের বিষয়ে সচেতন নন তাদের পক্ষে চ্যালেঞ্জিং হতে পারে তবে আর এবং এর প্যাকেজগুলির সাথে সম্পর্কিত নিখরচায় সম্পদ প্রচুর। আপনি যদি প্রোগ্রামটি শেখার অনুশীলন করেন তবে আপনি দ্রুত ট্র্যাকশন অর্জন করবেন। আবার, আপনাকে আপনার ডেটা এবং যে কোনও উপায়ে চালাতে চান সেই বিশ্লেষণগুলির সাথে আপনার পরিচিত হওয়া দরকার এবং আপনি যে পরিসংখ্যানীয় সরঞ্জামগুলি ব্যবহার করেন তা নির্বিশেষে এই সত্যটি রয়ে যায়।

  3. আমি আমার ডেটা সম্পর্কে অতি পরিচিত হয়ে শুরু করব (আলেকসান্ডারের উত্তরে সূচিতদের পদক্ষেপগুলি শুরুর জন্য অনুসরণ করুন)। আপনি জন ফোরম্যানের ডেটা স্মার্ট নামক বইটি তুলে নেওয়া বিবেচনা করতে পারেন। এটি হ্যান্ড অন অন বই, যেমন জন ডেটাসেট সরবরাহ করে এবং ডেটা নেভিগেট এবং অন্বেষণের বিভিন্ন উপায় শিখতে আপনি তার উদাহরণগুলি (এক্সেল ব্যবহার করে) অনুসরণ করেন। নতুনদের জন্য, এটি একটি দুর্দান্ত সংস্থান।


2

আলেকসান্ডার খুব গভীর ব্যাখ্যা দিয়েছেন, তবে সংক্ষেপে, এইগুলি অনুসরণ করা পদক্ষেপগুলি:

তথ্য আহরণ করা হচ্ছে

তথ্য পরিষ্কার করা হচ্ছে

বৈশিষ্ট্য নিষ্কাশন

বিল্ডিং মডেল

ইনফিলিং ফলাফল

প্রকাশের ফলাফল

আপনি সঠিক সঠিকতা না পাওয়া পর্যন্ত লুপে 3,4,5 পদক্ষেপগুলি পুনরাবৃত্তি করুন।


0

আর এসপিএসএসের মতো পিনকি ডায়ালগ জিইউআই রয়েছে । তারা আর কোড মুদ্রণ করে যাতে আপনি তাদের প্রচেষ্টাটি শিখতে এবং সংহত করতে পারেন। আমি ব্লুস্কাইকে এটির প্রতিটি কথার জন্য এবং সংঘাতের জন্য সংলাপের পরামর্শ দেব recommend যদিও এই সফ্টওয়্যারগুলি ইডিএ, পরিসংখ্যান এবং ভিজ্যুয়ালাইজেশনের জন্য দুর্দান্ত, মেশিন লার্নিংগুলি তারা ভাল করে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.