আমি আপনার প্রশ্নের উত্তর দেওয়ার চেষ্টা করব, তবে আমি এখানে লক্ষ করতে চাই যে "বৃহত্তর" একটি আপেক্ষিক ধারণা হিসাবে "বৃহত ডেটাসেট" শব্দটি ব্যবহার বিভ্রান্তিকর । আপনাকে আরও বিশদ সরবরাহ করতে হবে। আপনি যদি বিডের ডেটা নিয়ে কাজ করছেন , তবে সম্ভবত এই তথ্যটি আপনার ডেটা বিশ্লেষণের জন্য পছন্দসই সরঞ্জামগুলি , পদ্ধতির এবং অ্যালগরিদমের নির্বাচনকে প্রভাবিত করবে । আমি আশা করি যে ডেটা বিশ্লেষণে আমার নিম্নলিখিত চিন্তাগুলি আপনার উপ-প্রশ্নগুলিকে সম্বোধন করবে। দয়া করে মনে রাখবেন যে আমার পয়েন্টগুলির সংখ্যাটি আপনার সাব-প্রশ্নের সংখ্যার সাথে মেলে না। তবে আমি বিশ্বাস করি যে এটি সাধারণ তথ্য বিশ্লেষণের কর্মপ্রবাহকে আরও ভালভাবে প্রতিফলিত করে , কমপক্ষে, কীভাবে আমি এটি বুঝতে পারি।
1) প্রথমত, আমি মনে করি আপনার কমপক্ষে কোনও ধরণের ধারণাগত মডেলটি মনে রাখা উচিত (বা কাগজের উপর আরও ভাল)। এই মডেলটি আপনাকে আপনার অনুসন্ধানের ডেটা বিশ্লেষণে (ইডিএ) গাইড করবে । মডেলটিতে একটি নির্ভরশীল ভেরিয়েবল (ডিভি) উপস্থিতির অর্থ হ'ল আপনার মেশিন লার্নিং (এমএল) পর্যায়ে পরে বিশ্লেষণে আপনি তথাকথিত তদারকি করা এমএল এর সাথে মোকাবিলা করবেন, চিহ্নিত ডিভি'র অনুপস্থিতিতে নিরীক্ষণযোগ্য এমএল এর বিপরীতে।
2) দ্বিতীয়ত, ইডিএ একটি গুরুত্বপূর্ণ অঙ্গ। আইএমএইচও, ইডিএর সাথে বর্ণনামূলক পরিসংখ্যান এবং ডেটা ভিজ্যুয়ালাইজেশন উত্পাদন করার একাধিক পুনরাবৃত্তি অন্তর্ভুক্ত করা উচিত , কারণ আপনি ডেটা সম্পর্কে আপনার বোঝাপড়াটি পরিমার্জন করেন। এই ধাপটিই আপনাকে আপনার ডেটাসেটগুলি সম্পর্কে মূল্যবান অন্তর্দৃষ্টি দেবে না, তবে এটি আপনার পরবর্তী গুরুত্বপূর্ণ পর্ব - ডেটা পরিষ্কার এবং রূপান্তরকে খাওয়াবে । কেবলমাত্র আপনার কাঁচা তথ্য একটি পরিসংখ্যান সফ্টওয়্যার প্যাকেজে ফেলে দেওয়া বেশি দেয় না - কোনও বৈধ পরিসংখ্যান বিশ্লেষণের জন্য, ডেটা পরিষ্কার, সঠিক এবং সামঞ্জস্যপূর্ণ হওয়া উচিত । এটি প্রায়শই সর্বাধিক সময়- এবং প্রচেষ্টা ব্যয়কারী, তবে একেবারে প্রয়োজনীয় অংশ। এই বিষয়ে আরও তথ্যের জন্য, এই দুর্দান্ত কাগজপত্র পড়ুন:http://vita.had.co.nz/papers/tidy-data.pdf (হ্যাডলি উইকহাম লিখেছেন) এবং http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo- পরিচয়_আর_ডাটা_ক্লানিং_ওয়থ_আর.পিডিএফ (দ্বারা এডউইন ডি জঞ্জা এবং মার্ক ভ্যান ডার লু)।
3) এখন, আপনি যেমন আশা হিসাবে EDA পাশাপাশি ডেটা পরিষ্কার এবং রূপান্তর সম্পন্ন করেছেন, তেমন আরও কিছু পরিসংখ্যানে জড়িত পর্যায় শুরু করার জন্য প্রস্তুত ready এই ধরণের একটি পর্যায়ের এক্সপ্লোরেশন ফ্যাক্টর অ্যানালাইসিস (ইএফএ) , যা আপনাকে আপনার ডেটার অন্তর্নিহিত কাঠামোটি বের করার অনুমতি দেবে । বিপুল সংখ্যক ভেরিয়েবলযুক্ত ডেটাসেটের জন্য, ইএফএর ইতিবাচক পার্শ্ব প্রতিক্রিয়া হ'ল মাত্রিক মাত্রা হ্রাস । এবং, যখন সেই দিক থেকে ইএফএ মূল উপাদানগুলির বিশ্লেষণের (PCA) সমানএবং অন্যান্য মাত্রিকতা হ্রাসের পদ্ধতির কাছে, আমি মনে করি যে ইএফএ আরও গুরুত্বপূর্ণ কারণ এটি আপনার ডেটাসেটগুলি বোঝার জন্য আপনার ডেটা "বর্ণিত" যে ঘটনার আপনার ধারণাগত মডেলটিকে পরিমার্জন করতে দেয়। অবশ্যই, এএফএ ছাড়াও, আপনি পূর্ববর্তী পর্যায়ে আপনার ফলাফলগুলির উপর ভিত্তি করে রিগ্রেশন বিশ্লেষণ করতে পারেন এবং পাশাপাশি মেশিন লার্নিং কৌশল প্রয়োগ করতে পারেন ।
অবশেষে, সফ্টওয়্যার সরঞ্জামগুলিতে একটি নোট । আমার মতে, বর্তমান পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার প্যাকেজগুলির এমন অবস্থা যে কার্যত কোনও বড় সফ্টওয়্যার প্যাকেজগুলির তুলনামূলক অফার বৈশিষ্ট্য অনুসারে থাকে। আপনি যদি এমন কোনও প্রতিষ্ঠানের পড়াশোনা করেন বা সফ্টওয়্যার সরঞ্জামগুলির মেয়াদে নির্দিষ্ট নীতি এবং পছন্দসই সংস্থায় কাজ করেন, তবে আপনি তাদের দ্বারা সীমাবদ্ধ থাকেন । তবে, যদি এটি না হয় তবে আমি আন্তরিকভাবে ওপেন সোর্স স্ট্যাটিস্টিকাল সফটওয়্যারটির নির্দিষ্ট প্রোগ্রামিং ভাষা , শেখার বক্ররেখা এবং আপনার ক্যারিয়ারের দৃষ্টিভঙ্গির সাথে স্বাচ্ছন্দ্যের ভিত্তিতে সুপারিশ করব । আমার পছন্দের বর্তমান প্ল্যাটফর্মটি আর প্রকল্প, যা প্যাকেজ, বিশেষজ্ঞ এবং উত্সাহীদের আশ্চর্যজনক বাস্তুতন্ত্রের পাশাপাশি পরিপক্ক, শক্তিশালী, নমনীয়, বিস্তৃত এবং উন্মুক্ত পরিসংখ্যান সফ্টওয়্যার সরবরাহ করে। অন্যান্য দুর্দান্ত পছন্দগুলির মধ্যে পাইথন , জুলিয়া এবং বড় ডেটা প্রক্রিয়াকরণের জন্য নির্দিষ্ট ওপেন সোর্স সফ্টওয়্যার যেমন হ্যাডোপ , স্পার্ক , নোএসকিউএল ডেটাবেসস , ওয়েকাএ অন্তর্ভুক্ত রয়েছে । ডেটা মাইনিংয়ের জন্য ওপেন সোর্স সফ্টওয়্যার সম্পর্কিত আরও উদাহরণের জন্য , যার মধ্যে সাধারণ এবং নির্দিষ্ট পরিসংখ্যান এবং এমএল সফ্টওয়্যার অন্তর্ভুক্ত রয়েছে, একটি উইকিপিডিয়া পৃষ্ঠার এই বিভাগটি দেখুন: http://en.wikedia.org/wiki/Data_mining# ফ্রি_অপেন- উত্স_ডাটা_মিনিং_সোফটি_এন্ড_প্লিকেশন ।
আপডেট: রাটলের ( http://rattle.togaware.com ) উল্লেখ করতে ভুলে গেছেন , যা ডেটা মাইনিংয়ের জন্য একটি খুব জনপ্রিয় ওপেন সোর্স আর-ওরিয়েন্টেড জিইউআই সফটওয়্যারও।