ডেটা সায়েন্সের সাধারণ সমস্যাগুলির মধ্যে একটি হ'ল কোনওভাবে পরিষ্কার (অর্ধ-কাঠামোগত) ফর্ম্যাটে বিভিন্ন উত্স থেকে ডেটা সংগ্রহ করা এবং একটি উচ্চ স্তরের বিশ্লেষণ করার জন্য বিভিন্ন উত্স থেকে মেট্রিকের সংমিশ্রণ করা। অন্যান্য ব্যক্তির প্রচেষ্টা, বিশেষত এই সাইটের অন্যান্য প্রশ্নগুলির দিকে তাকালে মনে হয় যে এই ক্ষেত্রের অনেক লোক কিছুটা পুনরাবৃত্তিমূলক কাজ করছেন। উদাহরণস্বরূপ টুইটগুলি, ফেসবুক পোস্টগুলি, উইকিপিডিয়া নিবন্ধগুলি বিশ্লেষণ করা অনেক বড় ডেটা সমস্যার একটি অংশ।
এর মধ্যে কয়েকটি ডেটা সেট সরবরাহকারীর সাইটের সরবরাহিত পাবলিক এপিআই ব্যবহার করে অ্যাক্সেসযোগ্য হয় তবে সাধারণত, কিছু এপিআইগুলি থেকে মূল্যবান তথ্য বা মেট্রিকগুলি অনুপস্থিত থাকে এবং প্রত্যেককে একই বারবার একই বিশ্লেষণ করতে হয়। উদাহরণস্বরূপ, যদিও ক্লাস্টারিং ব্যবহারকারীরা বিভিন্ন ব্যবহারের ক্ষেত্রে এবং বৈশিষ্ট্যগুলির নির্বাচনের উপর নির্ভর করতে পারেন তবে টুইটার / ফেসবুক ব্যবহারকারীদের একটি বেস ক্লাস্টারিং অনেকগুলি বিগ ডেটা অ্যাপ্লিকেশনগুলিতে কার্যকর হতে পারে, যা এপিআই দ্বারা সরবরাহ করা হয় না বা স্বাধীন ডেটা সেটগুলিতে প্রকাশ্যে উপলব্ধ হয় না ।
মূল্যবান ডেটা সেট সহ এমন কোনও সূচক বা প্রকাশ্যে উপলভ্য ডেটা সেট হোস্টিং সাইট রয়েছে যা অন্যান্য বড় ডেটা সমস্যা সমাধানে পুনরায় ব্যবহার করা যেতে পারে? ডেটা সায়েন্সের জন্য আমি গিটহাব (বা সাইটগুলি / পাবলিক ডেটাসেটের একটি গ্রুপ বা কমপক্ষে একটি বিস্তৃত তালিকা) এর মতো কিছু বলতে চাইছি। যদি তা না হয় তবে ডেটা সায়েন্সের জন্য এ জাতীয় প্ল্যাটফর্ম না থাকার কারণ কী? ডেটার বাণিজ্যিক মূল্য, ঘন ঘন ডেটা সেট আপডেট করা দরকার, ...? আমাদের কি ডেটা বিজ্ঞানীদের জন্য তৈরি ডেটা সেট ভাগ করে নেওয়ার জন্য ওপেন সোর্স মডেল থাকতে পারে না?