আমি বর্তমানে একটি খুচরা সংস্থায় ডেটা বিজ্ঞানী হিসাবে কাজ করছি (ডিএস হিসাবে আমার প্রথম কাজ, সুতরাং এই প্রশ্নটি আমার অভিজ্ঞতার অভাবে হতে পারে)। তাদের কাছে সত্যিকারের গুরুত্বপূর্ণ ডেটা বিজ্ঞান প্রকল্পগুলির একটি বিশাল ব্যাকলগ রয়েছে যা প্রয়োগ করা হলে দুর্দান্ত ইতিবাচক প্রভাব ফেলবে। কিন্তু।
ডেটা পাইপলাইনগুলি সংস্থার মধ্যে অস্তিত্বহীন, স্ট্যান্ডার্ড পদ্ধতিটি হ'ল যখনই আমাকে কিছু তথ্যের প্রয়োজন হয় তখন TXT ফাইলগুলি আমাকে গিগাবাইট ফাইলগুলি হস্তান্তর করে । এই ফাইলগুলি আরকেন স্বরলিপি এবং কাঠামোতে সঞ্চিত লেনদেনের ট্যাবুলার লগ হিসাবে ভাবেন। কোনও একক ডেটা উত্সে কোনও সম্পূর্ণ গোটা তথ্য থাকে না এবং তারা "সুরক্ষা কারণে" আমাকে তাদের ইআরপি ডাটাবেসে অ্যাক্সেস দিতে পারে না।
সহজ প্রকল্পের জন্য প্রাথমিক ডেটা বিশ্লেষণের জন্য নৃশংস, উদ্দীপক ডেটা র্যাংলিংয়ের প্রয়োজন। কোনও প্রকল্পের ৮০% এরও বেশি সময় ব্যয় করা আমি টেকসই ডেটাসেট তৈরির জন্য এই ফাইলগুলি এবং ক্রস ডেটা উত্সগুলি পার্স করার চেষ্টা করছি । এটি কেবল হারিয়ে যাওয়া ডেটা হ্যান্ডেল করা বা এটি প্রাকপ্রসেসিংয়ের সমস্যা নয়, এটি ডেটা তৈরির জন্য যে কাজটি গ্রহণ করা যায় যা প্রথম স্থানে পরিচালনা করা যায় ( ডিবিএ বা ডেটা ইঞ্জিনিয়ারিংয়ের মাধ্যমে সমাধানযোগ্য, ডেটা বিজ্ঞান নয় )?
1) মনে হয় বেশিরভাগ কাজ ডেটা সায়েন্সের সাথে মোটেই সম্পর্কিত নয়। এটা কি সঠিক?
2) আমি জানি এটি কোনও উচ্চ-স্তরের ডেটা ইঞ্জিনিয়ারিং বিভাগের সাথে ডেটাচালিত সংস্থা নয় , তবে এটি আমার মতে তথ্য বিজ্ঞান প্রকল্পগুলির টেকসই ভবিষ্যতের জন্য গড়ে তুলতে, ন্যূনতম স্তরের ডেটা অ্যাক্সেসযোগ্যতার প্রয়োজন । আমি কি ভূল?
3) গুরুতর ডেটা বিজ্ঞানের প্রয়োজনযুক্ত সংস্থার জন্য কি এই ধরণের সেটআপ সাধারণ?