অনেক স্ট্যাটিস্টিকাল কাজ বড় আকারের ডেটা নিয়ে অভিজ্ঞতা চায়। পরিসংখ্যানগত এবং গণনা দক্ষতার ধরণের কি কি বড় ডেটা সেট সঙ্গে কাজ করার প্রয়োজন হবে। উদাহরণস্বরূপ, বিল্ডিং রিগ্রেশন মডেলগুলি কীভাবে 10 মিলিয়ন নমুনা সহ একটি ডেটা সেট দেয়?
অনেক স্ট্যাটিস্টিকাল কাজ বড় আকারের ডেটা নিয়ে অভিজ্ঞতা চায়। পরিসংখ্যানগত এবং গণনা দক্ষতার ধরণের কি কি বড় ডেটা সেট সঙ্গে কাজ করার প্রয়োজন হবে। উদাহরণস্বরূপ, বিল্ডিং রিগ্রেশন মডেলগুলি কীভাবে 10 মিলিয়ন নমুনা সহ একটি ডেটা সেট দেয়?
উত্তর:
ইতিমধ্যে ভাল উত্তর হাজির হয়েছে। অতএব আমি ব্যক্তিগত অভিজ্ঞতার উপর ভিত্তি করে কিছু চিন্তা ভাগ করব: প্রাসঙ্গিকগুলি আপনার নিজের পরিস্থিতিতে প্রয়োজনের সাথে খাপ খাইয়ে নেব।
জন্য পটভূমি প্রসঙ্গে- সুতরাং আপনি যে কোনও ব্যক্তিগত পক্ষপাতিত্বের জন্য অ্যাকাউন্ট করতে পারেন যা এই বার্তায় প্রবেশ করতে পারে - আমার কাজটির বেশিরভাগ অংশ অপেক্ষাকৃত ছোট ডেটাসেটের ভিত্তিতে গুরুত্বপূর্ণ সিদ্ধান্ত নিতে সহায়তা করে helping এগুলি ছোট কারণ তথ্য সংগ্রহ করা ব্যয়বহুল হতে পারে (উদাহরণস্বরূপ ভূগর্ভস্থ জলের তদারকির প্রথম নমুনার জন্য 10 কে ডলার বা অস্বাভাবিক রাসায়নিকের বিশ্লেষণের জন্য কয়েক হাজার ডলার)। আমি যে কোনও ডেটা উপলভ্য, তার থেকে মৃত্যুর অন্বেষণ করতে এবং প্রয়োজনে বিশ্লেষণের জন্য নতুন পদ্ধতি উদ্ভাবন করার জন্য যতটা সম্ভব পাওয়া সম্ভব হয়ে উঠছি। যাইহোক, গত কয়েক বছরে আমি কয়েকটি মোটামুটি বড় ডেটাবেজে কাজ করার জন্য নিযুক্ত ছিলাম, যেমন একটি সামাজিক-অর্থনৈতিক এবং ইঞ্জিনিয়ারিং ডেটা যা সমগ্র আমেরিকাতে সেন্সাস ব্লক স্তরে (8.5 মিলিয়ন রেকর্ডস,
খুব বড় ডেটাসেটের সাথে কারও সম্পূর্ণ দৃষ্টিভঙ্গি এবং মানসিকতার পরিবর্তন । বিশ্লেষণের জন্য এখন খুব বেশি ডেটা রয়েছে। কিছু তাত্ক্ষণিক (এবং, পূর্ববর্তী ক্ষেত্রে) সুস্পষ্ট প্রভাব (রিগ্রেশন মডেলিংয়ের উপর জোর দিয়ে) অন্তর্ভুক্ত
আপনি যে কোনও বিশ্লেষণটি করার বিষয়ে ভাবেন তা অনেক সময় এবং গণনা নিতে পারে। আপনাকে আংশিক ডেটাসেটগুলিতে সাব্যাম্পলিং এবং কাজ করার পদ্ধতিগুলি বিকাশ করতে হবে যাতে পুরো ডেটাসেটের সাথে গণনা করার সময় আপনি আপনার কর্মপ্রবাহের পরিকল্পনা করতে পারেন। (Subsampling, জটিল হতে পারে কারণ আপনার ডেটা আছে যা সমগ্র ডেটা সেটটি যত সমৃদ্ধ একটি প্রতিনিধি উপসেট প্রয়োজন। আর সম্পর্কে ভুলবেন না ক্রস যাচাই অনুষ্ঠিত আউট তথ্য সঙ্গে আপনার মডেল।)
এ কারণে, আপনি যা করেন তার ডকুমেন্টিং এবং সমস্ত কিছু স্ক্রিপ্ট করার জন্য বেশি সময় ব্যয় করবেন (যাতে এটি পুনরাবৃত্তি করতে পারে)।
যেমন @ ডিডিমচা ঠিক লিখেছেন, ভাল প্রোগ্রামিং দক্ষতা কার্যকর। প্রকৃতপক্ষে, প্রোগ্রামিং পরিবেশের সাথে আপনার অভিজ্ঞতার পথে খুব বেশি প্রয়োজন নেই, তবে আপনার প্রোগ্রামে আগ্রহী হতে হবে, প্রোগ্রামিং কখন সাহায্য করবে (স্বীকৃতি দেওয়ার প্রতিটি ধাপে, সত্যই) এবং এর মৌলিক উপাদানগুলির একটি ভাল বোঝার দরকার কম্পিউটার বিজ্ঞান যেমন যথাযথ ডেটা স্ট্রাকচারের নকশা এবং কীভাবে অ্যালগোরিদমের গণনীয় জটিলতা বিশ্লেষণ করা যায়। আপনি যে কোডটি লেখার পরিকল্পনা করছেন তা পুরো ডেটাসেট পর্যন্ত স্কেল করবে কিনা তা আগে থেকেই জানার জন্য এটি দরকারী ।
কিছু ডেটাসেটগুলি বড় কারণ তাদের অনেকগুলি ভেরিয়েবল রয়েছে (হাজার হাজার বা কয়েক হাজার, তাদের সমস্তই আলাদা)। ডেটা সংক্ষিপ্ত করে এবং বোঝার জন্য প্রচুর সময় ব্যয় করার প্রত্যাশা করুন । একজন codebook বা ডেটা অভিধান এবং অন্যান্য ধরনের মেটাডাটা , অপরিহার্য হয়ে পড়ে।
আপনার বেশিরভাগ সময় কেবল ডেটা সরানো এবং পুনরায় ফর্ম্যাট করতে ব্যয় হয়। বড় ডেটাবেসগুলি প্রক্রিয়াজাতকরণ এবং বিপুল পরিমাণে ডেটা সংক্ষিপ্তকরণ এবং গ্রাফিংয়ের দক্ষতা আপনার দরকার । ( টুফ্টের ছোট একাধিকটি এখানে সামনে আসে))
আপনার প্রিয় কয়েকটি সফ্টওয়্যার সরঞ্জাম ব্যর্থ হবে। উদাহরণস্বরূপ স্প্রেডশিটগুলি ভুলে যান। প্রচুর ওপেন সোর্স এবং একাডেমিক সফ্টওয়্যার কেবল বড় ডেটাসেটগুলি পরিচালনা করতে পারে না: প্রসেসিংটি চিরতরে নেবে বা সফ্টওয়্যারটি ক্রাশ হয়ে যাবে। এটি প্রত্যাশা করুন এবং নিশ্চিত করুন যে আপনার কীগুলি কার্যকর করার একাধিক উপায় রয়েছে।
আপনার পরিচালিত প্রায় কোনও পরিসংখ্যান পরীক্ষা এত শক্তিশালী হবে যে এটি একটি "উল্লেখযোগ্য" প্রভাব চিহ্নিত করতে প্রায় নিশ্চিত। আপনাকে পরিসংখ্যানগত গুরুত্বের উপর আরও বেশি মনোযোগ দিতে হবে , যেমন প্রভাবের আকার, তাত্পর্য না করে।
একইভাবে, মডেল নির্বাচন সমস্যাযুক্ত কারণ প্রায় কোনও পরিবর্তনশীল এবং আপনার যে কোনও মিথস্ক্রিয়াটি বিবেচনা করতে পারে তা উল্লেখযোগ্য দেখাচ্ছে look আপনি বিশ্লেষণ করার জন্য যে ভেরিয়েবলগুলি বেছে নিয়েছেন তার অর্থবহতার উপর আপনাকে আরও ফোকাস করতে হবে।
ভেরিয়েবলগুলির উপযুক্ত ননলাইনাল ট্রান্সফর্মেশনগুলি সনাক্ত করতে পর্যাপ্ত তথ্যের বেশি থাকবে । এটি কীভাবে করবেন তা জানুন।
ননলাইন সম্পর্কিত সম্পর্কগুলি, প্রবণতাগুলির পরিবর্তন, ননস্টেশনারিটি, হেটেরোসিসেস্টাস্টিটি ইত্যাদি সনাক্ত করার জন্য আপনার কাছে পর্যাপ্ত ডেটা থাকবে
আপনি কখনও শেষ হবে না । আপনি চিরকালের জন্য তাদের অধ্যয়ন করতে পারে এমন অনেকগুলি ডেটা রয়েছে। সুতরাং, আপনার বিশ্লেষণাত্মক লক্ষ্যটি শুরুতে প্রতিষ্ঠিত করা এবং ক্রমাগত তাদের মনে রাখা গুরুত্বপূর্ণ।
আমি একটি সংক্ষিপ্ত উপাখ্যান দিয়ে শেষ করব যা একটি ছোট ডেটাসেটের তুলনায় রিগ্রেশন মডেলিংয়ের মধ্যে একটি অপ্রত্যাশিত পার্থক্য চিত্রিত করে rates আদমশুমারীর তথ্য সহ প্রকল্পটির শেষে, আমি তৈরি করেছি এমন একটি রিগ্রেশন মডেলটি ক্লায়েন্টের কম্পিউটিং সিস্টেমে প্রয়োগ করা প্রয়োজন, যার অর্থ একটি সম্পর্কিত ডেটাবেজে এসকিউএল কোড লেখা। এটি একটি রুটিন পদক্ষেপ তবে ডাটাবেস প্রোগ্রামারদের দ্বারা উত্পন্ন কোডটি এসকিউএলের হাজার হাজার লাইনের সাথে জড়িত। এটি ত্রুটি মুক্ত থাকার গ্যারান্টি দেওয়া প্রায় অসম্ভব করে তুলেছিল - যদিও আমরা বাগগুলি সনাক্ত করতে পারি (এটি পরীক্ষার ডেটাতে বিভিন্ন ফলাফল দিয়েছে), সেগুলি খুঁজে পাওয়া অন্য বিষয়। (আপনাকে কেবল একটি গুণফলের মধ্যে একটি টাইপোগ্রাফিক ত্রুটি দরকার ...) সমাধানটির অংশটি ছিল এমন একটি প্রোগ্রাম লেখার জন্য যা এসকিউএল আদেশগুলি সরাসরি মডেলের অনুমান থেকে তৈরি করে generated। এটি আশ্বাস দিয়েছিল যে পরিসংখ্যান প্যাকেজের বাইরে যা এসেছে তা হ'ল আরডিবিএমএসে। বোনাস হিসাবে, এই স্ক্রিপ্টটি লেখার জন্য কয়েক ঘন্টা ব্যয় করা হয়েছে সম্ভবত বেশ কয়েকটি সপ্তাহের এসকিউএল কোডিং এবং পরীক্ষার প্রতিস্থাপন। এটি পরিসংখ্যানবিদদের তাদের ফলাফলগুলিতে যোগাযোগ করতে সক্ষম হওয়ার অর্থের একটি ছোট্ট অংশ।
আপনার প্রশ্নের কিছু ভাল উত্তর পাওয়া উচিত। এখানে কিছু সূচনা পয়েন্ট।
নির্ভুলতা এবং কম্পিউটিং পাওয়ারের উপর থাকা দাবির মধ্যে ট্রেড অফসের সাথে কাজ করার ক্ষমতা।
ডেটা মাইনিং কৌশলগুলির সাথে সুবিধা যা রিগ্রেশন পরিচালনার আগে প্রাথমিক স্ক্রিনিংয়ের সরঞ্জাম হিসাবে ব্যবহার করা যেতে পারে। যেমন, চেইড, কার্ট বা নিউরাল নেটওয়ার্ক।
পরিসংখ্যানগত তাত্পর্য এবং ব্যবহারিক তাত্পর্য মধ্যে সম্পর্কের একটি গভীর বোঝার। পরিবর্তনশীল নির্বাচনের জন্য পদ্ধতিগুলির একটি বিস্তৃত পুস্তক।
ক্রসফলিয়েট করার প্রবৃত্তি।
ভাল প্রোগ্রামিং দক্ষতা একটি আবশ্যক। আপনার পক্ষে দক্ষ কোড লিখতে সক্ষম হতে হবে যা দম বন্ধ না করে বিপুল পরিমাণে ডেটা নিয়ে ডিল করতে পারে, এবং সম্ভবত বলা কোডটি সামঞ্জস্য করতে সক্ষম হতে পারে যাতে এটি একটি যুক্তিসঙ্গত সময়ে চালিত হয়।
আমি আরও যোগ করব যে বৃহত আকারের ডেটা সম্ভাব্য "খারাপ ডেটা" এর সমস্যাও পরিচয় করে। কেবলমাত্র অনুপস্থিত ডেটা নয়, এমন ডেটা ত্রুটি এবং অসম্পূর্ণ সংজ্ঞাগুলি এমন কোনও সিস্টেমের প্রতিটি টুকরোগুলি দ্বারা প্রবর্তিত যা কখনও ডেটা স্পর্শ করে। সুতরাং, পরিসংখ্যানগত দক্ষতা ছাড়াও অন্য কেউ আপনার জন্য এটি না করে আপনার বিশেষজ্ঞের ডেটা ক্লিনার হওয়া দরকার।
-রালফ উইন্টারস