বৃহত আকারের পরিসংখ্যান বিশ্লেষণগুলি করার জন্য কোন দক্ষতার প্রয়োজন?


107

অনেক স্ট্যাটিস্টিকাল কাজ বড় আকারের ডেটা নিয়ে অভিজ্ঞতা চায়। পরিসংখ্যানগত এবং গণনা দক্ষতার ধরণের কি কি বড় ডেটা সেট সঙ্গে কাজ করার প্রয়োজন হবে। উদাহরণস্বরূপ, বিল্ডিং রিগ্রেশন মডেলগুলি কীভাবে 10 মিলিয়ন নমুনা সহ একটি ডেটা সেট দেয়?


1
কিছু ভাল পয়েন্টার এখানে
রাদেক

আপনি যেটিকে সবচেয়ে ভাল বলে মনে করেন তার সংক্ষিপ্ত বিবরণ দিলে এটি সহায়ক হবে।
Rolando2

আগ্রহের বিষয়টি হ'ল বড় আকারের ডেটা সহ অনুমানের পরীক্ষা সম্পর্কিত সম্পর্কিত আলোচনা: stats.stackexchange.com/q/2516/919
হোবার

উত্তর:


115

ইতিমধ্যে ভাল উত্তর হাজির হয়েছে। অতএব আমি ব্যক্তিগত অভিজ্ঞতার উপর ভিত্তি করে কিছু চিন্তা ভাগ করব: প্রাসঙ্গিকগুলি আপনার নিজের পরিস্থিতিতে প্রয়োজনের সাথে খাপ খাইয়ে নেব।

জন্য পটভূমি প্রসঙ্গে- সুতরাং আপনি যে কোনও ব্যক্তিগত পক্ষপাতিত্বের জন্য অ্যাকাউন্ট করতে পারেন যা এই বার্তায় প্রবেশ করতে পারে - আমার কাজটির বেশিরভাগ অংশ অপেক্ষাকৃত ছোট ডেটাসেটের ভিত্তিতে গুরুত্বপূর্ণ সিদ্ধান্ত নিতে সহায়তা করে helping এগুলি ছোট কারণ তথ্য সংগ্রহ করা ব্যয়বহুল হতে পারে (উদাহরণস্বরূপ ভূগর্ভস্থ জলের তদারকির প্রথম নমুনার জন্য 10 কে ডলার বা অস্বাভাবিক রাসায়নিকের বিশ্লেষণের জন্য কয়েক হাজার ডলার)। আমি যে কোনও ডেটা উপলভ্য, তার থেকে মৃত্যুর অন্বেষণ করতে এবং প্রয়োজনে বিশ্লেষণের জন্য নতুন পদ্ধতি উদ্ভাবন করার জন্য যতটা সম্ভব পাওয়া সম্ভব হয়ে উঠছি। যাইহোক, গত কয়েক বছরে আমি কয়েকটি মোটামুটি বড় ডেটাবেজে কাজ করার জন্য নিযুক্ত ছিলাম, যেমন একটি সামাজিক-অর্থনৈতিক এবং ইঞ্জিনিয়ারিং ডেটা যা সমগ্র আমেরিকাতে সেন্সাস ব্লক স্তরে (8.5 মিলিয়ন রেকর্ডস,

খুব বড় ডেটাসেটের সাথে কারও সম্পূর্ণ দৃষ্টিভঙ্গি এবং মানসিকতার পরিবর্তন । বিশ্লেষণের জন্য এখন খুব বেশি ডেটা রয়েছে। কিছু তাত্ক্ষণিক (এবং, পূর্ববর্তী ক্ষেত্রে) সুস্পষ্ট প্রভাব (রিগ্রেশন মডেলিংয়ের উপর জোর দিয়ে) অন্তর্ভুক্ত

  • আপনি যে কোনও বিশ্লেষণটি করার বিষয়ে ভাবেন তা অনেক সময় এবং গণনা নিতে পারে। আপনাকে আংশিক ডেটাসেটগুলিতে সাব্যাম্পলিং এবং কাজ করার পদ্ধতিগুলি বিকাশ করতে হবে যাতে পুরো ডেটাসেটের সাথে গণনা করার সময় আপনি আপনার কর্মপ্রবাহের পরিকল্পনা করতে পারেন। (Subsampling, জটিল হতে পারে কারণ আপনার ডেটা আছে যা সমগ্র ডেটা সেটটি যত সমৃদ্ধ একটি প্রতিনিধি উপসেট প্রয়োজন। আর সম্পর্কে ভুলবেন না ক্রস যাচাই অনুষ্ঠিত আউট তথ্য সঙ্গে আপনার মডেল।)

    • এ কারণে, আপনি যা করেন তার ডকুমেন্টিং এবং সমস্ত কিছু স্ক্রিপ্ট করার জন্য বেশি সময় ব্যয় করবেন (যাতে এটি পুনরাবৃত্তি করতে পারে)।

    • যেমন @ ডিডিমচা ঠিক লিখেছেন, ভাল প্রোগ্রামিং দক্ষতা কার্যকর। প্রকৃতপক্ষে, প্রোগ্রামিং পরিবেশের সাথে আপনার অভিজ্ঞতার পথে খুব বেশি প্রয়োজন নেই, তবে আপনার প্রোগ্রামে আগ্রহী হতে হবে, প্রোগ্রামিং কখন সাহায্য করবে (স্বীকৃতি দেওয়ার প্রতিটি ধাপে, সত্যই) এবং এর মৌলিক উপাদানগুলির একটি ভাল বোঝার দরকার কম্পিউটার বিজ্ঞান যেমন যথাযথ ডেটা স্ট্রাকচারের নকশা এবং কীভাবে অ্যালগোরিদমের গণনীয় জটিলতা বিশ্লেষণ করা যায়। আপনি যে কোডটি লেখার পরিকল্পনা করছেন তা পুরো ডেটাসেট পর্যন্ত স্কেল করবে কিনা তা আগে থেকেই জানার জন্য এটি দরকারী ।

    • কিছু ডেটাসেটগুলি বড় কারণ তাদের অনেকগুলি ভেরিয়েবল রয়েছে (হাজার হাজার বা কয়েক হাজার, তাদের সমস্তই আলাদা)। ডেটা সংক্ষিপ্ত করে এবং বোঝার জন্য প্রচুর সময় ব্যয় করার প্রত্যাশা করুন । একজন codebook বা ডেটা অভিধান এবং অন্যান্য ধরনের মেটাডাটা , অপরিহার্য হয়ে পড়ে।

  • আপনার বেশিরভাগ সময় কেবল ডেটা সরানো এবং পুনরায় ফর্ম্যাট করতে ব্যয় হয়। বড় ডেটাবেসগুলি প্রক্রিয়াজাতকরণ এবং বিপুল পরিমাণে ডেটা সংক্ষিপ্তকরণ এবং গ্রাফিংয়ের দক্ষতা আপনার দরকার । ( টুফ্টের ছোট একাধিকটি এখানে সামনে আসে))

  • আপনার প্রিয় কয়েকটি সফ্টওয়্যার সরঞ্জাম ব্যর্থ হবে। উদাহরণস্বরূপ স্প্রেডশিটগুলি ভুলে যান। প্রচুর ওপেন সোর্স এবং একাডেমিক সফ্টওয়্যার কেবল বড় ডেটাসেটগুলি পরিচালনা করতে পারে না: প্রসেসিংটি চিরতরে নেবে বা সফ্টওয়্যারটি ক্রাশ হয়ে যাবে। এটি প্রত্যাশা করুন এবং নিশ্চিত করুন যে আপনার কীগুলি কার্যকর করার একাধিক উপায় রয়েছে।

  • আপনার পরিচালিত প্রায় কোনও পরিসংখ্যান পরীক্ষা এত শক্তিশালী হবে যে এটি একটি "উল্লেখযোগ্য" প্রভাব চিহ্নিত করতে প্রায় নিশ্চিত। আপনাকে পরিসংখ্যানগত গুরুত্বের উপর আরও বেশি মনোযোগ দিতে হবে , যেমন প্রভাবের আকার, তাত্পর্য না করে।

  • একইভাবে, মডেল নির্বাচন সমস্যাযুক্ত কারণ প্রায় কোনও পরিবর্তনশীল এবং আপনার যে কোনও মিথস্ক্রিয়াটি বিবেচনা করতে পারে তা উল্লেখযোগ্য দেখাচ্ছে look আপনি বিশ্লেষণ করার জন্য যে ভেরিয়েবলগুলি বেছে নিয়েছেন তার অর্থবহতার উপর আপনাকে আরও ফোকাস করতে হবে।

  • ভেরিয়েবলগুলির উপযুক্ত ননলাইনাল ট্রান্সফর্মেশনগুলি সনাক্ত করতে পর্যাপ্ত তথ্যের বেশি থাকবে । এটি কীভাবে করবেন তা জানুন।

  • ননলাইন সম্পর্কিত সম্পর্কগুলি, প্রবণতাগুলির পরিবর্তন, ননস্টেশনারিটি, হেটেরোসিসেস্টাস্টিটি ইত্যাদি সনাক্ত করার জন্য আপনার কাছে পর্যাপ্ত ডেটা থাকবে

  • আপনি কখনও শেষ হবে না । আপনি চিরকালের জন্য তাদের অধ্যয়ন করতে পারে এমন অনেকগুলি ডেটা রয়েছে। সুতরাং, আপনার বিশ্লেষণাত্মক লক্ষ্যটি শুরুতে প্রতিষ্ঠিত করা এবং ক্রমাগত তাদের মনে রাখা গুরুত্বপূর্ণ।

আমি একটি সংক্ষিপ্ত উপাখ্যান দিয়ে শেষ করব যা একটি ছোট ডেটাসেটের তুলনায় রিগ্রেশন মডেলিংয়ের মধ্যে একটি অপ্রত্যাশিত পার্থক্য চিত্রিত করে rates আদমশুমারীর তথ্য সহ প্রকল্পটির শেষে, আমি তৈরি করেছি এমন একটি রিগ্রেশন মডেলটি ক্লায়েন্টের কম্পিউটিং সিস্টেমে প্রয়োগ করা প্রয়োজন, যার অর্থ একটি সম্পর্কিত ডেটাবেজে এসকিউএল কোড লেখা। এটি একটি রুটিন পদক্ষেপ তবে ডাটাবেস প্রোগ্রামারদের দ্বারা উত্পন্ন কোডটি এসকিউএলের হাজার হাজার লাইনের সাথে জড়িত। এটি ত্রুটি মুক্ত থাকার গ্যারান্টি দেওয়া প্রায় অসম্ভব করে তুলেছিল - যদিও আমরা বাগগুলি সনাক্ত করতে পারি (এটি পরীক্ষার ডেটাতে বিভিন্ন ফলাফল দিয়েছে), সেগুলি খুঁজে পাওয়া অন্য বিষয়। (আপনাকে কেবল একটি গুণফলের মধ্যে একটি টাইপোগ্রাফিক ত্রুটি দরকার ...) সমাধানটির অংশটি ছিল এমন একটি প্রোগ্রাম লেখার জন্য যা এসকিউএল আদেশগুলি সরাসরি মডেলের অনুমান থেকে তৈরি করে generated। এটি আশ্বাস দিয়েছিল যে পরিসংখ্যান প্যাকেজের বাইরে যা এসেছে তা হ'ল আরডিবিএমএসে। বোনাস হিসাবে, এই স্ক্রিপ্টটি লেখার জন্য কয়েক ঘন্টা ব্যয় করা হয়েছে সম্ভবত বেশ কয়েকটি সপ্তাহের এসকিউএল কোডিং এবং পরীক্ষার প্রতিস্থাপন। এটি পরিসংখ্যানবিদদের তাদের ফলাফলগুলিতে যোগাযোগ করতে সক্ষম হওয়ার অর্থের একটি ছোট্ট অংশ।


3
+1, আমি এই দুর্দান্ত প্রতিক্রিয়াটি ভাগ করব (এবং এটি প্রায় ^ _ ^ পেতে মুদ্রণ করব)
দিমিত্রিজ সেলভ

1
+1, এটি আমি আসার বহু বছর অবশ্যই আমার ছাত্রদের অবশ্যই বলব।
এমপিটকাস

2
উপাখ্যানটি আমাকে সেই সময়ের কথা মনে করিয়েছিল যখন আমাকে মডেলগুলি ইভিউ থেকে আরে স্থানান্তর করতে হয়েছিল। মূল মডেলটি ইভিউগুলিতে করা হয়েছিল, ফলাফলটি প্রায় 20 টি সমীকরণ ছিল। ইন্টারেক্টিভ ইন্টারফেসের সাথে আমাকে ওয়েবপৃষ্ঠায় ফলাফলগুলি উপস্থাপন করতে হয়েছিল। যেহেতু মডেলটি কাজ চলছে, তাই আমি একই কোডটি দিয়ে ই কোডগুলির সাথে আর কোডে অনুবাদ করে একটি কোড লিখেছিলাম যে একই মডেলটি উভয় দৃশ্যে এবং আর-তে ব্যবহৃত হয়েছিল, খুব ভালভাবে কাজ করেছে, আমি এমনকি অনুবাদকৃত কোডটি পৃথক করেও শেষ করেছি বিশ্লেষণী গ্রেডিয়েন্ট গণনার জন্য।
এমপিক্টাস

2
এটি সাধারণত আরও গঠনমূলক হিসাবে বিবেচিত হয় (যদি সরল সৌজন্যে না হয়) যখন ডাউনটিভোটরা কোনও মন্তব্যে ন্যায়সঙ্গত হয়, যদি না তা না করার সুস্পষ্ট কারণ না থাকে (যেমন, এক-লাইন অস্পষ্ট প্রতিক্রিয়া, কোনও ভুল উত্তর আপডেট করার জন্য অনুরোধের কোনও প্রতিক্রিয়া নেই, আপত্তিকর আচরণ)। যখন বৈধ যুক্তি দেওয়া হয় তখন এটি একটি প্রতিক্রিয়ার মান বাড়ানোর জন্য অবদান রাখে। এই বিশেষ ক্ষেত্রে, আমি ডাউনটোটের কোনও কারণ দেখছি না !
chl

2
অটোমেশনের জন্য +1 ত্রুটি হ্রাস করে: " এমন একটি প্রোগ্রাম লিখুন যা মডেল অনুমান থেকে সরাসরি এসকিউএল কমান্ড তৈরি করে "।
ওরিওন

18

আপনার প্রশ্নের কিছু ভাল উত্তর পাওয়া উচিত। এখানে কিছু সূচনা পয়েন্ট।

  1. নির্ভুলতা এবং কম্পিউটিং পাওয়ারের উপর থাকা দাবির মধ্যে ট্রেড অফসের সাথে কাজ করার ক্ষমতা।

  2. ডেটা মাইনিং কৌশলগুলির সাথে সুবিধা যা রিগ্রেশন পরিচালনার আগে প্রাথমিক স্ক্রিনিংয়ের সরঞ্জাম হিসাবে ব্যবহার করা যেতে পারে। যেমন, চেইড, কার্ট বা নিউরাল নেটওয়ার্ক।

  3. পরিসংখ্যানগত তাত্পর্য এবং ব্যবহারিক তাত্পর্য মধ্যে সম্পর্কের একটি গভীর বোঝার। পরিবর্তনশীল নির্বাচনের জন্য পদ্ধতিগুলির একটি বিস্তৃত পুস্তক।

  4. ক্রসফলিয়েট করার প্রবৃত্তি।


আমি # 4 এবং # 1 একত্রিত করব: আপনার কম্পিউটিং সংস্থানগুলি ছাড়াই কীভাবে বৈধতা পারা যায় তা জানা গুরুত্বপূর্ণ important
জাচ

1
আপনি আপনার 2 য় পয়েন্ট ব্যাখ্যা করতে পারেন? আপনি কীভাবে CHAID / CART / নিউরাল নেটওয়ার্কগুলিকে রিগ্রেশনেশনের স্ক্রিনিং সরঞ্জাম হিসাবে ব্যবহার করবেন?
রাইগটিন

2
@ অ্যারেগটিন - আমি CHAID এর সাথে সর্বাধিক পরিচিত, যা তথাকথিত "মিথস্ক্রিয়া" এর সাথে আসে যা প্রায়শই প্রধান প্রতিক্রিয়া হয় ইন্টারঅ্যাকশন হিসাবে মুখোমুখি হওয়ার কারণ এই পদ্ধতিটি "তাদের প্রবেশ করতে দেয়" that (CHAID- এ কেবলমাত্র 1 টি প্রধান প্রভাব চিহ্নিত করা যেতে পারে, সুতরাং অন্যান্য সমস্ত প্রধান প্রভাবগুলি "ইন্টারঅ্যাকশন" কোষগুলিতে চেপে যায়)) তবে CHAID অনেকগুলি ইন্টারঅ্যাকশন পরীক্ষা করতে সক্ষম হওয়ার সুবিধা পেয়েছে has সুতরাং একবার কয়েকটি প্রতিশ্রুতিবদ্ধ ব্যক্তি সনাক্ত করা গেলে, তাদের সমস্ত নিম্ন-অর্ডার উপাদানগুলির সাথে তারা একটি রিগ্রেশন বা আনোভাতে সংযুক্ত করা যেতে পারে এবং কোনটি সত্যিকারের জন্য দরকারী তা পরীক্ষা করতে পারে।
Rolando2

1
+1 আমি সম্ভাব্য প্রভাবগুলি অন্বেষণের জন্য ডেটা মাইনিং (বিশেষত CHAID) ব্যবহার করার সম্ভাবনা দেখে আগ্রহী। এটা যেমন কৃত্রিম (এবং ছোট) এ ডেটা সেটটি মতই একটি অ্যাপ্লিকেশন দেখতে আকর্ষণীয় হবে stats.stackexchange.com/q/10363/919
whuber

12

ভাল প্রোগ্রামিং দক্ষতা একটি আবশ্যক। আপনার পক্ষে দক্ষ কোড লিখতে সক্ষম হতে হবে যা দম বন্ধ না করে বিপুল পরিমাণে ডেটা নিয়ে ডিল করতে পারে, এবং সম্ভবত বলা কোডটি সামঞ্জস্য করতে সক্ষম হতে পারে যাতে এটি একটি যুক্তিসঙ্গত সময়ে চালিত হয়।


4
কোডিং একটি আবশ্যক, তবে ওএসের সাথে কীভাবে কাজ করবেন তা জেনে রাখাও গুরুত্বপূর্ণ। আপনার অবশ্যই বুঝতে হবে যে কখনও কখনও কাজের বিভাজনটির সাথে অতিরিক্ত অতিরিক্ত অর্থ যুক্ত হয়, কারণ ডিস্ক এবং নেটওয়ার্কগুলিতে অ্যাক্সেস করার জন্য অতিরিক্ত ব্যয় হয়। আপনি অবরুদ্ধকরণ এবং অপেক্ষার এবং আন্তঃক্রিয়া যোগাযোগ করার বিভিন্ন উপায় বুঝতে হবে। আমি দুর্দান্ত বৈজ্ঞানিক কোড দেখেছি যা বেশিরভাগ সময় ব্যয় করবে কিছু সিস্টেম কল শেষ হওয়ার অপেক্ষায়। আপনার সিস্টেমের সিসাদমিনের সাথে বন্ধুত্ব করুন, আপনি আপনার সিস্টেমগুলিকে কফি এনে অপ্টিমাইজেশনে প্রচুর সহায়তা পেতে পারেন;)
মার্সিন

2
কখনও কখনও "অপ্রয়োজনীয় কোড" লেখার চেয়ে ভাল হয় যদি এটি ডেটা কাঠামো তৈরিতে সহায়তা করে যা রাস্তার নিচে অতিরিক্ত প্রশ্নগুলির প্রত্যাশা করে যা সম্ভবত জিজ্ঞাসা করা হবে।
র‌্যাল্ফ উইন্টারস 14

1
@ র‌্যাল্ফ: +১, আমি নিজেই একমত হয়েছি এবং নিজেই এই কঠিন পদ্ধতিটি শিখেছি। আমার প্রয়োগ করার অর্থ হ'ল না যে আপনার ট্রেড অফগুলি যাই হোক না কেন আপনার দক্ষ কোডটি সর্বদা রচনা করা উচিত, কেবল আপনার কীভাবে তা জানা উচিত।
ডিস্কমচা

5

আমি আরও যোগ করব যে বৃহত আকারের ডেটা সম্ভাব্য "খারাপ ডেটা" এর সমস্যাও পরিচয় করে। কেবলমাত্র অনুপস্থিত ডেটা নয়, এমন ডেটা ত্রুটি এবং অসম্পূর্ণ সংজ্ঞাগুলি এমন কোনও সিস্টেমের প্রতিটি টুকরোগুলি দ্বারা প্রবর্তিত যা কখনও ডেটা স্পর্শ করে। সুতরাং, পরিসংখ্যানগত দক্ষতা ছাড়াও অন্য কেউ আপনার জন্য এটি না করে আপনার বিশেষজ্ঞের ডেটা ক্লিনার হওয়া দরকার।

-রালফ উইন্টারস


3
এগুলি ভাল পয়েন্ট। আউটলিয়ার এবং অন্যান্য ডেটা সমস্যাগুলি কোনও ডেটাসেটকে জর্জরিত করে , সে যত বড় বা ছোট হোক না কেন। আমার অভিজ্ঞতায় এগুলি প্রকৃতপক্ষে বড় ডেটাসেটগুলিতে চিহ্নিত করা এবং তাদের সাথে ডিল করা সহজ, কারণ আপনার কাছে তাদের ডেটা ভর দিয়ে বৈষম্য করার ক্ষমতা এবং বিশেষত যদি আপনি শক্তিশালী পদ্ধতি ব্যবহার করেন, তবে তারা ফলাফলগুলিকে প্রভাবিত করার সম্ভাবনা কম রাখেন। বিটিডাব্লু, আপনি যে কোনও বিশ্লেষণ জুড়ে সর্বদা "ডেটা ক্লিনিং " করছেন। এটি এমন কিছু নয় যা পৃথকীকরণ করা যেতে পারে এবং বিশেষজ্ঞের কাছে একবার এবং সকলের জন্য পরিচালিত হতে পারে। একজন আউটলেটর কোনও নির্দিষ্ট মডেলের প্রসঙ্গে কেবলমাত্র একজন খেলোয়াড়।
শুক্র

2
পরীক্ষা করে দেখুন গুগল পরিমার্জন একটি আধা স্বয়ংক্রিয় তথ্য ক্লিনার হাত সম্পাদনা ফাঁদ এড়াতে সাহায্য করে থাকে।
mindless.panda

5
  1. মানচিত্র হ্রাস কাঠামোতে সমস্যা ফ্রেম করা।
  2. প্রকৌশল সমস্যা, যেমন।, কত আঘাত সাধারণীকরণ কিন্তু স্টোরেজ ও গণনার খরচ হিসাবে ভাল না শুধুমাত্র ভিত্তিক পরামিতি জন্য নিম্ন স্পষ্টতা, অথবা মডেল নির্বাচন ব্যবহার করতে না পাশ।

আপনি উল্লিখিত মানচিত্র-হ্রাস কাঠামোর জন্য কি কোনও প্রাসঙ্গিক লিঙ্ক সরবরাহ করতে পারেন?
mindless.panda

@ চিন.পান্ডা, উইকি লিঙ্ক যুক্ত!
হাইব্যান্ডউইথথ

নিম্নতর নির্ভুলতা সম্পর্কে উল্লেখ করার জন্য +1, যদিও এটি একটি ভাল নকশাকৃত প্রগ্রেটিভ থেকে দূরে। যথাযথতা যত কম ততই আমরা খারাপ সিদ্ধান্ত নিতে পারি। এটি টাইপ I / II ত্রুটির সাথে ঘনিষ্ঠভাবে আবদ্ধ এবং বেশ কয়েকটি শাখা বিস্তৃত তবে পরিসংখ্যান, সিদ্ধান্ত বিজ্ঞান এবং অর্থনীতিতে বেশিরভাগ ক্ষেত্রে প্রাসঙ্গিক। উপযুক্ত পদ্ধতি চিহ্নিত করার জন্য ইউটিলিটি ফাংশনগুলি সময় এবং চিন্তা প্রক্রিয়ার অংশের আগে চিন্তা করা উচিত।
থমাস স্পিডেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.