কীভাবে কোনও পরিসংখ্যান বিশ্লেষণ প্রকল্প দক্ষতার সাথে পরিচালনা করবেন?


89

আমরা প্রায়শই কম্পিউটার সায়েন্সে প্রজেক্ট ম্যানেজমেন্ট এবং ডিজাইনের ধরণের কথা শুনে থাকি, তবে পরিসংখ্যান বিশ্লেষণে কম ঘন ঘন। যাইহোক, এটি দেখে মনে হয় যে কার্যকর এবং টেকসই পরিসংখ্যান প্রকল্পের নকশার দিকে এক সিদ্ধান্ত নেওয়া পদক্ষেপ হ'ল জিনিসগুলিকে সুসংহত রাখা।

আমি প্রায়শই আলাদা আলাদা ফোল্ডারে (কাঁচা ডেটা ফাইল, রুপান্তরিত ডেটা ফাইল, আর স্ক্রিপ্টস, ফিগার, নোটস ইত্যাদি) ফাইলগুলির একটি ধারাবাহিক সংস্থার ব্যবহারের পরামর্শ দিই। এই পদ্ধতির মূল কারণ হ'ল আপনার বিশ্লেষণগুলি পরে চালানো আরও সহজ হতে পারে (উদাহরণস্বরূপ, আপনি কীভাবে কোনও প্রদত্ত প্লট তৈরি করতে গিয়ে ভুলে গিয়েছিলেন)।

পরিসংখ্যান প্রকল্প পরিচালনার জন্য সর্বোত্তম অনুশীলনগুলি কী কী বা আপনার নিজের অভিজ্ঞতা থেকে আপনি কী প্রস্তাব দিতে চান? অবশ্যই এটি কোনও পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারেই প্রযোজ্য। ( পোস্ট প্রতি এক উত্তর, দয়া করে )


আমি এই প্রশ্নটিকে অফ-টপিক হিসাবে বন্ধ করতে ভোট দিচ্ছি কারণ এটি প্রকল্প পরিচালনার বিষয়ে
আকসাকাল

2
@ আকসাল: আমার মনে হয় আপনি কিছুটা কঠোর। :) এটি " পরিসংখ্যানগুলিতে আগ্রহী লোকের " সাথে প্রাসঙ্গিক । এছাড়াও 70+ ভোট প্রমিত ব্যবহারকারীদের আগ্রহ এবং দরকারী এই প্রশ্নটি দৃ useful়ভাবে প্রস্তাব দেয়।
usεr11852

1
আমি মনে করি এটি এখানে বিষয় বিবেচনা করা উচিত।
গাং

@ গুং আপনি কি সম্ভবত মেটা থ্রেডের একটি উত্তর যুক্ত করতে চান যাতে আমরা এটি আলোচনা করতে পারি?
অ্যামিবা

উত্তর:


80

আমি এসও (@ শ্যানের পরামর্শ অনুসারে), বায়োস্টার (পরবর্তীকালে, বিএস) এবং এই এসই- তে আমি পেয়েছি একটি দ্রুত ধারাবাহিক নির্দেশিকা সংকলন করছি । আমি প্রতিটি আইটেমের মালিকানা স্বীকার করার জন্য এবং প্রথম বা উচ্চ উত্তরের উত্তর নির্বাচন করার জন্য যথাসাধ্য চেষ্টা করেছি। আমি নিজের জিনিস এবং পতাকাযুক্ত আইটেমগুলি [আর] পরিবেশের সাথে নির্দিষ্ট করে যুক্ত করেছি।

ডাটা ব্যাবস্থাপনা

  • সমস্ত জিনিস সঠিক স্থানে রাখার জন্য একটি প্রকল্প কাঠামো তৈরি করুন (ডেটা, কোড, চিত্র, ইত্যাদি, জিওভানি / বিএস)
  • কখনই কাঁচা ডেটা ফাইলগুলি পরিবর্তন করুন (আদর্শভাবে সেগুলি কেবল পঠনযোগ্য হওয়া উচিত), রূপান্তরকরণ, পরিষ্কার করা ইত্যাদির সময় নতুনগুলিতে অনুলিপি / পুনর্নবীকরণ করুন
  • ডেটা ধারাবাহিকতা পরীক্ষা করুন ( whuber / SE)
  • জিএনইউ মেক ( কার্ল ব্রোম্যান / জাচারি জোন্স ) এর মতো বিল্ড অটোমেশন সরঞ্জামের সাথে স্ক্রিপ্ট নির্ভরতা এবং ডেটা ফ্লো পরিচালনা করুন

আইনসংগ্রহ

বিশ্লেষণ

  • আরএনজি বা স্টোকাস্টিক অ্যালগরিদমগুলিতে কল করার সময় আপনি যে বীজটি ব্যবহার করেছেন তা সেট / রেকর্ড করতে ভুলবেন না (যেমন কে-মানে)
  • মন্টে কার্লো গবেষণার জন্য, এটি একটি পৃথক ফাইলে চশমা / পরামিতি সংরক্ষণ আকর্ষণীয় হতে পারে ( সুমাত্রা হতে পারে একটি ভাল প্রার্থী জিওভান্নি / বিএস)
  • নিজেকে ভেরিয়েবলের জন্য একটি প্লটে সীমাবদ্ধ করবেন না, মাল্টিভারিয়েট (ট্রেলিস) প্রদর্শন এবং ইন্টারেক্টিভ ভিজুয়ালাইজেশন সরঞ্জামগুলি ব্যবহার করুন (যেমন জিজিবি)

ভারশনিং

  • সহজ ট্র্যাকিং / রফতানির জন্য কিছু ধরণের পুনর্বিবেচনা নিয়ন্ত্রণ ব্যবহার করুন, যেমন গিট ( শার্পি / ভনসি / জেডি লং / এসও) - এটি @ জেরোমি এবং @ টাল দ্বারা জিজ্ঞাসা করা সুন্দর প্রশ্নগুলি থেকে অনুসরণ করে
  • নিয়মিতভাবে সমস্ত কিছু ব্যাকআপ করুন ( শার্পি / জেডি লং / এসও)
  • আপনার ধারনা একটি লগ রাখুন, বা একটি বিষয় যে ব্যক্তি অনুসরণ করে উপর নির্ভর মত ditz ( জিওভান্নি / বিএস) - পূর্ববর্তী আইটেমে আংশিক অপ্রয়োজনীয় যেহেতু এটি গীত পাওয়া যায়

সম্পাদনা / রিপোর্টিং

পার্শ্ব দ্রষ্টব্য হিসাবে, হ্যাডলি উইকহাম পুনর্নির্মাণযোগ্য উদাহরণ এবং ডেটাগুলির একীকরণের দর্শন সহ আর প্রকল্প পরিচালনার একটি বিস্তৃত ওভারভিউ অফার করে

পরিশেষে, পরিসংখ্যানগত তথ্য বিশ্লেষণের তার ওরিয়েন্টেড ওয়ার্কফ্লোতে অলিভার কিরচক্যাম্প একটি নির্দিষ্ট ওয়ার্কফ্লো গ্রহণ এবং মানা কেন পরিসংখ্যানবিদদের একে অপরের সাথে সহযোগিতা করতে সহায়তা করবে, তথ্যের সাথে ডেটা অখণ্ডতা এবং ফলাফলগুলির পুনরুত্পাদনযোগ্যতা সম্পর্কে একটি বিশদ পর্যালোচনা সরবরাহ করে। এর মধ্যে একটি বুনন এবং সংস্করণ নিয়ন্ত্রণ সিস্টেম ব্যবহার করার বিষয়ে কিছু আলোচনা অন্তর্ভুক্ত রয়েছে। স্টাটা ব্যবহারকারীরা স্টাটা ব্যবহারের জন্য জে স্কট লংয়ের ডেটা অ্যানালাইসিসের ওয়ার্কফ্লো খুঁজে পেতে পারেন ।


দুর্দান্ত কাজ chl! আমি যদি আমার ব্লগে এটি প্রকাশ করি তবে আপনার দ্বারা কী ঠিক হবে? (আমার অর্থ, এই লেখাটি সিসি, তাই আমি পারলাম, তবে আমি আপনাকে যে কোনও উপায়ে অনুমতি চেয়েছিলাম :)) চিয়ার্স, তাল
তাল গালিলি

@ টাল কোন সমস্যা নেই এটি একটি বিস্তৃত তালিকা হতে অনেক দূরে, তবে সম্ভবত আপনি পরবর্তী সময়ে অন্যান্য দরকারী লিঙ্কগুলিকে একত্রিত করতে পারেন। এছাড়াও, আরও ভাল উপায়ে মানিয়ে নিতে বা পুনর্গঠন করতে নির্দ্বিধায়।
chl

+1 এটি একটি দুর্দান্ত তালিকা। আপনি "এটি গ্রহণ" বিবেচনা করতে পারেন যাতে এটি সর্বদা শীর্ষে থাকে; এটি দেওয়া হয়েছে যে সিডব্লিউ, যে কেউ এটিকে আপডেট রাখতে পারবেন।
শেন

@ শানে ওয়েল, এত দরকারী লিঙ্কগুলির সাথে প্রথম উত্তর দেওয়ার জন্য আমি আপনার কাছে .ণী। আপনি যেভাবে চান সংযোজন / সংশোধন করতে নির্দ্বিধায়।
chl

আমি এটি এখানে পুনরায় প্রকাশ করেছি। দুর্দান্ত তালিকা! r-statistics.com/2010/09/…
তাল গালিলি

21

লিঙ্কগুলির জন্য ধন্যবাদ! প্রশ্নটি কোনও পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারটির জন্য উন্মুক্ত - আমি সময়ে সময়ে পাইথন এবং স্টাটা ব্যবহার করি, তাই আমি আশ্চর্য হয়েছি যে নিশ্চিত ব্যবহারকারীরা সেখানে আকর্ষণীয় প্রস্তাবনা আনতে পারেন কিনা।
chl

একেবারে; যদিও আমি যুক্ত করব যে উপরের লিঙ্কগুলিতে দেওয়া সুপারিশগুলি কোনও পরিসংখ্যান প্রকল্পে (ভাষা নির্বিশেষে) সত্যই প্রয়োগ করতে পারে।
শেন

অবশ্যই হ্যাঁ! আমি আমার প্রশ্নটি একই সাথে আপডেট করেছি।
chl

8

এটি শেনের উত্তরের সাথে ওভারল্যাপ করে, তবে আমার দৃষ্টিতে দুটি প্রধান পাইয়ার রয়েছে:

  • প্রজননযোগ্যতা ; আপনি কেবল "কোনওভাবে" তৈরি হওয়া ফলাফলগুলি দিয়ে শেষ করবেন না তা নয় তবে বিশ্লেষণটি দ্রুত পুনরায় চালাতে সক্ষম হবেন (অন্য ডেটাতে বা সামান্য পরিবর্তিত প্যারামিটার সহ) এবং ফলাফলগুলি নিয়ে ভাবার জন্য আরও সময় পাবেন। বিশাল ডেটার জন্য, আপনি প্রথমে কিছু ছোট "প্লেসেট" এ আপনার ধারণাগুলি পরীক্ষা করতে পারেন এবং তারপরে সহজেই পুরো ডেটাতে প্রসারিত করতে পারেন।
  • ভাল ডকুমেন্টেশন ; সংস্করণ নিয়ন্ত্রণে কিছু স্ক্রিপ্ট মন্তব্য করেছে, কিছু গবেষণা জার্নাল, এমনকি আরও জটিল প্রকল্পের জন্য টিকিট সিস্টেম। প্রজননযোগ্যতা উন্নত করে, ত্রুটি ট্র্যাকিংকে সহজ করে তোলে এবং চূড়ান্ত প্রতিবেদনগুলিকে তুচ্ছ বলে।

+1 আমি দ্বিতীয় পয়েন্টটি পছন্দ করি (আমি রোকজিন + গিট ব্যবহার করি)। প্রথম পয়েন্টটি আমাকে অন্য কোনও পরিসংখ্যানবিদকে আপনার কোড দেওয়ার সম্ভাবনা সম্পর্কেও ভাবতে বাধ্য করে যা কোনও প্রকার সাহায্য ছাড়াই প্রকল্পের পরবর্তী পর্যায়ে আপনার ফলাফলগুলি পুনরুত্পাদন করতে সক্ষম হবে।
chl

Reproducibility? ডেটাতে যাইহোক এলোমেলো ত্রুটি রয়েছে, সুতরাং কে যত্নশীল। নথিপত্র? দুটি সম্ভাব্য উত্তর: ১) আমরা খুব ব্যস্ত, ডকুমেন্টেশনের জন্য আমাদের কাছে সময় নেই বা ২) আমাদের কেবল বাজেট ছিল হয় হয় বিশ্লেষণ করতে বা এটি নথিভুক্ত করার জন্য, তাই আমরা বিশ্লেষণটি করতে বেছে নিয়েছি। তুমি কি ভাবি আমি ঠাট্টা করছি? আমি অনেক সময় এই মনোভাবগুলি দেখেছি / শুনেছি - এমন প্রকল্পগুলিতে যা লাইনে লাইনে চলা ছিল।
মার্ক এল স্টোন


1

শুধু আমার 2 সেন্ট। আমি নোটপ্যাড ++ এর জন্য দরকারী বলে মনে করেছি। আমি প্রতিটি প্রকল্পের জন্য পৃথক স্ক্রিপ্ট (প্রোগ্রাম নিয়ন্ত্রণ, ডেটা ফর্ম্যাটিং ইত্যাদি) এবং একটি .প্যাড ফাইল বজায় রাখতে পারি। .Pad ফাইল কলটি সেই প্রকল্পের সাথে সম্পর্কিত সমস্ত স্ক্রিপ্ট।


3
আপনার অর্থ নোটপ্যাড ++ এনপিপ্টর ব্যবহারের মাধ্যমে :)
তাল গালিলি

1

অন্য উত্তরগুলি দুর্দান্ত হলেও আমি আরও একটি অনুভূতি যুক্ত করব: এসপিএসএস ব্যবহার করা থেকে বিরত থাকুন। আমি আমার মাস্টারের থিসিসের জন্য এসপিএসএস এবং এখন বাজার গবেষণায় আমার নিয়মিত চাকরিতে ব্যবহার করেছি।

এসপিএসএসের সাথে কাজ করার সময়, এসপিএসএস একাধিক ফাইল পরিচালনা করতে অসুবিধে হয়েছে (এই সত্য যে আপনি একাধিক ফাইল পরিচালনা করতে পারেন তবে এটি আর-এর মতো বেদনাদায়ক নয়) কারণ, আপনি ডেটাসেটগুলি সংরক্ষণ করতে পারবেন না বলে সংগঠিত পরিসংখ্যানের কোডটি তৈরি করা অবিশ্বাস্যরকম শক্ত ছিল একটি ভেরিয়েবল - আপনাকে "ডেটাসেট অ্যাক্টিভেট এক্স" - কোড ব্যবহার করতে হবে, যা মোট ব্যথা হতে পারে। এছাড়াও, বাক্য গঠনটি আড়ম্বরপূর্ণ এবং শর্টহ্যান্ডগুলিকে উত্সাহ দেয়, যা কোডটিকে আরও বেশি অপঠনযোগ্য করে তোলে।


0

জুপিটার নোটবুকগুলি, যা আর / পাইথন / মতলব / ইত্যাদি নিয়ে কাজ করে, কোন স্ক্রিপ্ট একটি নির্দিষ্ট চিত্র উত্পন্ন করে তা মনে রাখার ঝামেলা সরিয়ে দেয়। এই পোস্টে কোড এবং চিত্রটিকে একে অপরের পাশে রাখার একটি পরিপাটি উপায় বর্ণনা করেছে । একটি কাগজ বা থিসিস অধ্যায়ের জন্য সমস্ত পরিসংখ্যান একক নোটবুকের মধ্যে রাখা, এসকোয়েটেড কোডটি সন্ধান করা খুব সহজ করে।

আরও ভাল, বাস্তবে, কারণ আপনি যেটি চান তার সন্ধানের জন্য কয়েক ডজন পরিসংখ্যান আপনি স্ক্রোল করতে পারেন। কোডটি প্রয়োজন না হওয়া পর্যন্ত গোপন রাখা হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.