যেমনটি আমি আমার মন্তব্যে উল্লেখ করেছি , সত্যিকারের উত্তর তৈরি করার জন্য প্রশ্নের পর্যাপ্ত বিবরণ নেই। যেহেতু আপনার সঠিক শর্তাদি খুঁজে পেতে এবং আপনার প্রশ্ন গঠনের ক্ষেত্রেও সহায়তা প্রয়োজন, তাই আমি সাধারণতার সাথে সংক্ষেপে কথা বলতে পারি।
আপনি যে শব্দটির সন্ধান করছেন তা হ'ল ডেটা ক্লিয়ারিং । এটি কাঁচা, খারাপ ফর্ম্যাট (নোংরা) ডেটা গ্রহণ এবং বিশ্লেষণের জন্য এটি আকারে নেওয়ার প্রক্রিয়া। ফর্ম্যাটগুলি ("দুটি" ) পরিবর্তন করা এবং নিয়মিত করা এবং সারি এবং কলামগুলি পুনর্গঠিত করা সাধারণ তথ্য সাফাইয়ের কাজ। । 2
কিছু অর্থে, ডেটা সাফাই যে কোনও সফ্টওয়্যারে করা যেতে পারে এবং এটি এক্সেল বা আর এর মাধ্যমেও করা যেতে পারে both উভয় পছন্দের পক্ষে মতামত এবং নীতি থাকতে পারে:
- এক্সেল: এক্সেল অবশ্যই ডেটা সাফ করার জন্য সবচেয়ে সাধারণ পছন্দ (আর ভাগ্য # 59 পিডিএফ দেখুন )। এটি পরিসংখ্যানবিদদের দ্বারা একটি দুর্বল পছন্দ হিসাবে বিবেচিত হয়। প্রাথমিক কারণটি হ'ল এটি নিশ্চিত করা শক্ত যে আপনি সমস্ত কিছু পেয়েছেন, বা আপনি সবকিছুকে অভিন্নতার সাথে দেখিয়েছেন এবং আপনার যে পরিবর্তন হয়েছে তার কোনও রেকর্ড নেই, তাই আপনি পরে এই পরিবর্তনগুলি পুনরায় দেখতে পারবেন না। এক্সেল ব্যবহারের বিপরীত দিকটি হ'ল আপনি কী করছেন তা দেখা সহজ হবে এবং পরিবর্তনগুলি করার জন্য আপনাকে খুব বেশি কিছু জানতে হবে না। (পরিসংখ্যানবিদরা পরবর্তীকালে একটি অতিরিক্ত কনস হিসাবে বিবেচনা করবেন )
আর: আর এর একটি খাড়া শেখার বক্ররেখা প্রয়োজন। আপনি যদি আর বা প্রোগ্রামিংয়ের সাথে খুব বেশি পরিচিত না হন, এক্সেল-এ খুব তাড়াতাড়ি এবং সহজে করা যায় এমন জিনিসগুলি আর-তে চেষ্টা করতে হতাশ হবে the অন্যদিকে, আপনাকে যদি আবার কখনও এটি করতে হয়, তবে শেখা হবে will সময় ভাল ব্যয় এছাড়াও, আর-তে ডেটা সাফ করার জন্য আপনার কোডটি লিখতে এবং সংরক্ষণ করার ক্ষমতা উপরে তালিকাভুক্ত কনসটি হ্রাস করবে। নীচে কয়েকটি লিঙ্ক রয়েছে যা আপনাকে আরগুলিতে এই কাজগুলি শুরু করতে সহায়তা করবে:
স্ট্যাক ওভারফ্লোতে আপনি প্রচুর ভাল তথ্য পেতে পারেন :
কুইক-আর একটি মূল্যবান সংস্থান:
সংখ্যাগত মোডে নম্বর পাওয়া:
আর সম্পর্কে শেখার আর একটি অমূল্য উত্স হ'ল ইউসিএলএর পরিসংখ্যান সহায়তা ওয়েবসাইট :
শেষ অবধি, আপনি সর্বদা ভাল পুরানো গুগলের সাথে প্রচুর তথ্য সন্ধান করতে পারেন:
- এই অনুসন্ধান: আর-তে ডেটা সাফ করা , বেশ কয়েকটি টিউটোরিয়াল উপস্থিত করেছে (যার মধ্যে আমি কোনটি এফটিআর দিয়ে কাজ করেছি না)।
আপডেট: আপনার 'স্টাডি ইউনিট' প্রতি একাধিক পরিমাপ (আপনার ক্ষেত্রে, একজন ব্যক্তি) আপনার ডেটাসেটের কাঠামো সম্পর্কিত এটি একটি সাধারণ সমস্যা। আপনার যদি প্রতিটি ব্যক্তির জন্য একটি সারি থাকে, তবে আপনার ডেটাটি 'প্রশস্ত' ফর্মের মধ্যে রয়েছে বলে মনে করা হয় তবে অবশ্যই আপনার প্রতিক্রিয়া পরিবর্তনের জন্য একাধিক কলাম থাকবে, উদাহরণস্বরূপ। অন্যদিকে, আপনার প্রতিক্রিয়া ভেরিয়েবলের জন্য আপনার কেবলমাত্র একটি কলাম থাকতে পারে (তবে ব্যক্তি হিসাবে একাধিক সারি রয়েছে) ফলস্বরূপ, যেখানে আপনার ডেটাটি 'লম্বা' আকারে রয়েছে। এই দুটি ফর্ম্যাটের মধ্যে স্থানান্তরকে প্রায়শই আপনার ডেটা 'পুনরায় আকার দেওয়ার' বলা হয়, বিশেষত আর বিশ্বে।
- এর জন্য স্ট্যান্ডার্ড আর ফাংশনটি পুনরায় আকার দিন । ইউসিএলএর পরিসংখ্যান সহায়তা ওয়েবসাইটে ব্যবহার করার জন্য একটি গাইড রয়েছে
reshape()
।
- অনেকের
reshape
সাথে কাজ করা কঠিন বলে মনে হয়। হ্যাডলি উইকহাম পুনরায় আকার 2 নামে একটি প্যাকেজ অবদান রেখেছে , যা প্রক্রিয়াটি সহজ করার উদ্দেশ্যে। পুনর্নির্মাণের জন্য হ্যাডলির ব্যক্তিগত ওয়েবসাইটটি এখানে , দ্রুত-আর-ওভারভিউ এখানে , এবং এখানে একটি দুর্দান্ত চেহারার টিউটোরিয়াল রয়েছে ।
- ডেটা পুনরায় আকার দেওয়ার পদ্ধতি সম্পর্কে এসও তে প্রচুর প্রশ্ন রয়েছে। তাদের মধ্যে বেশিরভাগই প্রশস্ত থেকে দীর্ঘ দিকে চলে যাচ্ছেন, কারণ এটি সাধারণত ডেটা বিশ্লেষকদের মুখোমুখি। আপনার প্রশ্নটি দীর্ঘ থেকে প্রশস্ত দিকে যাচ্ছেন, যা খুব কম সাধারণ তবে এটি সম্পর্কে এখনও অনেকগুলি থ্রেড রয়েছে, আপনি তাদের অনুসন্ধানের মাধ্যমে এটি দেখতে পারেন ।
- আপনার হৃদয় যদি এক্সেলের সাথে এটি করার চেষ্টা করে থাকে, তবে এক্সেলের জন্য পুনরায় আকারের কার্যকারিতাটির প্রতিরূপ তৈরি করতে এখানে একটি ভিবিএ ম্যাক্রো লেখার বিষয়ে একটি থ্রেড রয়েছে: ভিবিএ ব্যবহার করে এক্সেলে গলে / পুনরায় আকার দিন?
data.table
,dplyr
,plyr
, এবংreshape2
- আমি এক্সেল এবং পিভট টেবিল এড়ানো প্রস্তাব দিই যদি সম্ভব।