কোনও ডেটাসেটে প্রথম তাত্ক্ষণিক নজর


10

আমার অজ্ঞতা ক্ষমা করুন, কিন্তু ...

আমি নিজেকে এমন পরিস্থিতিতে আবিষ্কার করতে থাকি, যেখানে আমি খুঁজে পেতে পরিচালিত বেশ কয়েকটি নতুন ডেটার মুখোমুখি হয়েছি। এই ডেটাটি সাধারণত এমন কিছু দেখায়:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

সাধারণত প্রথম নজরে আমি সত্যিই বলতে পারি না এখানে কোনও ট্রেন্ড রয়েছে কিনা। বিভিন্ন কলামগুলির মধ্যে পারস্পরিক সম্পর্ক খুব তাৎপর্যপূর্ণ নাও হতে পারে তবে আমি কলাম / বিভাগগুলির প্রতিটি সম্ভাব্য সংমিশ্রনের জন্য ম্যানুয়ালি প্লট তৈরি না করতে পারলে আমি আনন্দিত হব।

সেখানে কি এমন কোনও সরঞ্জাম রয়েছে যা তথ্যের সাথে সাথে কোনও কলামগুলিকে সংখ্যা, তারিখ এবং বিভাগ হিসাবে গণ্য করা উচিত এবং তারপরে প্লট করার জন্য অগ্রণী হবে:

  • প্রতিটি দুটি সংখ্যার কলামের মধ্যে পারস্পরিক সম্পর্ক
  • প্রতিটি বিভাগের জন্য পৃথক ট্রেন্ড লাইন সহ প্রতিটি দুটি সংখ্যার কলামের মধ্যে পারস্পরিক সম্পর্ক
  • সময় সিরিজ হিসাবে প্রতিটি নম্বর কলাম,
  • টাইম সিরিজ হিসাবে প্রতিটি সংখ্যা কলাম, বিভাগ দ্বারা পৃথক,
  • প্রভৃতি

শেষ পর্যন্ত এটি বিপুল সংখ্যক প্লট তৈরি করবে, যার মধ্যে বেশিরভাগই কেবল শব্দ করবে show আদর্শভাবে, সরঞ্জামটি পারস্পরিক সম্পর্কের মাধ্যমে প্লটগুলি স্কোর করতে পারে এবং শেষ পর্যন্ত সর্বাধিক স্কোরিং প্লটগুলির সাথে শুরু করে একটি স্লাইডশো প্রদর্শন করে। এটি একটি খুব অসম্পূর্ণ, তবে ডেটাসেটে দরকারী প্রথম নজরে।

তাই? সবাই কি এর জন্য ব্যবহার করে এমন একটি সরঞ্জাম আছে এবং আমি কেবল এটি সম্পর্কে জানি না, বা এটি আমাদের তৈরি করা দরকার?


আপনার উত্তরের জন্য আপনাকে অনেক ধন্যবাদ। আপনি আমার ডেটাতে উল্লিখিত প্রতিটি সরঞ্জাম পরীক্ষা করতে আমার সময় নিচ্ছি। আমি আমার পরীক্ষার পরে একটি উত্তর চয়ন করব। আমার ধারণা এটি খুব খারাপ যে আমি এর চেয়ে বেশি আর বেছে নিতে পারব না :)
পোস্ট্রেশনাল

উত্তর:


15

@ ওন্দ্রেজ এবং @ মিশেল এখানে কিছু ভাল তথ্য সরবরাহ করেছেন। আমি অবাক হই যে আমি অন্য কোথাও উল্লিখিত কিছু পয়েন্টগুলিতে সম্বোধন করে অবদান রাখতে পারি কিনা। ট্যাবুলার আকারে ডেটা থেকে বেশি পরিমাণে সংগ্রহ করতে না পারার বিষয়ে আমি নিজেকে পরাজিত করব না, টেবিলগুলি সাধারণত তথ্য উপস্থাপনের জন্য খুব ভাল উপায় নয় (সিএফ।, গেলম্যান এট আল।, টেবিলগুলি গ্রাফগুলিতে রূপান্তর করা )। অন্যদিকে, এমন একটি সরঞ্জামের জন্য জিজ্ঞাসা করা যা আপনাকে নতুন ডেটা সেট অন্বেষণে সহায়তা করার জন্য সমস্ত সঠিক গ্রাফগুলি স্বয়ংক্রিয়ভাবে উত্পন্ন করবে প্রায় এমন একটি সরঞ্জামের জন্য জিজ্ঞাসা করার মতো যা আপনার জন্য আপনার চিন্তাভাবনা করবে। (এটিকে ভুল উপায়ে গ্রহণ করবেন না, আমি আপনার প্রশ্নটি স্বীকার করে দিয়েছি যে আপনি এতদূর যাচ্ছেন না; আমি কেবল বোঝাতে চাইছি সত্যিকারের কোনও সরঞ্জাম কখনই আসবে না)) এর সাথে সম্পর্কিত একটি চমৎকার আলোচনা সন্ধান করা যেতে পারে এখানে

এই কথাগুলি বলা হয়েছে, আমি আপনার ডেটা অন্বেষণ করতে যে ধরণের প্লট ব্যবহার করতে চাইতে পারি সে সম্পর্কে আমি একটু কথা বলতে চাই। প্রশ্নের তালিকাভুক্ত প্লটগুলি একটি ভাল শুরু হবে, তবে আমরা এটি আরও কিছুটা অনুকূল করতে পারি। শুরুতে, "সংখ্যক প্লট" ভেরিয়েবলের সংযুক্তি সংযুক্তি তৈরি করা আদর্শ নাও হতে পারে। একটি স্ক্যাটারপ্লট কেবল দুটি ভেরিয়েবলের মধ্যে প্রান্তিক সম্পর্ক প্রদর্শন করে । গুরুত্বপূর্ণ সম্পর্কগুলি প্রায়শই একাধিক ভেরিয়েবলের সংমিশ্রণে লুকানো যায়। সুতরাং এই পদ্ধতির গোছানো প্রথম উপায় হ'ল একটি স্ক্যাটারপ্ল্লট ম্যাট্রিক্স তৈরি করাযা একই সাথে সমস্ত জুড়ে স্ক্রেটারপ্লট প্রদর্শন করে। স্ক্যাটারপ্ল্লট ম্যাট্রিকগুলি বিভিন্ন উপায়ে বাড়ানো যায়: উদাহরণস্বরূপ, এগুলি প্রতিটি ভেরিয়েবলের বিতরণের অবিচ্ছিন্ন কার্নেল ঘনত্বের প্লটগুলির সাথে একত্রিত করা যেতে পারে, বিভিন্ন মার্কার / রঙগুলি বিভিন্ন গোষ্ঠী চক্রান্ত করার জন্য ব্যবহার করা যেতে পারে এবং লোন ফিটের উপরের চাপ দিয়ে সম্ভব ননরেখা সংক্রান্ত সম্পর্কগুলি মূল্যায়ন করা যায়। আর scatterplot.matrix-তে গাড়ি প্যাকেজের ফাংশনটি এই সমস্ত কিছুই দুর্দান্তভাবে করতে পারে (উদাহরণটি উপরে লিঙ্কিত পৃষ্ঠাটির অর্ধেক অংশে দেখা যেতে পারে)।

যাইহোক, স্ক্যাটারপ্ল্লট ম্যাট্রিকগুলি ভাল শুরু করার পরেও তারা কেবলমাত্র প্রান্তিক অনুমানগুলি প্রদর্শন করছে। এর বাইরে যাওয়ার চেষ্টা করার কয়েকটি উপায় রয়েছে। একটি হ'ল আর-তে rgl প্যাকেজটি ব্যবহার করে ত্রি -মাত্রিক প্লটগুলি অন্বেষণ করা Another কপলটগুলি একই সাথে 3 বা 4 ভেরিয়েবলের মধ্যে সম্পর্কের সাথে সহায়তা করতে পারে। একটি বিশেষভাবে দরকারী পদ্ধতির একটি স্কেটারপ্ল্লট ম্যাট্রিক্স ইন্টারেক্টিভভাবে ব্যবহার করা হয়(তবে এটি শিখতে আরও বেশি প্রচেষ্টা প্রয়োজন হবে), যেমন 'ব্রাশ' করে। ব্রাশ করা আপনাকে ম্যাট্রিক্সের একটি ফ্রেমে একটি পয়েন্ট বা পয়েন্ট হাইলাইট করতে দেয় এবং সেই পয়েন্টগুলি একই সাথে অন্য সমস্ত ফ্রেমের মধ্যে হাইলাইট করা হবে। ব্রাশটি চারদিকে ঘোরাতে আপনি দেখতে পাবেন কীভাবে সমস্ত ভেরিয়েবল একসাথে পরিবর্তিত হয়। আপডেট: আরেকটি সম্ভাবনা যা আমি উল্লেখ করতে ভুলে গিয়েছিলাম তা হল একটি সমান্তরাল স্থানাঙ্ক প্লট ব্যবহার করা । আপনার প্রতিক্রিয়াটিকে পরিবর্তনশীল পৃথক না করার ক্ষেত্রে এর অসুবিধা রয়েছে, তবে এটি কার্যকর হতে পারে উদাহরণস্বরূপ, আপনার এক্স ভেরিয়েবলগুলির মধ্যে আন্তঃসম্পর্ক পরীক্ষা করার ক্ষেত্রে।

সংগৃহীত তারিখ অনুসারে আপনার ডেটা বাছাই করার জন্য আমি আপনাকেও প্রশংসা করতে চাই। যদিও সময়ের সাথে সাথে ডেটা সবসময় সংগ্রহ করা হয়, লোকেরা সর্বদা এটি করে না। একটি লাইন গ্রাফ প্লট করা ভাল, তবে আমি আপনাকে এটির পরিপূরকটি স্বতঃঅবসংশোধন এবং আংশিক স্বতঃসংশোধনের গ্রাফ সহ পরামর্শ দিচ্ছি । দ হয় এই জন্য ফাংশন acfএবং pacfযথাক্রমে।

আমি স্বীকার করেছি যে এই সমস্তগুলি আপনাকে এমন একটি সরঞ্জাম দেওয়ার অর্থে আপনার প্রশ্নের পুরোপুরি উত্তর দেয় না যা আপনাকে স্বয়ংক্রিয়ভাবে সমস্ত প্লট তৈরি করে দেবে, তবে একটি অর্থ হ'ল আপনাকে যতটুকু আশঙ্কা রয়েছে ততটুকু বাস্তবায়ন করতে হবে না উদাহরণস্বরূপ, একটি স্ক্র্যাটারপ্লট ম্যাট্রিক্স কোডের এক লাইন। এছাড়াও, আর-তে, নিজের জন্য একটি ফাংশন / কিছু পুনরায় ব্যবহারযোগ্য কোড লিখতে পারা উচিত যা এগুলির কিছু আংশিকভাবে স্বয়ংক্রিয় হবে (উদাহরণস্বরূপ, আমি এমন কোনও ফাংশনটি কল্পনা করতে পারি যা ভেরিয়েবলের একটি তালিকা এবং তারিখ-ক্রম গ্রহণ করে, সেগুলি সাজায়) , লাইন, এসিএফ এবং প্যাকফ প্লট সহ প্রতিটিটির জন্য একটি নতুন উইন্ডো পপ আপ করে।


সর্বদা হিসাবে, দুর্দান্ত পয়েন্ট। :)
মিশেল

2
(+1) ggobi এবং ল্যাটিক্সেক্সট্রা প্যাকেজ marginal.plotথেকে মিস করবেন না ।
সিএল

7

প্রতিটি জোড় সংখ্যাসূচক কলামগুলির মধ্যে সম্পর্কিত সম্পর্কগুলি একটি পারস্পরিক সম্পর্ক ম্যাট্রিক্সে দেখানো যেতে পারে। তাত্ক্ষণিক মূল্যায়ন করার জন্য এটি খাঁটি সংখ্যাসূচক হওয়া দরকার না, এটি রঙিন কোডড হতে পারে। পরীক্ষা করে দেখুন corrplot আর প্যাকেজের

আরও বিশ্লেষণের জন্য, রাটল বেশ কার্যকর জিইউআই সরঞ্জাম।

আপনি যদি "করপ্লাট" বা "রেটল" কীওয়ার্ড ব্যবহার করে স্ট্যাক এক্সচেঞ্জ অনুসন্ধান করেন তবে আপনি বেশ কয়েকটি বিষয় খুঁজে পাবেন যেখানে এই সরঞ্জামগুলি এবং তাদের বিকল্পগুলি আচ্ছাদিত রয়েছে। এই মত ।

শুভকামনা!


4

@ ওন্দ্রেজ কিছু ভাল পরামর্শ দিয়েছেন, সুতরাং সফ্টওয়্যার কীভাবে আমদানিকৃত ডেটা ব্যবহার করে তা আপনার চারপাশে আমি ফোকাস করব। চরিত্রের ডেটা, "বিভাগ 1" এবং "বিভাগ 2" সহ, সফ্টওয়্যারটি স্বয়ংক্রিয়ভাবে এগুলিকে গোষ্ঠী বা কারণ হিসাবে বিবেচনা করে কারণ এই ডাটাগুলির টুকরাগুলিতে গাণিতিক ক্রিয়াকলাপ পরিচালনা করা যায় না। এর অর্থ হ'ল আপনাকে এই বিভাগগুলি থেকে কিছু প্রবেশ করতে বাধা দেওয়া হবে (বিকল্প হিসাবে, আপনি যদি মেনু চালিত সিস্টেমের পরিবর্তে সিনট্যাক্স বা কমান্ড লাইন ব্যবহার করে থাকেন তবে চেষ্টা করুন যদি একটি সংখ্যার প্রয়োজন হয়) you'll

আপনার "নম্বর 1" এবং "সংখ্যা 2" এর মতো ডেটার জন্য, সফ্টওয়্যার এগুলি সংখ্যা হিসাবে পাঠ করে। যদি আপনার কাছে এমন কোনও গোষ্ঠী / উপাদান থাকে যা বিশুদ্ধরূপে সংখ্যাসূচক তথ্য থাকে তবে আপনাকে আপনার সফ্টওয়্যারটি নির্দেশ করতে হবে যে এগুলি গ্রুপ / ফ্যাক্টর।

কখনও কখনও তারিখগুলি পরিসংখ্যান সফ্টওয়্যারগুলিতে খারাপভাবে আমদানি করা যায়। আপনি একবার আপনার ডেটা আমদানি করার পরে, আপনাকে দেখতে হবে যে আপনার পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারটিতে ডেটা টাইপ "তারিখ" এর জন্য "তারিখ" টাইপের কিছু ফর্ম দেখায়। আপনি যদি ডেটা টাইপটিকে তারিখ ব্যতীত অন্য কিছু হিসাবে দেখেন তবে আপনার একটি সমস্যা আছে। এমনকি যদি এটি তারিখ হিসাবে প্রদর্শিত হয় তবে কয়েকটি সারি আমদানি পরীক্ষা করুন যেখানে আপনার তারিখগুলি মাসের 13 বা 25 তারিখের মতো রয়েছে - সফ্টওয়্যারটি কীভাবে সেট আপ করা হয় তার উপর নির্ভর করে কখনও কখনও আমেরিকান / ব্রিটিশ তারিখের ফর্ম্যাটিং আমদানি থেকে স্ক্র্যাও ডেটা তৈরি করে , দিন / মাসের বিপরীত কারণে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.