ডেটাতে নতুন জ্ঞান আবিষ্কারের জন্য গাইডলাইনস


9

আমি নিজের বা অন্য কারও কাছে বক্তব্য দেওয়ার জন্য কিছু পরিকল্পনা করি। সাধারণত, একটি প্রশ্ন এই প্রক্রিয়াটি শুরু করে এবং প্রায়শই ব্যক্তি কোনও নির্দিষ্ট উত্তরের জন্য আশা জিজ্ঞাসা করে।

কীভাবে আমি কম পক্ষপাতমূলক উপায়ে ডেটা সম্পর্কে আকর্ষণীয় জিনিসগুলি শিখতে পারি?

এখনই আমি মোটামুটি এই পদ্ধতি অনুসরণ করছি:

  1. সংক্ষিপ্ত পরিসংখ্যান.
  2. Stripchart।
  3. ছত্রভঙ্গ প্লট।
  4. হতে পারে তথ্য একটি আকর্ষণীয় উপসেট সঙ্গে পুনরাবৃত্তি।

তবে এটি যথেষ্ট পদ্ধতিগত বা বৈজ্ঞানিক বলে মনে হচ্ছে না।

এমন কোনও গাইডলাইন বা পদ্ধতি অনুসরণ করার জন্য রয়েছে যা আমি জিজ্ঞাসা করতে চাই না এমন ডেটা সম্পর্কিত জিনিস প্রকাশ করে? আমি যখন পর্যাপ্ত বিশ্লেষণ করেছি তখন কীভাবে জানব?

উত্তর:


6

অনুসন্ধানের তথ্য বিশ্লেষণের পুরো ক্ষেত্র রয়েছে (ইডিএ), এবং জন ডব্লু টুকি রচিত অনুসন্ধানী ডেটা অ্যানালাইসিস নামে এই বিষয়টির একটি দুর্দান্ত বই ।

আমি পছন্দ করি যে আপনি গ্রাফ ব্যবহার করছেন - এমন আরও অনেক গ্রাফ রয়েছে যা আপনার ডেটার উপর নির্ভর করে কার্যকর হতে পারে - কতটি ভেরিয়েবল? ভেরিয়েবলগুলি প্রকৃতি কী (শ্রেণিবদ্ধ? সংখ্যাযুক্ত? ধারাবাহিক? গণনা? সাধারণ?)

একাধিক ভেরিয়েবলের সাথে ডেটার জন্য দরকারী এমন একটি গ্রাফ হ'ল একটি স্ক্র্যাটারপ্লট ম্যাট্রিক্স।

আপনি বিভিন্ন ধরণের আউটলিয়ারের সন্ধান করতে পারেন, যা প্রায়শই আকর্ষণীয় পয়েন্ট।

তবে আমি মনে করি না যে এই পুরো প্রক্রিয়াটিকে সত্যিকভাবে পদ্ধতিগত এবং বৈজ্ঞানিক করা যায় - অনুসন্ধানটি হ'ল আগে যে পদ্ধতিগত এবং বৈজ্ঞানিক পন্থাগুলি আনা যায়। এখানে, আমি মনে করি মূল দিকটি খেলাধুলা ness


(+1) আপনি কি উল্লিখিত বইয়ের একটি লিঙ্ক সরবরাহ করতে পারেন?
স্টিফেন

ইডিএ ইঞ্জিনিয়ারিং অ্যান্ড স্ট্যাটিস্টিকস হ্যান্ডবুক itl.nist.gov/div898/handbook/eda/eda.htm থেকে
সলডেন

@ পিটার ফ্লুম 13 ভেরিয়েবল দুটি ইনপুট দুই সেট চলমান একটি প্রোগ্রাম দ্বারা উত্পাদিত আউটপুট দুটি সেট তুলনা করে উত্পাদিত হয়। প্রোগ্রামটি পর্যায়ক্রমে চলে। ভেরিয়েবলগুলি অর্ডিনাল, বিভাগ, বিভাগ, বিভাগ, বিভাগ, গণনা, গণনা, গণনা, গণনা, সংখ্যা, সংখ্যা, গণনা এবং গণনা, নামগুলি হ'ল আইডি, মেশিনএ, ইনপুটএ, মেশিনবি, ইনপুটবি, নতুন, একই, নিখোঁজ, নিউপি, মিসিংপি, দৈর্ঘ্য, দৈর্ঘ্য, স্কোরএ, স্কোরবি। তবে শুধুমাত্র সাম্প্রতিক আউটপুটটির তুলনা করার সিদ্ধান্তটি আমার ভাল / খারাপ ধারণাও।
সিলডেন

বইটিকে আসলে এক্সপ্লোরেটরি ডেটা অ্যানালাইসিস বলা হয় (ইডিএ নয়) এটি জন ডব্লু টুকি লিখেছেন (আমার স্মৃতিটি আমাকে ট্রিক করেছে কারণ আমার সংস্করণটির প্রচ্ছদটি EDA লেবেলযুক্ত) লিঙ্ক: অ্যামাজন /
পিটার

@ সেল্ডেন ওয়েল, আইডি সম্ভবত কোনও কার্যকর পরিবর্তনশীল নয়। দুটি শ্রেণীবদ্ধ ভেরিয়েবলের মধ্যে আপনি মোজাইক প্লটগুলি দেখতে পারেন; একটি শ্রেণিবদ্ধ এবং একটি সংখ্যার মধ্যে, সমান্তরাল বক্সপ্লটগুলি ভাল হতে পারে।
পিটার ফ্লুম

1

আপনার যদি কালানুক্রমিক ডেটা অর্থাৎ টাইম সিরিজের ডেটা থাকে তবে সেখানে "পরিচিত" রয়েছে এবং এটি আবিষ্কারের অপেক্ষায় রয়েছে "অজানা"। উদাহরণস্বরূপ, যদি আপনার 10 টি পিরিয়ডের জন্য ডেটা পয়েন্টগুলির একটি ক্রম থাকে যেমন 1,9,1,9,1,5,1,9,1,9 তবে এই নমুনার উপর ভিত্তি করে আপনি যুক্তিসঙ্গতভাবে 1,9,1,9 আশা করতে পারেন , ... ভবিষ্যতে উত্থিত। ডেটা বিশ্লেষণ যা প্রকাশ করে তা হ'ল 6-পিরিয়ডে একটি "অস্বাভাবিক" পাঠ্য রয়েছে যদিও এটি + -3 সিগমা সীমাতে ভাল রয়েছে বলে বোঝায় যে ডিজিএফ হোল্ড করে নি। ইনিলার / আউটিলার আনমাস্কিং আমাদের তথ্য সম্পর্কিত জিনিসগুলি প্রকাশ করতে দেয়। আমরা আরও নোট করি যে গড় মানটি প্রত্যাশিত মান নয়। এই ধারণাটি সহজেই মিডফ শিফট এবং / অথবা স্থানীয় সময় ট্রেন্ডগুলি সনাক্ত করতে প্রসারিত হয় যা তথ্য বিশ্লেষণের আগে অজানা থাকতে পারে (হাইপোথিসিস জেনারেশন)। এখন এটি বেশ সম্ভব যে পরবর্তী 10 টি পড়াও 1,9,1,9, 1,5,1,9,1,9 পরামর্শ দেয় যে "5" অগত্যা অপরিহার্য নয়। যদি আমরা কোনও উপযুক্ত মডেল থেকে ত্রুটি প্রক্রিয়াটি পর্যবেক্ষণ করি যা প্রমাণযোগ্য অ ধ্রুবক প্রকরণটি দেখায় যা হতে পারে আমরা নীচের প্রকৃতির কোনও একটি অবস্থা প্রকাশ করতে পারি: 1) প্যারামিটারগুলি নির্দিষ্ট সময়ে নির্দিষ্ট সময়ে পরিবর্তিত হতে পারে; ২. ভারী বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। 9 পরামর্শ দিচ্ছে যে "5" অগত্যা অপরিহার্য নয়। যদি আমরা কোনও উপযুক্ত মডেল থেকে ত্রুটি প্রক্রিয়াটি পর্যবেক্ষণ করি যা প্রমাণযোগ্য অ ধ্রুবক প্রকরণটি দেখায় যা হতে পারে আমরা নীচের প্রকৃতির কোনও একটি অবস্থা প্রকাশ করতে পারি: 1) প্যারামিটারগুলি নির্দিষ্ট সময়ে নির্দিষ্ট সময়ে পরিবর্তিত হতে পারে; ২. ভারী বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। 9 পরামর্শ দিচ্ছে যে "5" অগত্যা অপরিহার্য নয়। যদি আমরা কোনও উপযুক্ত মডেল থেকে ত্রুটি প্রক্রিয়াটি পর্যবেক্ষণ করি যা প্রমাণযোগ্য অ ধ্রুবক প্রকরণটি দেখায় যা হতে পারে আমরা নীচের প্রকৃতির কোনও একটি অবস্থা প্রকাশ করতে পারি: 1) প্যারামিটারগুলি নির্দিষ্ট সময়ে নির্দিষ্ট সময়ে পরিবর্তিত হতে পারে; ২. ভারী বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। অগত্যা অপরিহার্য নয়। যদি আমরা কোনও উপযুক্ত মডেল থেকে ত্রুটি প্রক্রিয়াটি পর্যবেক্ষণ করি যা প্রমাণযোগ্য অ ধ্রুবক প্রকরণটি দেখায় যা হতে পারে আমরা নীচের প্রকৃতির কোনও একটি অবস্থা প্রকাশ করতে পারি: 1) প্যারামিটারগুলি নির্দিষ্ট সময়ে নির্দিষ্ট সময়ে পরিবর্তিত হতে পারে; ২. ভারী বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। অগত্যা অপরিহার্য নয়। যদি আমরা কোনও উপযুক্ত মডেল থেকে ত্রুটি প্রক্রিয়াটি পর্যবেক্ষণ করি যা প্রমাণযোগ্য অ ধ্রুবক প্রকরণটি দেখায় যা হতে পারে আমরা নীচের প্রকৃতির কোনও একটি অবস্থা প্রকাশ করতে পারি: 1) প্যারামিটারগুলি নির্দিষ্ট সময়ে নির্দিষ্ট সময়ে পরিবর্তিত হতে পারে; ২. ভারী বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। যদি আমরা কোনও উপযুক্ত মডেল থেকে ত্রুটি প্রক্রিয়াটি পর্যবেক্ষণ করি যা প্রমাণযোগ্য অ ধ্রুবক প্রকরণটি দেখায় যা হতে পারে আমরা নীচের প্রকৃতির কোনও একটি অবস্থা প্রকাশ করতে পারি: 1) প্যারামিটারগুলি নির্দিষ্ট সময়ে নির্দিষ্ট সময়ে পরিবর্তিত হতে পারে; ২. ভারী বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। যদি আমরা কোনও উপযুক্ত মডেল থেকে ত্রুটি প্রক্রিয়াটি পর্যবেক্ষণ করি যা প্রমাণযোগ্য অ ধ্রুবক প্রকরণটি দেখায় যা হতে পারে আমরা নীচের প্রকৃতির কোনও একটি অবস্থা প্রকাশ করতে পারি: 1) প্যারামিটারগুলি নির্দিষ্ট সময়ে নির্দিষ্ট সময়ে পরিবর্তিত হতে পারে; ২. ভারী বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। ওজন বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। ওজন বিশ্লেষণের (জিএলএস) প্রয়োজন হতে পারে; ৩. পাওয়ার ট্রান্সফর্মের মাধ্যমে ডেটা রুপান্তর করার প্রয়োজন হতে পারে; ৪. আসলে ত্রুটির বিভিন্নতার মডেল করার প্রয়োজন হতে পারে। আপনার যদি প্রতিদিনের ডেটা থাকে তবে ভাল বিশ্লেষণটি প্রকাশ করতে পারে যে প্রতিটি ছুটির চারপাশে সামঞ্জস্য / প্রত্যাশিত আচরণ প্রতিফলিত করে প্রতিক্রিয়ার একটি উইন্ডো রয়েছে (সীসা, সমসাময়িক এবং পিছিয়ে পড়া কাঠামো)। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। সমসাময়িক এবং পিছিয়ে কাঠামো) প্রতিটি ছুটির চারপাশে ধারাবাহিক / অনুমানযোগ্য আচরণ প্রতিফলিত করে। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন। সমসাময়িক এবং পিছিয়ে কাঠামো) প্রতিটি ছুটির চারপাশে ধারাবাহিক / অনুমানযোগ্য আচরণ প্রতিফলিত করে। আপনি মাসিকের নির্দিষ্ট কিছু দিনগুলির একটি উল্লেখযোগ্য প্রভাব ফেলে বা সোমবার ছুটির আগে শুক্রবারের ব্যতিক্রমী ক্রিয়াকলাপ রয়েছে তা প্রকাশ করতে সক্ষম হতে পারেন।


0

ডেটাামিনিং দুটি ভাগে বিভক্ত হতে পারে। আপনি যদি কোনও নির্দিষ্ট ভেরিয়েবলের উপর ডেটা সেট / ভেরিয়েবলের প্রভাব পরিমাপ করতে আগ্রহী হন তবে এটি তত্ত্বাবধানে পড়াশুনা হিসাবে বিবেচিত হবে। কোনও উদ্দেশ্য ছাড়াই গভীর এবং অনুসন্ধানের জন্য আপনি নিরীক্ষণমূলক শেখার মধ্য দিয়ে যাচ্ছেন।

উপাত্তের গ্রাফিং এবং পরিসংখ্যানগত বিশ্লেষণ (বিতরণ বুঝতে এবং অন্তর্দৃষ্টি বোঝা) প্রথম পদক্ষেপ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.