ডেটা সংগ্রহ এবং বিশ্লেষণের সেরা উপায়


13

নিজেকে সম্প্রতি মেশিন লার্নিং এবং ডেটা অ্যানালাইসিস শেখানো শুরু করে আমি নিজেকে বড় আকারের ডেটা তৈরি এবং অনুসন্ধানের প্রয়োজনে একটি ইটের দেয়ালে আঘাত করছি ting আমি আমার পেশাদার এবং ব্যক্তিগত জীবনে একত্রিত হয়ে ডেটা নিতে এবং এটি বিশ্লেষণ করতে চাই তবে আমি নিম্নলিখিতগুলি করার সর্বোত্তম উপায় সম্পর্কে অনিশ্চিত:

  1. আমি কীভাবে এই ডেটা সংরক্ষণ করব? এক্সেল? এসকিউএল? ??

  2. এই ডেটাটি বিশ্লেষণের চেষ্টা করার জন্য কোনও শিক্ষানবিসকে কীভাবে ভাল উপায়? আমি একটি পেশাদার কম্পিউটার প্রোগ্রামার তাই জটিলতাগুলি লেখার প্রোগ্রামগুলিতে নয় তবে ডেটা বিশ্লেষণের ডোমেনে কম বেশি নির্দিষ্ট।

সম্পাদনা: আমার অস্পষ্টতার জন্য ক্ষমাপ্রার্থনা, আপনি যখন প্রথমে কোনও কিছু সম্পর্কে শিখতে শুরু করেন তখন আপনি যা জানেন না তা জানার পক্ষে কঠিন, আপনি কি জানেন? ;)

এই কথাটি বলে, আমার উদ্দেশ্যটি এটি দুটি প্রধান বিষয়ে প্রয়োগ করা:

  1. সফটওয়্যার টিমের মেট্রিক্স (কথায় কথায় সংখ্যা হিসাবে প্রদত্ত সাফল্যের বেগ, ঝুঁকির পরিমাণ নির্ধারণের সম্ভাবনা)

  2. মেশিন লার্নিং (প্রাক্তন সিস্টেমের ব্যতিক্রমগুলি মডিউলগুলির একটি নির্দিষ্ট সংখ্যায় ঘটেছে যে কোনও মডিউল ক্ষেত্রের ক্ষেত্রে একটি ব্যতিক্রম ছুঁড়ে ফেলবে তার কী পরিমাণ ব্যয় হবে, উন্নতি করতে কী কী মডিউলগুলি সম্পর্কে ডেটা আমাকে বলতে পারে? আমাকে আমার বকের জন্য সবচেয়ে ভাল ব্যাং, ডেটা লোড করা ইত্যাদি শুরু করার জন্য ব্যবহারকারী সিস্টেমটির কোন অংশটি ব্যবহার করতে চাইবে তা অনুমান করুন)


এটি আমার কাছে খুব অস্পষ্ট বলে মনে হচ্ছে। কি ধরণের ডেটা, এবং কী ধরণের বিশ্লেষণ? এছাড়াও, বিষয়গত হলে এটি সম্প্রদায়ের উইকি হওয়া উচিত।
শেন

উত্তর:


19

যদি আপনার কাছে বড় ডেটা সেট থাকে - যেগুলি এক্সেল বা নোটপ্যাডটি ধীরে ধীরে লোড করে তোলে, তবে একটি ডাটাবেসই যাওয়ার ভাল উপায়। পোস্টগ্রিস ওপেন সোর্স এবং খুব সুসজ্জিত এবং জেএমপি, এসপিএস এবং অন্যান্য প্রোগ্রামগুলির সাথে সংযোগ স্থাপন করা সহজ। আপনি এই ক্ষেত্রে নমুনা করতে চাইতে পারেন। আপনাকে ডাটাবেসে ডেটা স্বাভাবিক করতে হবে না। অন্যথায়, CSV ভাগ করে নেওয়া-বান্ধব।

আপনার যদি 100M + সারি থাকে তবে অ্যাপাচি হাইভ বিবেচনা করুন।

বিশ্লেষণের ক্ষেত্রে, এখানে কিছু সূচনা পয়েন্ট রয়েছে:

একটি পরিবর্তনশীল বর্ণনা:

  • বারলেখ
  • সংক্ষিপ্তসার পরিসংখ্যান (গড়, পরিসর, মান বিচ্যুতি, ন্যূনতম, সর্বাধিক, ইত্যাদি)
  • বিদেশী আছে? (1.5x আন্ত-চৌম্বক রেঞ্জের বেশি)
  • এটি কোন ধরণের বিতরণ অনুসরণ করে? (স্বাভাবিক ইত্যাদি)

ভেরিয়েবলের মধ্যে সম্পর্কের বর্ণনা দাও:

  • স্ক্যাটার প্লট
  • অনুবন্ধ
  • Outliers? মহালানোবিসের দূরত্ব পরীক্ষা করে দেখুন

  • শ্রেণিবদ্ধ জন্য মোজাইক প্লট

  • শ্রেণিবদ্ধ জন্য কন্টিনজেন্সি টেবিল

একটি আসল সংখ্যা (দামের মতো) এর পূর্বাভাস দিন: রিগ্রেশন

  • ওএলএস রিগ্রেশন বা মেশিন লার্নিং রিগ্রেশন কৌশল

  • যখন ভবিষ্যদ্বাণী করার জন্য ব্যবহৃত কৌশলটি মানুষের দ্বারা বোধগম্য হয়, তাকে মডেলিং বলা হয়। উদাহরণস্বরূপ, একটি নিউরাল নেটওয়ার্ক পূর্বাভাস দিতে পারে, তবে সাধারণত বোধগম্য হয় না। কী পারফরম্যান্স সূচকগুলি খুঁজে পেতে আপনি রিগ্রেশন ব্যবহার করতে পারেন।

শ্রেণীর সদস্যপদ বা শ্রেণি সদস্যতার সম্ভাবনা (যেমন পাস / ব্যর্থ) এর পূর্বাভাস: শ্রেণিবিন্যাস

  • লজিস্টিক রিগ্রেশন বা মেশিন লার্নিং কৌশলগুলি যেমন এসভিএম

"প্রাকৃতিক" গোষ্ঠীগুলিতে পর্যবেক্ষণ রাখুন: ক্লাস্টারিং

  • সাধারণত তাদের মধ্যকার দূরত্ব গণনা করে "অনুরূপ" পর্যবেক্ষণগুলি পাওয়া যায়।

"প্রাকৃতিক" গ্রুপগুলিতে গুণাবলী রাখুন: ফ্যাক্টরিং

  • এবং অন্যান্য ম্যাট্রিক্স অপারেশন যেমন পিসিএ, এনএমএফ

ঝুঁকির পরিমাণ নির্ধারণ = মানক বিচ্যুতি, বা "খারাপ জিনিস" ঘটে যায় এমন সময়ের অনুপাত x তারা কতটা খারাপ bad

X সংখ্যা সংখ্যক গল্পের পয়েন্ট = লজিস্টিক রিগ্রেশন সাফল্যের সাথে সম্পন্ন পুনরাবৃত্তির সম্ভাবনা

শুভকামনা!


এটা দুর্দান্ত ছিল। এই প্রতিক্রিয়ার জন্য আপনাকে অনেক ধন্যবাদ। আপনি আমাকে একটি দুর্দান্ত জাম্প অফ পয়েন্ট দিয়েছেন। আপনি যে কোনও বইয়ের প্রস্তাব দিচ্ছেন যেহেতু আপনি মনে করছেন যে "আমি" যেখানে আছি "
জাস্টিন বোজনিয়ার

তোমাকে অসংখ্য ধন্যবাদ. বই: পরিসংখ্যান সমতল ইংরেজী শুরু করার জন্য। তার পরে চুল দ্বারা মাল্টিভিয়ারেট ডেটা বিশ্লেষণ। এগুলি ভাল ওয়েব সংস্থান: itl.nist.gov/div898/andbook , statsoft.com/textbook
নীল ম্যাকগুইগান

4

যদি আপনি সিস্টেমের ত্রুটিগুলি দেখছেন তবে আপনি ইবেতে ফল্ট নির্ধারণের জন্য নিচের কাগজগুলিতে মেশিন লার্নিংয়ের কৌশল নিযুক্ত করতে আগ্রহী হতে পারেন। এটি আপনাকে কী ধরণের ডেটা সংগ্রহ করতে হবে বা কোনও দল কীভাবে কোনও অনুরূপ ডোমেনে কোনও নির্দিষ্ট সমস্যার কাছে পৌঁছেছিল তা বোঝাতে পারে।

আপনি যদি সবে শুরু করতে থাকেন তবে আপনার ডেটা দিয়ে খুব দ্রুত খেলতে শুরু করার জন্য র‌্যাপিডমিনার বা কমলা জাতীয় কিছু ভাল সফ্টওয়্যার সিস্টেম হতে পারে। উভয়েই বিভিন্ন ফরম্যাটে (ফাইল সিএসভি, ডাটাবেস, অন্যদের মধ্যে) ডেটা অ্যাক্সেস করতে পারে।


3

আপনার প্রশ্নটি এত বিস্তৃত যে উত্তরটি: এটি নির্ভর করে। তবুও, আরও কিছু দরকারী উত্তর দেওয়ার জন্য আমি গবেষণায় আমার কাছে সাধারণ বলে মনে করি তা নির্দেশ করব।

টেক্সট ফাইলগুলিতে ডেটা সংরক্ষণ করা প্রায়শই হয়। পরিসংখ্যান বিশ্লেষণ করার সময় আপনি বেশিরভাগ এক ধরণের ভেক্টর সংগ্রহের সাথে কাজ করেন। এটি একটি টেবিল হিসাবে দেখা যায় এবং সিএসভি ফর্ম্যাটে লিখিত হতে পারে। পাতলা প্রায়শই সরল-পাঠ্যে সংরক্ষণ করার কারণ, কেবল প্রতিটি সরঞ্জাম সেগুলি পড়তে পারে এবং সেগুলি রূপান্তর করা সহজ because

বিশ্লেষণ সম্পর্কে, এটি নির্দিষ্ট করা কিছুটা শক্ত। যদি এটি 2 টি মাত্রিক হয় তবে একটি স্ক্যাটারপ্লট তৈরি করুন। যদি এটি উচ্চ-মাত্রিক হয় তবে পিসিএ করুন এবং গুরুত্বপূর্ণ ভেরিয়েবলগুলি আবিষ্কার করার জন্য প্রথম প্রধান উপাদানগুলি কোথায় রয়েছে তা দেখুন। যদি আপনার কাছে সময় ডেটা থাকে তবে এটি প্লট করুন। এটি এত সাধারণ যে আপনাকে কার্যকর হতে আপনার ডেটা কী তা আরও ভালভাবে নির্দেশ করতে হবে।


পিটার, আপনি আমাকে ঘুষি মারলেন! আমি পাঠ্য হিসাবে ডেটা সংরক্ষণ করার সাথে সম্পূর্ণরূপে একমত, যদিও আকারের উপর নির্ভর করে (কয়েক মিলিয়ন obs) মানচিত্র-হ্রাসযোগ্য ডাটাবেসে (যেমন, পিগ, ক্যাসান্দ্রা বা কোনও নোএসকিউএল বিকল্পগুলির মধ্যে একটি) সরানো প্রয়োজন হতে পারে।
ড্র্রুকনওয়ে

ওহ ঠিক আছে আকর্ষণীয়! সুতরাং কেবল প্রতিটি ভেরিয়েবলের জন্য ডেটা নিন এবং এটি সারি-কলামের ফর্ম্যাটে রেখে দিন এবং ক্র্যাঞ্চিং এএইচ-তে পাবেন? আমার কাছে দেখার মতো কোনও সরঞ্জাম রয়েছে বা আমার কেবল কিছু প্রোগ্রামিং করা উচিত?
জাস্টিন বোজনিয়ার

পরিসংখ্যানগুলির জন্য আর একটি অত্যন্ত বিস্তৃত (এবং বিনামূল্যে) সরঞ্জামকিট / প্রোগ্রামিং ভাষা / গ্রন্থাগার। বেশিরভাগ জিনিসের জন্য আমার প্রিয় তবে পাইপথন সায়পি / নুমপি
পিটার স্মিথ

0

রুটটি যে জিনিসটিতে খুব ভাল তা হল প্রচুর পরিমাণে ডেটা সংরক্ষণ করা। রুট কণা পদার্থবিজ্ঞানে ব্যবহৃত একটি সি ++ গ্রন্থাগার; এটি রুবি এবং পাইথন বাইন্ডিংগুলির সাথেও আসে, সুতরাং আপনি এই ভাষাতে প্যাকেজগুলি ব্যবহার করতে পারেন (যেমন নুমপি বা স্কিপি) যখন আপনাকে খুঁজে পাওয়া যায় যে বাক্সটি বাক্সের বাইরে কয়েকটি সম্ভাবনার প্রস্তাব দেয়।

রুট ফাইল ফর্ম্যাটটি গাছ বা টিপল সংরক্ষণ করতে পারে এবং এন্ট্রিগুলি ধারাবাহিকভাবে পড়া যায়, তাই আপনাকে একই সাথে সমস্ত ডেটা মেমরিতে রাখতে হবে না। এটি ডেটা পেটবাইটগুলি বিশ্লেষণ করতে দেয়, এমন কিছু যা আপনি এক্সেল বা আর এর মাধ্যমে চেষ্টা করতে চান না would

মূল I / O ডকুমেন্টেশন এখান থেকে পৌঁছানো যাবে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.