বড় ডেটার জন্য প্রথম পদক্ষেপ ( , )


21

মনে করুন আপনি প্রতিদিন কোটি কোটি পর্যবেক্ষণের ভিত্তিতে একটি বিশাল ডেটা সেট বিশ্লেষণ করছেন, যেখানে প্রতিটি পর্যবেক্ষণে কয়েক হাজার বিচ্ছিন্ন এবং সম্ভবত অপ্রয়োজনীয় সংখ্যাসূচক এবং শ্রেণিবদ্ধ ভেরিয়েবল রয়েছে। আসুন আমরা বলি যে একটি রিগ্রেশন সমস্যা, একটি ভারসাম্যহীন বাইনারি শ্রেণিবদ্ধকরণ সমস্যা এবং "কোন ভবিষ্যদ্বাণীকারী সবচেয়ে গুরুত্বপূর্ণ তা খুঁজে বের করুন" এর একটি কাজ task কীভাবে সমস্যাটির কাছে যাওয়া যায় সে সম্পর্কে আমার চিন্তাভাবনাটি হ'ল:

ক্রমাগত বৃহত্তর এবং বৃহত্তর (এলোমেলো) উপাত্তের উপ-নমুনাগুলি পর্যন্ত কিছু ভবিষ্যদ্বাণীপূর্ণ মডেল ফিট করুন:

  1. মডেলটিকে ফিট করা এবং ক্রস-ভ্যালিডিটিং করা গণনাগতভাবে কঠিন হয়ে যায় (উদাঃ, আমার ল্যাপটপে অযৌক্তিকভাবে ধীর গতি, আর মেমরি শেষ হয়ে যায় না ইত্যাদি), বা

  2. প্রশিক্ষণ এবং পরীক্ষা আরএমএসই বা নির্ভুলতা / স্মরণ মান স্থিতিশীল করে।

প্রশিক্ষণ এবং পরীক্ষার ত্রুটিগুলি স্থির না হলে (১), একটি সহজ মডেল ব্যবহার করুন এবং / অথবা মডেলের মাল্টিকোর বা মাল্টিনোড সংস্করণ প্রয়োগ করুন এবং শুরু থেকেই পুনরায় চালু করুন।

যদি প্রশিক্ষণ এবং পরীক্ষার ত্রুটিগুলি স্থিতিশীল হয় (২):

  • যদি (যেমন, আমি এখনও on এ এখনও খুব বেশি বড় না হয়ে এলগোরিদমগুলি চালাতে পারি ), বৈশিষ্ট্যটির স্থানটি প্রসারিত করে বা আরও জটিল মডেল ব্যবহার করে এবং শুরু থেকে পুনরায় চালু করে কর্মক্ষমতা উন্নত করার চেষ্টা করুন।এক্স এস ইউ বি এস টিএনগুলিতোমার দর্শন লগ করাগুলিটি«এনএক্সগুলিতোমার দর্শন লগ করাগুলিটি

  • যদি '' বৃহত 'হয় এবং আরও বিশ্লেষণ চালানো ব্যয়বহুল হয় তবে পরিবর্তনশীল গুরুত্ব এবং সমাপ্তি বিশ্লেষণ করুন।এনগুলিতোমার দর্শন লগ করাগুলিটি

আমি প্যাকেজ ব্যবহারের পরিকল্পনা biglm, speedglm, multicore, এবং ffদ প্রাথমিকভাবে, এবং পরে আরও জটিল আলগোরিদিম এবং / অথবা multinode (EC2 দিকে) প্রয়োজনীয় হিসাবে ব্যবহার করুন।

এই শব্দটি কি যুক্তিসঙ্গত পদ্ধতির মতো লাগে এবং যদি তা হয় তবে আপনার কোনও নির্দিষ্ট পরামর্শ বা পরামর্শ আছে? যদি তা না হয় তবে এই আকারের ডেটা সেট করার পরিবর্তে আপনি কী চেষ্টা করবেন?


1
এটি একটি যুক্তিসঙ্গত পদ্ধতির মত শোনাচ্ছে। আমি অনুরূপ পদ্ধতির বিষয়ে একটি আলাপ পেয়েছি: youtube.com/watch?v=X9YVSDWQokQ
আলফা

2
jmlr.csail.mit.edu/proceedings/papers/v7/miller09/miller09.pdf এটি সহায়ক হতে পারে। গণিত সম্পর্কে আরও বিশদ এখানে: ms.unimelb.edu.au/~millerh/papers/gencor_JCGS.pdf
ডিসিএল

@ ডিসিএল: ধন্যবাদ - ধারণাটি একটি দুর্দান্ত, গণনার তুলনায় সস্তা, ননলাইনার ভেরিয়েবল নির্বাচন পদ্ধতি যা ভালভাবে সমান্তরাল হবে (যদিও এটি অবিচ্ছিন্ন)। আমি এটি চেষ্টা করে দেখতে পারি কারণ এটি কোডের পক্ষে দ্রুত এবং খুব সহজ। আমি মূলত এই খুব শীতল অ্যালগরিদমটি ব্যবহার করার কথা ভেবেছিলাম: Code.google.com/p/rf-ace
লক অফফ

@ আলফা: আমি এই ধারণাটি সত্যিই পছন্দ করি! ক্রমান্বয়ে সবচেয়ে খারাপ-সম্পাদনকারী মেটা-প্যারামিটারগুলি অপসারণ করতে ডেটার বৃহত্তর এবং বৃহত্তর সাবসেটগুলিতে ক্রমিক পরীক্ষার ব্যবহার। এটি যথেষ্ট জিনিস আপ করা উচিত। ধন্যবাদ! পিএস এখানে আলাপের একটি কাগজ সংস্করণ রয়েছে: biglearn.org/files/papers/biglearn2011_submission_2.pdf
লকডঅফ

উত্তর:


2

এই আকারের ডেটাসেটগুলির জন্য আপনার পঠন এবং শ্রেণিবিন্যাসের জন্য অনলাইন পদ্ধতিগুলি পরীক্ষা করা উচিত। এই পদ্ধতির সাহায্যে এটিকে মেমরিতে লোড না করেই পুরো ডেটাসেটটি ব্যবহার করতে দেয়।

আপনি ভোপাল ওয়াবিট (ভিডাব্লু )ও পরীক্ষা করে দেখতে পারেন:

https://github.com/JohnLangford/vowpal_wabbit/wiki

এটি আউট অফ কোর অনলাইন পদ্ধতি ব্যবহার করে, তাই এটি এই আকারের একটি ডেটাসেট পরিচালনা করতে সক্ষম হওয়া উচিত। আপনি রিগ্রেশন এবং শ্রেণিবিন্যাস করতে পারেন এবং এতে বিরল ফর্ম্যাটগুলির সমর্থন রয়েছে। আপনি ভিডাব্লুতে দন্ডিত সংস্করণগুলি (যেমন লাসো-টাইপ রিগ্রেশন / শ্রেণিবিন্যাস )ও করতে পারেন যা আপনার মডেলের যথার্থতা উন্নত করতে পারে।


2

আমি হ্যাডোপ এবং আরএমআর (ম্যাপ হ্রাসের জন্য একটি নির্দিষ্ট প্যাকেজ আরে) ব্যবহার করার পরামর্শ দেব। এই কৌশলটির সাহায্যে আপনি কমোডিটি কম্পিউটারে সাশ্রয়ী মূল্যের কনফিগারেশন সহ বড় ডেটাसेट চালাতে পারেন (সম্ভবত দুই ঘন্টার মধ্যে আপনি হ্যাডোপ এবং আরএমআর (আরএইচআডুপ) ইনস্টলড এবং চলমান উভয়ই নিয়ে আসবেন)।

আসলে, আপনার যদি একাধিক কম্পিউটার থাকে তবে আপনি একটি ক্লাস্টার তৈরি করতে পারেন, প্রক্রিয়াজাতকরণের সময়টি হ্রাস করে।

আমি আপনাকে আমার লিঙ্কটি সমর্থন করে কিছু লিঙ্ক দিচ্ছি:

  • এই লিঙ্কটি আপনাকে একটি একক নোড ক্লাস্টারে (একটি কম্পিউটার) হ্যাডোপ ইনস্টল করার টিউটোরিয়ালের দিকে নিয়ে যাবে।
  • এই লিঙ্কটি এবং এই লিঙ্কটি আপনাকে দেখায় যে কীভাবে আপনার হ্যাডোপ ক্লাস্টারে আরএমআর ইনস্টল করবেন।
  • এবং পরিশেষে, এখানে আপনি লজিস্টিক রিগ্রেশন একটি উদাহরণ RHadoop মাধ্যমে খুঁজে পেতে পারেন।

সুতরাং, আমার পরামর্শ হ'ল এই নির্দেশিকাগুলি অনুসরণ করুন কারণ এটি যদি আপনার ডেটা বিশাল হয় তবে তা অবশ্যই উপযুক্ত।


0

এটি একটি উত্তরের চেয়ে বেশি মন্তব্য, তবে আমি এটি মন্তব্য হিসাবে পোস্ট করতে পারি না (50 টি রেপ প্রয়োজন) ..

আপনি কি নিজের ডেটাসেটে পিসিএ ব্যবহার করার চেষ্টা করেছেন? এটি আপনাকে পরিবর্তনশীল স্থান হ্রাস করতে এবং একটি সম্ভাব্য দিক খুঁজে পেতে সাহায্য করতে পারে যার ভিত্তিতে ভেরিয়েবলটি আপনাকে রিগ্রেশন মডেল থেকে বাদ দেয়। এটি করার ফলে, মডেলটি গণনা করা আরও সহজ হবে। এখানে আপনি শ্রেণিবদ্ধ ভেরিয়েবলগুলি সহ পিসিএ ব্যবহারের উপর একটি আকর্ষণীয় আলোচনা সন্ধান করতে পারেন: অবিচ্ছিন্ন এবং শ্রেণিবদ্ধ ভেরিয়েবলগুলির মিশ্রণযুক্ত ডেটাসেটগুলিতে মূল উপাদান বিশ্লেষণ প্রয়োগ করা যেতে পারে?

এছাড়াও, আমি কল্পনা করি আপনি অনেকগুলি কারণে আর ব্যবহার করছেন (আমি আরও ব্যবহার করি) তবে এসএএস বা স্টাটার মতো সফ্টওয়্যার ব্যবহার করা আরও সহজ হতে পারে। তারা বড় ডেটা সহ আরও ভাল পারফর্ম করে এবং আপনাকে মাল্টি-কোর এবং সমান্তরাল কম্পিউটিংয়ের সাথে ডিল করতে হবে না।

অবশেষে, আপনার ডেটাসেট থেকে যথাসম্ভব সারি ব্যবহার করা যদি বোধগম্য হয় তা ভাবার চেষ্টা করুন। এটি একটি জনসংখ্যার ডেটাসেট, কোয়াশি-জনসংখ্যার ডেটাসেট বা একটি নমুনাযুক্ত ডেটাসেট? পুরো ডেটা ব্যবহারের চেয়ে আপনি আপনার ডেটাশেটে একটি ভাল স্যাম্পলিং দিয়ে আরও ভাল ফলাফল পেতে পারেন। এই পোস্টটি একবার দেখুন: 'বড় ডেটা'র সময় স্যাম্পলিং কি প্রাসঙ্গিক?

আশাকরি এটা সাহায্য করবে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.