হ্যাডোপ / ম্যাপ-হ্রাস ব্যবহার করে কোন মেশিন লার্নিং অ্যালগরিদমগুলি মাপা যায়

9

স্কেলেবল মেশিন লার্নিং অ্যালগরিদমগুলি আজকাল গুঞ্জনের মতো মনে হচ্ছে। প্রতিটি সংস্থা বড় ডেটার সংক্ষিপ্ত কিছুই পরিচালনা করে না । ম্যাপ-রিডুজের মতো সমান্তরাল আর্কিটেকচার ব্যবহার করে কোন মেশিন লার্নিং অ্যালগরিদমকে ছোট করা যেতে পারে এবং কোনটি অ্যালগরিদমগুলি করতে পারে না তা নিয়ে কোনও পাঠ্যপুস্তক রয়েছে কিনা তা আলোচনা করে? নাকি কিছু প্রাসঙ্গিক কাগজপত্র?

machine-learning large-data

— Nik
সূত্র

5

মাহাউট ( http://manning.com/owen/ ) পড়ার জন্য মাহট ইন অ্যাকশন একটি ভাল বই । অবশ্যই ওয়েবসাইটটি কভার করা অ্যালগরিদমগুলির একটি সংক্ষিপ্তসার রয়েছে ( http://mahout.apache.org/ )।

— Budhapest
সূত্র

4

অনলাইন গ্রেডিয়েন্ট বংশোদ্ভূত শিক্ষার উপর মনোনিবেশ করা খুব দ্রুত মেশিন লার্নিং প্রোগ্রাম, ভোপাল ওয়াবিট হ্যাডোপের সাথে ব্যবহার করা যেতে পারে: http://arxiv.org/abs/1110.4198 যদিও, আমি কখনও এটিকে ব্যবহার করি নি। যদি আমি এটি সঠিকভাবে বুঝতে পারি তবে এটি কেবলমাত্র নির্ভরযোগ্যতা এবং ভোপাল ওয়েবিট প্রসেসগুলিতে ডেটা সরবরাহের জন্য হ্যাডোপ ব্যবহার করে। এটি বেশিরভাগ যোগাযোগের জন্য এমপিআইয়ের অলরেডিউসের মতো কিছু ব্যবহার করে।

— ektrules
সূত্র

4

জিমি লিন এবং ক্রিস ডায়ার ম্যাপ্রেডুসের সাথে ডেটা-ইনটেনসিভ টেক্সট মাইনিংয়ের উপরের বইয়ের প্রথম অধ্যায়ে যেমন উল্লেখ করেছেন, বৃহত ডাটা স্কেলগুলিতে, বিভিন্ন অ্যালগরিদমের পারফরম্যান্স এমন রূপান্তরিত করে যে পারফরম্যান্সের পার্থক্য কার্যত অদৃশ্য হয়ে যায়। এর অর্থ হল যে একটি বৃহত পরিমাণে ডেটা সেট করা হয়েছে, আপনি যে অ্যালগরিদমটি ব্যবহার করতে চান সেটি হ'ল কম্পিউটারের তুলনায় কম ব্যয়বহুল। এটি কেবলমাত্র অল্প পরিমাণে স্কেল করে যা আলগোরিদিমগুলির মধ্যে পারফরম্যান্সের পার্থক্য।

যে হচ্ছে বললেন, তাদের বই (উপরে লিঙ্ক) এবং অতিরিক্ত বড় ডেটাসেট অনুযায়ী খনির আনন্দ Rajaraman, Jure থেকে Leskovec, এবং জেফ্রি ডি Ullman দ্বারা সম্ভবত দুটি বই ভাল হিসাবে আপনি চেক আউট করতে চাইবেন, বিশেষ করে তারা সরাসরি MapReduce সঙ্গে সংশ্লিষ্ট করছি ডেটা মাইনিংয়ের উদ্দেশ্যে।

— রিচার্ড ডি
সূত্র

1

"..আর বড় আকারে, বিভিন্ন অ্যালগরিদমগুলির পারফরম্যান্স একত্রিত হয় ..." আমি এটি জানতাম না। এই সহায়ক অন্তর্দৃষ্টি জন্য ধন্যবাদ। এছাড়াও, আমি "ম্যাসিভ ডেটাসেটের খনির" জন্য হোঁচট খেয়েছি এবং এটি খুব দরকারী বলে মনে করেছি। অন্য বইটিও দেখবে।

— নিক

2

আপনার যদি একটি হ্যাডোপ ক্লাস্টারে অ্যাক্সেস থাকে তবে আমি স্পার্ককে একটি চেহারা দেব। https://spark.apache.org/

— screechOwl
সূত্র

এমএলিবের মধ্যে স্পার্কের জন্য স্কলা

— ভাদিম স্মোল্যাভভ

1

নিম্নলিখিত কাগজটি কেউ উল্লেখ করেনি - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (অ্যান্ড্রু এনজি অন্যতম লেখক)

কাগজটি নিজেই বহু-কোর মেশিনগুলির জন্য, তবে এটি মেশিন লার্নিংয়ের সমস্যাগুলি পুনর্নির্মাণের বিষয়ে প্রয়োজনীয় যাতে তারা মানচিত্র-হ্রাস প্যাটার্নে ফিট করে এবং কম্পিউটারগুলির একটি গুচ্ছের জন্য ব্যবহার করতে পারে। (সাধারণভাবে কেন এটি ভাল ধারণা নয় তা দেখার জন্য, আপনি এই কাগজটি পড়তে চাইতে পারেন - http://arxiv.org/pdf/1006.4990v1.pdf । এটির একটি ভাল ওভারভিউ রয়েছে))

— user48654
সূত্র

এছাড়াও, মাহাউট ছিল আমি উল্লেখ করা অ্যান্ড্রু এনজি পেপার বাস্তবায়নের একটি প্রচেষ্টা was

— ব্যবহারকারী 48654

0

স্কেলিং আপ মেশিন লার্নিং : সমান্তরাল এবং বিতরণিত পদ্ধতি জন ল্যাংফোর্ড এটের একটি দুর্দান্ত বই। অল। যা তদারকি করা এবং নিরীক্ষণ করা অ্যালগরিদমের সমান্তরাল বাস্তবায়ন নিয়ে আলোচনা করে। এটি ম্যাপ্রেডুস, সিদ্ধান্ত গাছের ensembles, সমান্তরাল কে-মানে, সমান্তরাল এসভিএম, বিশ্বাস প্রচার এবং AD-LDA সম্পর্কে আলোচনা করে talks

https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242

— ভাদিম স্মলিয়াভভ
সূত্র