বি ভাষা জন্য উপযুক্ত ভাষা


48

আর এর অনেকগুলি লাইব্রেরি রয়েছে যা ডেটা অ্যানালাইসিসকে লক্ষ্য করে (যেমন জেএজিএস, বুগস, আর্টস ইত্যাদি ..), এবং জনপ্রিয় পাঠ্যপুস্তকগুলিতে যেমন উল্লেখ করা হয়েছে: জে.ক্রাশে, ব্যয়েসিয়ান ডেটা বিশ্লেষণ করা; বি। ল্যান্টজ, "মেশিন লার্নিং উইথ আর"।

বিগ ডেটা হিসাবে বিবেচনা করার জন্য একটি ডেটাসেটের জন্য আমি 5 টিবির গাইডলাইন দেখেছি।

আমার প্রশ্নটি হল: আর বিগ ডেটা সমস্যাগুলিতে সাধারণত দেখা যায় এমন পরিমাণের জন্য আর কি উপযুক্ত? এই ডেটাসেটের আকারের সাথে আর ব্যবহার করার সময় কি কৌশল প্রয়োগ করা হবে?


4
মনে রাখার জন্য একটি ভাল জিনিসের নীচে উত্তরগুলি ছাড়াও সত্য যে বিগ ডেটা সম্পর্কিত আপনার আর এর থেকে বেশিরভাগ জিনিসগুলি সংক্ষিপ্ত ডেটা সেটগুলির সাথে সম্পন্ন করা যেতে পারে যা কাঁচা লগগুলির তুলনায় খুব ছোট। কাঁচা লগ থেকে স্যাম্পলিং এছাড়াও কাঁচা লগের পার্সিং লাইন এবং লাইনগুলির মাথা ব্যথা ব্যতীত বিশ্লেষণের জন্য আর ব্যবহারের এক বিরামবিহীন উপায় সরবরাহ করে। উদাহরণস্বরূপ, কর্মক্ষেত্রে একটি সাধারণ মডেলিংয়ের কাজের জন্য আমি মডেলিংয়ের জন্য ব্যবহারকারীকে 28 এমবিএস ডেটাতে 32 গিগাবাইট কাঁচা লগগুলি সংক্ষিপ্ত করতে মানচিত্রটি নিয়মিত ব্যবহার করি।
cwharland

উত্তর:


40

আসলে এটি প্রায় আসছে। আর ইন আ সংক্ষেপে বইটিতে বড় ডেটা প্রসেসিংয়ের জন্য হাডুপের সাথে আর ব্যবহার করার বিষয়ে একটি বিভাগও রয়েছে। চারপাশে কিছু কাজ করা দরকার যা করা দরকার কারণ মেমরির ক্ষেত্রে এটি সমস্ত কাজ করে, তাই আপনি মূলত আপনার কাছে র‌্যামের পরিমাণ সীমাবদ্ধ।

আর এবং হাদুপের জন্য একটি পরিপক্ক প্রকল্প হ'ল আরএইচডুপ

আরএইচডিপকে কয়েকটি উপ-প্রকল্প, rhdfs, rhbase, rmr2, plyrmr এবং quickcheck ( উইকি ) বিভক্ত করা হয়েছে ।


তবে হাডুপের সাথে আর ব্যবহার করা কি এই সীমাবদ্ধতা (স্মৃতিতে গণনা করা) অতিক্রম করবে?
ফিলিপ আলমেডা

আরএইচডুপ এই সীমাবদ্ধতাটি অতিক্রম করে। টিউটোরিয়ালটি এখানে: github.com/RivolutionAnalytics/rmr2/blob/master/docs/… এটিকে স্পষ্টভাবে ব্যাখ্যা করে। আপনাকে মানচিত্রের মানসিকতায় পরিবর্তন করতে হবে তবে এটি হডুপ পরিবেশে আর এর শক্তি সরবরাহ করে।
স্টিভ কালেস্টেদ

2
দুটি নতুন বিকল্প যা উল্লেখযোগ্য, সেগুলি হ'ল : স্পার্কআর ডাটাবেটস / ব্লগ / ২০১৪ / 6 / ০৯ / / এবং এইচ 2o.ai এইচ 2o.ai/ প্রোডাক্ট উভয়ই বড় ডেটার জন্য উপযুক্ত।
ওয়াকাক্স

30

বড় ডেটা সেটগুলির জন্য আর ব্যবহারের প্রধান সমস্যাটি হ'ল র‌্যামের সীমাবদ্ধতা। সমস্ত ডেটা র‍্যামে রাখার পিছনে কারণ হ'ল এটি এইচডিডি স্টোর করার চেয়ে অনেক দ্রুত অ্যাক্সেস এবং ডেটা ম্যানিপুলেশন সরবরাহ করে। আপনি যদি পারফরম্যান্সে হিট নিতে ইচ্ছুক হন, তবে হ্যাঁ, আর এ বড় ডেটাসেটের সাথে কাজ করা বেশ ব্যবহারিক ।

  • আরওডবিসি প্যাকেজ: ডেটা পুনরুদ্ধার এবং হ্যান্ডেল করার জন্য আর থেকে বাহ্যিক ডিবিতে সংযুক্ত হওয়ার মঞ্জুরি দেয়। অতএব, ম্যানিপুলেট করা ডেটা আপনার র্যামের মধ্যে সীমাবদ্ধ। সামগ্রিক ডেটা সেট আরও বড় হতে পারে।
  • Ff প্যাকেজ মেমরি-ম্যাপযুক্ত পৃষ্ঠাগুলি ব্যবহার করে র্যাম ডেটার চেয়ে বেশি সেট সেট করতে দেয়।
  • বিগএলএম: এটি বড় ডেটাতে সাধারণীকরণিত রৈখিক মডেল তৈরি করে। এটি খণ্ডগুলিতে মেমরিতে ডেটা লোড করে।
  • বিগমেমরি: একটি আর প্যাকেজ যা শক্তিশালী এবং মেমরি-দক্ষ সমান্তরাল বিশ্লেষণ করে এবং বিশাল ডেটা সেটগুলির ডেটা মাইনিং করতে দেয়। এটি বাহ্যিক পয়েন্টার অবজেক্টগুলি ব্যবহার করে মেমরির (র‌্যামে) বড় বড় অবজেক্টস (ম্যাট্রিকেস ইত্যাদি) সংরক্ষণ করার অনুমতি দেয়।

1
আর একটি প্যাকেজ বিতরণ করা হয়েছে যা আপনাকে র‍্যামে বিতরণ করা ফাইলগুলির সাথে কাজ করতে দেয়।
অ্যাডিসান্টোস

17

কিছু ভাল উত্তর এখানে। আমি নিম্নলিখিত তিনটি নোট যুক্ত করে আলোচনায় যোগ দিতে চাই :

  1. প্রশ্ন এর জোর ডেটার ভলিউম যখন উল্লেখ বিগ ডেটা অবশ্যই বোধগম্য ও বৈধ, বিশেষত বিবেচনায় সমস্যা ডাটা ভলিউম বৃদ্ধির নিয়ে ঝড় তোলেন প্রতি প্রযুক্তিগত ক্ষমতা 'সূচকীয় বৃদ্ধির মুরের আইন ( http://en.wikipedia.org/wiki/Moore % 27 এস_লা )।

  2. এটি বলার পরে, বড় ডেটা ধারণার অন্যান্য দিকগুলি সম্পর্কে মনে রাখা গুরুত্বপূর্ণ। গার্টনার সংজ্ঞা (জোর দিয়ে খনি - এবি) এর উপর ভিত্তি করে : " বিগ ডেটা হ'ল ভলিউম , উচ্চ বেগ এবং / অথবা উচ্চতর বিভিন্ন তথ্য সম্পদ যা উন্নত সিদ্ধান্ত গ্রহণ, অন্তর্দৃষ্টি আবিষ্কার এবং প্রক্রিয়া অপ্টিমাইজেশন সক্ষম করতে নতুন ধরণের প্রসেসিং প্রয়োজন" " (সাধারণত " 3Vs মডেল " হিসাবে পরিচিত )। আমি এটি উল্লেখ করেছি, কারণ এটি ডেটা বিজ্ঞানী এবং অন্যান্য বিশ্লেষককে আর প্যাকেজগুলি সন্ধান করতে এবং ব্যবহার করতে বাধ্য করে যা বড় ডেটার ভলিউম দিকগুলি ছাড়াও ফোকাস করে ( বিশাল আর বাস্তুতন্ত্রের nessশ্বর্য দ্বারা সক্ষম )।

  3. বিদ্যমান উত্তরগুলিতে আরও বিস্তৃত কভারেজের জন্য কিছু বড় প্যাকেজ সম্পর্কিত কিছু আর প্যাকেজ উল্লেখ করা হয়েছে , আমি সিআরএএন টাস্ক ভিউ "হাই-পারফরম্যান্স এবং আর এর সাথে সমান্তরাল কম্পিউটিং" ( HTTP: //cran.r- প্রকল্প) উল্লেখ করার পরামর্শ দিই। সংস্থা / ওয়েব / মতামত / HighPerformanceComputing.html ), বিশেষ করে, বিভাগগুলি "সমান্তরাল কম্পিউটিং: Hadoop এর" এবং "বৃহৎ মেমরি এবং আউট-অফ-মেমরি তথ্য"


12

আর "বিগ ডেটা" এর জন্য দুর্দান্ত! অপারেটিং সিস্টেমে র‌্যামের পরিমাণ কম হওয়া সীমাবদ্ধ (কিছু সরলীকরণের সাথে) যেহেতু আপনার একটি কর্মপ্রবাহ প্রয়োজন। আমি যে পদ্ধতিটি গ্রহণ করি তা হ'ল কোনও সম্পর্কিত ডেটাবেস ( RSQLiteকোনও এসকিউএল ডাটাবেস তৈরি এবং ইন্টারঅ্যাক্ট করার জন্য প্যাকেজ দেখুন ), ডেটাটির কাঠামো বুঝতে এসকিউএল-স্টাইলের অনুসন্ধান চালানো এবং তারপরে কম্পিউটেশনাল-ইনটেনসিভের জন্য ডেটার নির্দিষ্ট সাবসেটগুলি আহরণ পরিসংখ্যান সংক্রান্ত বিশ্লেষণ.

তবে এই মাত্র একটি পন্থা: এমন প্যাকেজ রয়েছে যা আপনাকে অন্যান্য ডাটাবেসের সাথে যোগাযোগ করতে দেয় (উদাহরণস্বরূপ, মোনেট) বা আর এ কম মেমরি সীমাবদ্ধতার সাথে বিশ্লেষণ চালাতে (যেমন, দেখুন pbdR)।


9

অন্য মানদণ্ড বিবেচনা করে, আমি মনে করি যে কিছু ক্ষেত্রে পাইথন ব্যবহার বিগ ডেটার জন্য আর এর চেয়ে অনেক বেশি উন্নত হতে পারে। আমি তথ্য বিজ্ঞানের শিক্ষামূলক উপকরণগুলিতে আর এর বিস্তৃত ব্যবহার এবং এর জন্য উপলভ্য ভাল ডেটা বিশ্লেষণ গ্রন্থাগারগুলি জানি, তবে কখনও কখনও এটি কেবল দলের উপর নির্ভর করে।

আমার অভিজ্ঞতায়, প্রোগ্রামিংয়ের সাথে ইতিমধ্যে পরিচিত লোকদের জন্য পাইথন ব্যবহার করে আর এর মতো ভাষার তুলনায় অনেক বেশি নমনীয়তা এবং উত্পাদনশীলতা বাড়িয়ে তোলে যা প্রোগ্রামিং ভাষার ক্ষেত্রে পাইথনের তুলনায় ততটা নকশাকৃত এবং শক্তিশালী নয়। একটি প্রমাণ হিসাবে, আমার বিশ্ববিদ্যালয়ের একটি ডেটা মাইনিং কোর্সে, পাইথনে সেরা চূড়ান্ত প্রকল্পটি লেখা হয়েছিল, যদিও অন্যদের আর এর সমৃদ্ধ ডেটা বিশ্লেষণ লাইব্রেরিতে অ্যাক্সেস রয়েছে। অর্থাৎ, কখনও কখনও পাইথনের সামগ্রিক উত্পাদনশীলতা (শেখার উপকরণ, ডকুমেন্টেশন ইত্যাদি বিবেচনা করে) পাইথনের জন্য বিশেষ-উদ্দেশ্যে ডেটা বিশ্লেষণ গ্রন্থাগারের অভাবের চেয়েও আর এর চেয়ে ভাল হতে পারে। এছাড়াও, ডেটা সায়েন্সে পাইথনের দ্রুত গতি ব্যাখ্যা করার জন্য কিছু ভাল নিবন্ধ রয়েছে: পাইথন পাইথন ডিসপ্লেয়ারিং আর এবং রিচ বৈজ্ঞানিক ডেটা স্ট্রাকচারগুলি এটি শীঘ্রই আর এর জন্য উপলব্ধ গ্রন্থাগারগুলির শূন্যস্থান পূরণ করতে পারে

আর ব্যবহার না করার আরেকটি গুরুত্বপূর্ণ কারণ হ'ল বাস্তব বিশ্বে বিগ ডেটা সমস্যাগুলির সাথে কাজ করার সময়, কেবলমাত্র একাডেমিক সমস্যার বিপরীতে, অন্যান্য সরঞ্জাম এবং কৌশলগুলির প্রয়োজন যেমন ডেটা পার্সিং, পরিষ্কার, দৃশ্যায়ন, ওয়েব স্ক্র্যাপিং এবং আরও অনেকগুলি যে সাধারণ উদ্দেশ্যে প্রোগ্রামিং ভাষা ব্যবহার করে অনেক সহজ are এ কারণেই অনেক হ্যাডোপ কোর্সে (উদাসির অনলাইন কোর্স সহ ) ব্যবহৃত ডিফল্ট ভাষাটি পাইথন।

সম্পাদনা:

সম্প্রতি ডিআরপিএ বড় ডেটা কাজের জন্য পাইথনের ডেটা প্রসেসিং এবং ভিজ্যুয়ালাইজেশন সক্ষমতা তহবিলের জন্য in 3 মিলিয়ন ডলার বিনিয়োগ করেছে, এটি স্পষ্টত বিগ ডেটাতে পাইথনের ভবিষ্যতের লক্ষণ। ( বিশদ )


3
আর এর সাথে কাজ করা একটি পরিতোষ তথ্য ম্যানিপুলেশন জন্য (হয় reshape2, plyrএবং এখন dplyr) এবং আমি মনে করি না তোমার চেয়ে ভালো কিছু করতে পারি না ggplot2/ ggvisঠাহর জন্য
agave জৈব

@ পিয়ারপিজ যেমন আমার উত্তরের শুরুতে বলেছিল, আমি আর এর জন্য উপলব্ধ ভাল লাইব্রেরিগুলিকে স্বীকার করি তবে সামগ্রিকভাবে যখন বড় ডেটার জন্য প্রয়োজনীয় সমস্ত ক্ষেত্র বিবেচনা করা হয় (যা আমি উত্তরটিতে তাদের কয়েকটি বলেছিলাম), আর নেই পাইথনের জন্য উপলব্ধ পরিপক্ক এবং বিশাল গ্রন্থাগারগুলির সাথে মিল ফেলুন।
আমির আলী আকবরী


5
এই উত্তরটি সম্পূর্ণ উপাখ্যান বলে মনে হয় এবং পাইথনের তুলনায় আর দুর্বল যেখানেই খুব কমই দেখা যায়।
stanekam

ওরে আমার মঙ্গল! "প্রমাণ হিসাবে, আমার বিশ্ববিদ্যালয়ের একটি ডেটা মাইনিং কোর্সে, পাইথনে সেরা চূড়ান্ত প্রকল্পটি লেখা হয়েছিল, যদিও অন্যদের আর এর সমৃদ্ধ ডেটা বিশ্লেষণ গ্রন্থাগারে অ্যাক্সেস রয়েছে।" এবং আপনি পাঠকদের আপনার বিশ্লেষণকে সম্মান করতে চান? কি দারুন. অজগর প্রকল্প হিসাবে এটি যে ভাষাতে লেখা হয়েছিল তা বাদ দিয়ে সবচেয়ে ভাল প্রকল্পে জড়িত অন্য কোনও কারণ থাকতে পারে? সত্যিই ....
শন মেহান

7

অনেক বিশ্লেষণের জন্য আর দুর্দান্ত। যেমনটি উল্লেখ করা হয়েছে, ম্যাপআর, আরএইচডোপ এবং আরস্টুডিওর স্কেলযোগ্য সংস্করণগুলির মতো বড় ডেটার জন্য আরও নতুন রূপান্তর রয়েছে।

তবে আপনার উদ্বেগ যদি গ্রন্থাগার হয় তবে স্পার্কে নজর রাখুন। স্পার্কটি বড় ডেটার জন্য তৈরি করা হয়েছিল এবং একা হ্যাডোপের চেয়ে অনেক বেশি দ্রুত। এতে মেশিন লার্নিং, এসকিউএল, স্ট্রিমিং এবং গ্রাফ লাইব্রেরি রয়েছে growing ভাষা / সরঞ্জামগুলির মধ্যে ঝগড়া না করেই বিশ্লেষণের সমস্ত ফ্রেমওয়ার্কের (একাধিক ভাষার এপিআই সহ, আমি স্ক্যালাকেই প্রাধান্য দিয়ে) কাজটি না করার ফলে অনেক কিছু অনুমোদিত হয়।


4

অন্যান্য উত্তরে যেমন উল্লেখ করা হয়েছে, হ্যাডোপ এবং অন্যান্য বিতরণকৃত কম্পিউটিং প্ল্যাটফর্মগুলির সাথে আর এটি "বিগ ডেটা" স্তর পর্যন্ত স্কেল করতে ব্যবহার করা যেতে পারে। তবে, যদি আপনি আর এর সাথে বিশেষভাবে বিবাহ করেন না, তবে "আর-জাতীয়" পরিবেশ ব্যবহার করতে ইচ্ছুক থাকেন তবে ইনকান্টার এমন একটি প্রকল্প যা আপনার পক্ষে ভাল কাজ করতে পারে, কারণ এটি জেভিএম (ক্লোজারের উপর ভিত্তি করে) এর স্থানীয় এবং এটি না আর আর হ্যাডোপের মধ্যে "প্রতিবন্ধক মিল নেই"। এর অর্থ হ'ল ইনকান্টার থেকে, আপনি জেএনআই ব্রিজ বা যে কোনও কিছুর বাইরে যাওয়ার প্রয়োজন ছাড়াই জাভা নেটিভ হাদুপ / এইচডিএফএস এপিআইগুলিতে আবেদন করতে পারেন।


2

আমি একজন বিশেষজ্ঞের থেকে অনেক দূরে, তবে বিষয় সম্পর্কে আমার বোঝাপড়া আমাকে বলে যে আর (পরিসংখ্যানগুলিতে দুর্দান্ত) এবং উদাহরণস্বরূপ পাইথন (যে বিষয়গুলিতে আর এর অভাব রয়েছে তার মধ্যে বেশ কিছু) একে অপরের পরিপূরককে পুরোপুরি পরিপূরণ করে (পূর্ববর্তী পোস্টগুলিতে দেখানো হয়েছে) ।


0

আমি মনে করি যে স্পষ্টতই আর-তে বড় ডেটা নিয়ে কাজ করার জন্য সরঞ্জামগুলির একটি আধিকারিক রয়েছে সেই ক্ষেত্রের একজন দুর্দান্ত খেলোয়াড়। স্পার্ক্ল্লার অ্যাপাচি স্পার্কের একটি আর ইন্টারফেস এবং এটি স্থানীয় এবং দূরবর্তী ক্লাস্টারগুলির সাথে সংযোগের অনুমতি দেয়, একটি ডাইপ্লায়ার ব্যাক-এন্ড সরবরাহ করে। অ্যাপাচি স্পার্কের মেশিন লার্নিং লাইব্রেরিতেও নির্ভর করা যায়। এছাড়াও rmpi এবং তুষার (ব্যবহারকারী নিয়ন্ত্রিত) বা doMC / foreach (সিস্টেম ভিত্তিক) এর মতো কয়েকটি প্যাকেজ সহ সমান্তরাল প্রক্রিয়াকরণ সম্ভব।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.