অবদান রাখতে ওপেন সোর্স ডেটা বিজ্ঞান প্রকল্পগুলি


15

ওপেন সোর্স প্রকল্পগুলিতে অবদান সাধারণত নবাবিদের কিছুটা অনুশীলন করার একটি ভাল উপায় এবং অভিজ্ঞ ডেটা বিজ্ঞানী এবং বিশ্লেষকদের জন্য একটি নতুন ক্ষেত্র চেষ্টা করে।

আপনি কোন প্রকল্পে অবদান রাখবেন? দয়া করে গিথুব-এ কিছু পরিচিতি + লিঙ্ক সরবরাহ করুন।


2
ELKI দেখুন (গিথুব, জাভা; এছাড়াও উইকিপিডিয়া দেখুন)। আমি এটি প্রচুর ব্যবহার করি কারণ এটি ক্লাস্টারিং এবং অসাধারণ সনাক্তকরণের জন্য সবচেয়ে সম্পূর্ণ প্রকল্প; এবং সাধারণত আর এর চেয়েও দ্রুততর পথে।
কিট আছে - অ্যানি-মৌসে

উত্তর:


15

জুলিয়া প্রকল্পের এক যা আমি সক্রিয়ভাবে উন্নত কম্পিউটিং ও XGBoost লাইব্রেরি সহ অবদান নেই। সুতরাং, আমি অবশ্যই এটির প্রধানত্ব এবং সম্প্রদায়ের গুণমানের জন্য নিশ্চয়তা দিতে পারি।

কিছু সত্যই ভাল ওপেন সোর্স ডেটা বিজ্ঞান প্রকল্প যেখানে এমনকি নতুনরা অবদান রাখতে পারেন তারা হলেন:

  • স্ক্লার্ন : সর্বদা দ্রুত গতিতে বিকাশমান, স্ক্লার্ন সম্প্রদায় সর্বদা নতুন বিকাশকারী এবং অবদানকারীদের জন্য উন্মুক্ত।
  • এইচ 2 ও : এইচ 2 ও হ'ল আরেকটি দ্রুত বর্ধমান তথ্য বিজ্ঞান প্রকল্প যা স্কেলযোগ্য মেশিন লার্নিং এবং ডিপ লার্নিং সমাধানগুলিতে কাজ করে।
  • যান : ওপেন সোর্স ডেটা বিজ্ঞানের রাস্তার মানচিত্র এবং সংস্থানসমূহ। প্রকৃতপক্ষে কোনও প্রযুক্তিগত প্রকল্প নয়, তবে এটি নিখুঁত নতুন এবং আশাবাদী বিশ্লেষকদের পক্ষে খুব সহায়ক।
  • পাইলার্ন 2 : আরেকটি দ্রুত বর্ধমান মেশিন লার্নিং এবং ডিপ লার্নিং প্রকল্প।
  • ভোপাল ওয়াবিট : ভোপাল ওয়াবিট (ভিডাব্লু) প্রকল্পটি মাইক্রোসফ্ট রিসার্চ এবং (পূর্বে) ইয়াহু দ্বারা স্পনসর করা একটি দ্রুত বহির্ভূত-শিখার ব্যবস্থা is গবেষণা।

এই জাতীয় প্রকল্পগুলির জন্য এখানে একটি কোওড়া আলোচনা রয়েছে এবং আরও কয়েকটি যা এই উত্তরে উল্লেখ করা হয়নি।

পাইথনের ওপেন সোর্স ডেটা সায়েন্স এবং এমএল প্রকল্পগুলি সম্পর্কে এখানে আরও একটি সুন্দর আলোচনা


2
আমি নিশ্চিত করি - স্কলার্ন প্রতিশ্রুতিবদ্ধ করা খুব সহজ, কেবল একটি টানার অনুরোধ খুলুন এবং এটিই।
আলেক্সি গ্রিগোরভ

পাইলার্ন 2 আর সক্রিয় নয়। কেরাস, লাসাগন এবং ব্লকগুলি অবদানের জন্য আরও ভাল বিকল্প।
শশাঙ্ক গুপ্তা

6

তাদের প্রচুর পরিমাণে উপলব্ধ। আমি জানি না যে আমাকে এটি করার অনুমতি দেওয়া হয়েছে কিনা (দয়া করে এটি ভুল হলে আমাকে জানান) তবে আমি একটি বিকাশ করেছি এবং এটি ইতিমধ্যে গিট হাবের 2 বছরেরও বেশি সময় পেরিয়েছে (এটি আসলে গিথাবের এক বছর আগে শুরু হয়েছিল)। প্রকল্পটি বলা হয় রাপাইও, এখানে গিট হাবটিতে রয়েছে এবং সম্প্রতি আমি এটির জন্য একটি ম্যানুয়াল লিখতে শুরু করেছি (আমার কিছু বন্ধুবান্ধব আমাকে সে সম্পর্কে জিজ্ঞাসা করেছিল)। ম্যানুয়ালটি এখানে পাওয়া যাবে

আপনি জাভা 8-তে বিকাশ করতে ইচ্ছুক হলে এটি আপনার প্রয়োজনের সাথে খাপ খায়, যদি আপনি কোনও সরঞ্জাম নিজেরাই করতে চান এবং যদি আপনি পরীক্ষা করতে চান। আমি প্রয়োগ করি কেবল দুটি নীতিই। প্রথমটি হ'ল কিছু দরকার কেবল তখন যখন আপনার প্রয়োজন হয় । এ কারণেই আমি দৃ strongly়ভাবে বিশ্বাস করি যে কেবল যখন আপনার একটি সরঞ্জাম প্রয়োজন তখন আপনি এটি থেকে আউটপুট, পারফরম্যান্স, তথ্যের দিক থেকে কী চান তাও জানবেন want দ্বিতীয় নীতিটি হ'ল আপনি কেবল জেডকে-র উপর নির্ভরশীল, যদি আপনার কিছু প্রয়োজন হয় তবে আপনি এটি লিখবেন । আমি একমত হতে পারি যে আমি পুরানো ফ্যাশন, তবে আপনি নিজের উদ্দেশ্যে কোনও বৈশিষ্ট্যটি এইভাবে তৈরি করতে পারেন।

যদি আমাকে asver হিসাবে অনুমতি না দেওয়া হয়, আবার, দয়া করে আমাকে জানান। যদিও এটি একটি ওপেন সোর্স উদ্যোগ হিসাবে, কোনও লাভের ধরণের প্রকল্প ছাড়াই লোকেদের কিছু দেওয়ার জন্য আমি দেখতে পাচ্ছি না কেন আমি এটি করতে পারিনি।


2
+1 আমি মনে করি কারও অবদানের জন্য এটি একটি দুর্দান্ত প্রকল্প। ভাগ করার জন্য আপনাকে ধন্যবাদ। কমপক্ষে, আমি এটি অপ্রাসঙ্গিক বলে মনে করি না :)
ডওয়ানি 33

1
আপনি কি আরও অনেক একই প্রকল্পের সাথে আপনার প্রয়াসে যোগদানের কথা বিবেচনা করেছেন? বলুন, ELKI, Weka, JSAT, হাসি, Hubminer, ... আপনি কি বেঞ্চমার্ক করেছেন? তাত্ক্ষণিক নজর থেকে, আমি কয়েকটি কনস্ট্রাকশন দেখেছি যা আমার কাছে খুব ব্যয়বহুল দেখাচ্ছে (যদিও সম্ভবত আর এর চেয়ে খারাপ নয়)।
কিট আছে - অ্যানি-মউসে

আমার লক্ষ্যটি ছিল একটি দুর্দান্ত প্রোগ্রামার বান্ধব সরঞ্জামের সেট করা, পারফরম্যান্স কোনও লক্ষ্য ছিল না। তবে আমি তা পুনরায় মূল্যায়ন করতে শুরু করেছি। অন্যান্য প্রকল্পগুলি সম্পর্কে: আইনী বিষয়ের কারণে, আমি বিতরণ করা সামগ্রীতে প্রতিশ্রুতি দিতে পারি না এবং আমি কেবলমাত্র কিছু ধরণের ওপেন সোর্স লাইসেন্স সহ প্রকল্পগুলিতে অবদান রাখতে পারি। যাইহোক, একবার দেখার জন্য আপনাকে ধন্যবাদ, আপনি উল্লিখিত কন্সট্রাক্টস সম্পর্কে আপনি আমাকে আরও বিশদ দিতে পারলে আমি খুব খুশি হব। আমি আশা করি আপনার সময় সীমিত, এবং আমার সম্পূর্ণ আলোচনা করার সাহস নেই
রপাইও

1
ELKI হলেন AGPL-3। এটি বিতরণ করা হয়নি, তবে উচ্চ "স্থানীয়" পারফরম্যান্সের জন্য কিছু নিম্ন-স্তরের অপ্টিমাইজেশন রয়েছে (এখনও জাভা 8 নেই)। জাস্যাট, স্মাইল, হাবমিনার - এগুলি সমস্তই ওপেন-সোর্স, সম্ভবত বেশিরভাগ এপাচি, বিতরণ করা হয় না, এবং আমি ভুল না হলে অপ্টিমাইজডও না (আমি বেশিরভাগ ELKI ব্যবহার করি)।
কিউইট আছে - অ্যানি-মৌসেস

4

এই প্রকল্পটি গিথুবটিতে দেখুন: https://github.com/josephmisiti/awesome-machine-learning । এটিতে কিছু সংক্ষিপ্ত বিবরণ সহ ভাষা অনুসারে ওপেন সোর্স প্রকল্পগুলির একটি বিস্তৃত তালিকা রয়েছে। আমি মনে করি আপনি সেখানে কিছু খুঁজে পেতে পারেন যা আপনার প্রয়োজনগুলি পূরণ করে।


4

ELKI ( গিটহাবের উপরেও ) হ'ল ডেটা মাইনিং এবং ডেটা সায়েন্স ওপেন সোর্স প্রকল্প। এটির মডুলার আর্কিটেকচারের ক্ষেত্রে এটি অনন্য: আপনি খুব কম সীমাবদ্ধতার সাথে ত্বরণের জন্য অ্যালগরিদম, দূরত্ব ফাংশন এবং সূচিগুলি একত্রিত করতে পারেন (অবশ্যই, অ্যালগরিদমগুলি যে দূরত্বগুলি ব্যবহার করে না দূরত্বের সাথে মিলিত হতে পারে না)। দক্ষতার কারণে এটি সবচেয়ে সহজ কোড নয়। ডেটা মাইনিংয়ের জন্য, আপনাকে মেমোরি সম্পর্কে সতর্কতা অবলম্বন করা উচিত - ArrayList<Integer>আপনি যদি স্কেলিবিলিটি চান তবে ব্যবহার করা কোনও অচল।

মডুলার আর্কিটেকচারের কারণে, একটি একক দূরত্ব ফাংশন বা অ্যালগরিদমের মতো কেবল ছোট ছোট মডিউলগুলি অবদান করা সহজ।

আমরা ডেটা মাইনিং প্রকল্পের ধারণাগুলির একটি তালিকা রাখি, প্রায় অসুবিধা দ্বারা গ্রুপযুক্ত। বেশিরভাগ প্রকল্প হ'ল একটি অ্যালগরিদমের কিছু বৈকল্পিকের বাস্তবায়ন। ELKI এর লক্ষ্য অ্যালগরিদমের তুলনামূলক অধ্যয়নের অনুমতি দেওয়া, সুতরাং আমরা কোনও সংমিশ্রণকে অনুমতি দেওয়ার চেষ্টা করি এবং অ্যালগরিদমের বিভিন্ন রূপগুলিও কভার করি cover উদাহরণস্বরূপ কে-অর্থ সহ, আমরা কেবল লয়েডস অ্যালগরিদমই পাই না, তবে সাধারণ কে-মানে থিমের 10 ভেরিয়েন্ট। 220 এরও বেশি নিবন্ধ ELKI- তে পুনরায় প্রয়োগ করা হয়েছে (কমপক্ষে আংশিক)।

একই সরঞ্জামে সমস্ত কিছু প্রয়োগ করে আমরা তুলনামূলক অনেক বেশি ফলাফল পেয়েছি। আপনি যদি বেঞ্চমার্কিংয়ের জন্য আর ব্যবহার করেন তবে আপনি সাধারণত আপেল এবং কমলা তুলনা করছেন। আর-এর মধ্যে কে-মানেগুলি আসলে একটি পুরানো ফোর্টরান প্রোগ্রাম এবং খুব দ্রুত। আর-তে k-মানে তবে "ফ্লেক্সক্লাস্ট" প্যাকেজে 100x ধীর, কারণ এটি রিয়েল আর কোডে লিখিত। সুতরাং আর-তে কোনও মানদণ্ডকে বিশ্বাস করবেন না ... এছাড়াও, আর মডিউলগুলি বেমানান বলে মনে হয়, তাই আপনি প্রায়শই মডিউল বি থেকে অ্যালগোরিদম বি দিয়ে মডিউল এ থেকে দূরত্ব এ ব্যবহার করতে পারবেন না ELKI তে আমরা যতটা কোড ভাগ করে নেওয়ার চেষ্টা করি এই জাতীয় নিদর্শনগুলি হ্রাস করার জন্য বাস্তবায়নগুলি জুড়ে সম্ভব (এটি অবশ্যই কখনও কখনও 100% ন্যায্য মানদণ্ড তৈরি করা সম্ভব হবে না - সর্বদা অপ্টিমাইজেশনের জন্য জায়গা থাকে), তবে মডিউলগুলি সহজেই সংমিশ্রিত করার অনুমতি দেয়।

আপনি হার্টিগান ও ওয়াং-কে-এর অর্থের বৈকল্পিকের মতো ছোট কিছু দিয়ে শুরু করতে পারেন এবং তারপরেই গোলাকার কে-মানেতে চালিয়ে যেতে পারেন (যা স্পার্স ডেটার জন্য বোঝানো হয়, যেখানে বিভিন্ন পারফরম্যান্স অপটিমাইজেশন প্রয়োজনীয় হয়ে উঠতে পারে) এবং শ্রেণিবদ্ধ ডেটার জন্য আরও ভাল সমর্থন যোগ করা চালিয়ে যেতে পারেন; বা সূচক কার্যকারিতা যুক্ত করা

আমি ELKI এর জন্য আরও ভাল ইউআই দেখতেও পছন্দ করব তবে এটি একটি বড় প্রচেষ্টা is


4

যদি কেউ ক্রস প্ল্যাটফর্ম ভিজ্যুয়াল প্রোগ্রামিং সরঞ্জাম পছন্দ করে তবে কমলা একটি বিকল্প। সম্প্রতি পাইথন 3 এ চলে যাওয়ার পরে তারা এখনও সমস্ত উইজেট পোর্ট করে নি। এটি পাইডাটা স্ট্যাক (NumPy, SciPy, SciKit শিখুন, ...) পাইথন 3, পাইকিউটি, পাইকিটগ্রাফ এ নিয়েছে এবং এটি GPLHd GPL'd ।

কমলা স্ক্রিনশো

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.