ওপেন সোর্স প্রকল্পগুলিতে অবদান সাধারণত নবাবিদের কিছুটা অনুশীলন করার একটি ভাল উপায় এবং অভিজ্ঞ ডেটা বিজ্ঞানী এবং বিশ্লেষকদের জন্য একটি নতুন ক্ষেত্র চেষ্টা করে।
আপনি কোন প্রকল্পে অবদান রাখবেন? দয়া করে গিথুব-এ কিছু পরিচিতি + লিঙ্ক সরবরাহ করুন।
ওপেন সোর্স প্রকল্পগুলিতে অবদান সাধারণত নবাবিদের কিছুটা অনুশীলন করার একটি ভাল উপায় এবং অভিজ্ঞ ডেটা বিজ্ঞানী এবং বিশ্লেষকদের জন্য একটি নতুন ক্ষেত্র চেষ্টা করে।
আপনি কোন প্রকল্পে অবদান রাখবেন? দয়া করে গিথুব-এ কিছু পরিচিতি + লিঙ্ক সরবরাহ করুন।
উত্তর:
জুলিয়া প্রকল্পের এক যা আমি সক্রিয়ভাবে উন্নত কম্পিউটিং ও XGBoost লাইব্রেরি সহ অবদান নেই। সুতরাং, আমি অবশ্যই এটির প্রধানত্ব এবং সম্প্রদায়ের গুণমানের জন্য নিশ্চয়তা দিতে পারি।
কিছু সত্যই ভাল ওপেন সোর্স ডেটা বিজ্ঞান প্রকল্প যেখানে এমনকি নতুনরা অবদান রাখতে পারেন তারা হলেন:
এই জাতীয় প্রকল্পগুলির জন্য এখানে একটি কোওড়া আলোচনা রয়েছে এবং আরও কয়েকটি যা এই উত্তরে উল্লেখ করা হয়নি।
পাইথনের ওপেন সোর্স ডেটা সায়েন্স এবং এমএল প্রকল্পগুলি সম্পর্কে এখানে আরও একটি সুন্দর আলোচনা ।
তাদের প্রচুর পরিমাণে উপলব্ধ। আমি জানি না যে আমাকে এটি করার অনুমতি দেওয়া হয়েছে কিনা (দয়া করে এটি ভুল হলে আমাকে জানান) তবে আমি একটি বিকাশ করেছি এবং এটি ইতিমধ্যে গিট হাবের 2 বছরেরও বেশি সময় পেরিয়েছে (এটি আসলে গিথাবের এক বছর আগে শুরু হয়েছিল)। প্রকল্পটি বলা হয় রাপাইও, এখানে গিট হাবটিতে রয়েছে এবং সম্প্রতি আমি এটির জন্য একটি ম্যানুয়াল লিখতে শুরু করেছি (আমার কিছু বন্ধুবান্ধব আমাকে সে সম্পর্কে জিজ্ঞাসা করেছিল)। ম্যানুয়ালটি এখানে পাওয়া যাবে ।
আপনি জাভা 8-তে বিকাশ করতে ইচ্ছুক হলে এটি আপনার প্রয়োজনের সাথে খাপ খায়, যদি আপনি কোনও সরঞ্জাম নিজেরাই করতে চান এবং যদি আপনি পরীক্ষা করতে চান। আমি প্রয়োগ করি কেবল দুটি নীতিই। প্রথমটি হ'ল কিছু দরকার কেবল তখন যখন আপনার প্রয়োজন হয় । এ কারণেই আমি দৃ strongly়ভাবে বিশ্বাস করি যে কেবল যখন আপনার একটি সরঞ্জাম প্রয়োজন তখন আপনি এটি থেকে আউটপুট, পারফরম্যান্স, তথ্যের দিক থেকে কী চান তাও জানবেন want দ্বিতীয় নীতিটি হ'ল আপনি কেবল জেডকে-র উপর নির্ভরশীল, যদি আপনার কিছু প্রয়োজন হয় তবে আপনি এটি লিখবেন । আমি একমত হতে পারি যে আমি পুরানো ফ্যাশন, তবে আপনি নিজের উদ্দেশ্যে কোনও বৈশিষ্ট্যটি এইভাবে তৈরি করতে পারেন।
যদি আমাকে asver হিসাবে অনুমতি না দেওয়া হয়, আবার, দয়া করে আমাকে জানান। যদিও এটি একটি ওপেন সোর্স উদ্যোগ হিসাবে, কোনও লাভের ধরণের প্রকল্প ছাড়াই লোকেদের কিছু দেওয়ার জন্য আমি দেখতে পাচ্ছি না কেন আমি এটি করতে পারিনি।
এই প্রকল্পটি গিথুবটিতে দেখুন: https://github.com/josephmisiti/awesome-machine-learning । এটিতে কিছু সংক্ষিপ্ত বিবরণ সহ ভাষা অনুসারে ওপেন সোর্স প্রকল্পগুলির একটি বিস্তৃত তালিকা রয়েছে। আমি মনে করি আপনি সেখানে কিছু খুঁজে পেতে পারেন যা আপনার প্রয়োজনগুলি পূরণ করে।
ELKI ( গিটহাবের উপরেও ) হ'ল ডেটা মাইনিং এবং ডেটা সায়েন্স ওপেন সোর্স প্রকল্প। এটির মডুলার আর্কিটেকচারের ক্ষেত্রে এটি অনন্য: আপনি খুব কম সীমাবদ্ধতার সাথে ত্বরণের জন্য অ্যালগরিদম, দূরত্ব ফাংশন এবং সূচিগুলি একত্রিত করতে পারেন (অবশ্যই, অ্যালগরিদমগুলি যে দূরত্বগুলি ব্যবহার করে না দূরত্বের সাথে মিলিত হতে পারে না)। দক্ষতার কারণে এটি সবচেয়ে সহজ কোড নয়। ডেটা মাইনিংয়ের জন্য, আপনাকে মেমোরি সম্পর্কে সতর্কতা অবলম্বন করা উচিত - ArrayList<Integer>
আপনি যদি স্কেলিবিলিটি চান তবে ব্যবহার করা কোনও অচল।
মডুলার আর্কিটেকচারের কারণে, একটি একক দূরত্ব ফাংশন বা অ্যালগরিদমের মতো কেবল ছোট ছোট মডিউলগুলি অবদান করা সহজ।
আমরা ডেটা মাইনিং প্রকল্পের ধারণাগুলির একটি তালিকা রাখি, প্রায় অসুবিধা দ্বারা গ্রুপযুক্ত। বেশিরভাগ প্রকল্প হ'ল একটি অ্যালগরিদমের কিছু বৈকল্পিকের বাস্তবায়ন। ELKI এর লক্ষ্য অ্যালগরিদমের তুলনামূলক অধ্যয়নের অনুমতি দেওয়া, সুতরাং আমরা কোনও সংমিশ্রণকে অনুমতি দেওয়ার চেষ্টা করি এবং অ্যালগরিদমের বিভিন্ন রূপগুলিও কভার করি cover উদাহরণস্বরূপ কে-অর্থ সহ, আমরা কেবল লয়েডস অ্যালগরিদমই পাই না, তবে সাধারণ কে-মানে থিমের 10 ভেরিয়েন্ট। 220 এরও বেশি নিবন্ধ ELKI- তে পুনরায় প্রয়োগ করা হয়েছে (কমপক্ষে আংশিক)।
একই সরঞ্জামে সমস্ত কিছু প্রয়োগ করে আমরা তুলনামূলক অনেক বেশি ফলাফল পেয়েছি। আপনি যদি বেঞ্চমার্কিংয়ের জন্য আর ব্যবহার করেন তবে আপনি সাধারণত আপেল এবং কমলা তুলনা করছেন। আর-এর মধ্যে কে-মানেগুলি আসলে একটি পুরানো ফোর্টরান প্রোগ্রাম এবং খুব দ্রুত। আর-তে k-মানে তবে "ফ্লেক্সক্লাস্ট" প্যাকেজে 100x ধীর, কারণ এটি রিয়েল আর কোডে লিখিত। সুতরাং আর-তে কোনও মানদণ্ডকে বিশ্বাস করবেন না ... এছাড়াও, আর মডিউলগুলি বেমানান বলে মনে হয়, তাই আপনি প্রায়শই মডিউল বি থেকে অ্যালগোরিদম বি দিয়ে মডিউল এ থেকে দূরত্ব এ ব্যবহার করতে পারবেন না ELKI তে আমরা যতটা কোড ভাগ করে নেওয়ার চেষ্টা করি এই জাতীয় নিদর্শনগুলি হ্রাস করার জন্য বাস্তবায়নগুলি জুড়ে সম্ভব (এটি অবশ্যই কখনও কখনও 100% ন্যায্য মানদণ্ড তৈরি করা সম্ভব হবে না - সর্বদা অপ্টিমাইজেশনের জন্য জায়গা থাকে), তবে মডিউলগুলি সহজেই সংমিশ্রিত করার অনুমতি দেয়।
আপনি হার্টিগান ও ওয়াং-কে-এর অর্থের বৈকল্পিকের মতো ছোট কিছু দিয়ে শুরু করতে পারেন এবং তারপরেই গোলাকার কে-মানেতে চালিয়ে যেতে পারেন (যা স্পার্স ডেটার জন্য বোঝানো হয়, যেখানে বিভিন্ন পারফরম্যান্স অপটিমাইজেশন প্রয়োজনীয় হয়ে উঠতে পারে) এবং শ্রেণিবদ্ধ ডেটার জন্য আরও ভাল সমর্থন যোগ করা চালিয়ে যেতে পারেন; বা সূচক কার্যকারিতা যুক্ত করা
আমি ELKI এর জন্য আরও ভাল ইউআই দেখতেও পছন্দ করব তবে এটি একটি বড় প্রচেষ্টা is