ফিচার ইঞ্জিনিয়ারিংয়ের জন্য কি কোনও সরঞ্জাম আছে?


29

বিশেষত আমি যা খুঁজছি তা হ'ল কিছু কার্যকারিতা সহ সরঞ্জাম যা ইঞ্জিনিয়ারিং বৈশিষ্ট্যযুক্ত। আমি সহজেই মসৃণ করতে, কল্পনা করতে, ফাঁকগুলি পূরণ করতে সক্ষম হতে চাই, এমএস এক্সেলের অনুরূপ কিছু, তবে এতে ভিবির পরিবর্তে অন্তর্নিহিত ভাষা হিসাবে আর রয়েছে।

উত্তর:


21

খুব আকর্ষণীয় প্রশ্ন (+1)। যদিও আমি বর্তমানে এমন কোনও সফ্টওয়্যার সরঞ্জাম সম্পর্কে সচেতন নই যা বর্তমানে বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের জন্য বিস্তৃত কার্যকারিতা সরবরাহ করে , সে ক্ষেত্রে অবশ্যই বিস্তৃত বিকল্প রয়েছে। বর্তমানে, যতদূর আমি জানি, ফিচার ইঞ্জিনিয়ারিং এখনও মূলত একটি শ্রমসাধ্য এবং ম্যানুয়াল প্রক্রিয়া (যেমন, এই ব্লগ পোস্টটি দেখুন )। ফিচার ইঞ্জিনিয়ারিং সাবজেক্ট ডোমেন সম্পর্কে কথা বলতে গিয়ে, জেসন ব্রাউনলি এই দুর্দান্ত নিবন্ধটি বিষয়টির পরিবর্তে একটি বিস্তৃত ওভারভিউ সরবরাহ করে provides

চিফ ডেটা সায়েন্টিস্ট এবং ও'রিলি মিডিয়া ইনক। এর ডেটা ফর কন্টেন্ট স্ট্র্যাটেজির ডিরেক্টর বেন লরিকা খুব সুন্দর একটি নিবন্ধ লিখেছেন , যাতে রাষ্ট্রের অফ-আর্ট (জুন ২০১৪ হিসাবে) এর পদ্ধতির, পদ্ধতি, সরঞ্জাম এবং স্টার্টআপগুলি বর্ণনা করে স্বয়ংক্রিয়করণের ক্ষেত্র (বা তিনি যেমনটি বলেছেন, প্রবাহিত ) বৈশিষ্ট্য ইঞ্জিনিয়ারিং।

বেনের উল্লেখ করা কিছু স্টার্টআপগুলিতে আমি একটি সংক্ষিপ্ত দৃষ্টিপাত করেছি এবং স্কাইট্রি র একটি পণ্য সত্যই যথেষ্ট চিত্তাকর্ষক দেখাচ্ছে, বিশেষত এই প্রশ্নের বিষয় সম্পর্কে। এটি বলার পরে, তাদের কিছু দাবি আমার কাছে সত্যই সন্দেহজনক বলে মনে হচ্ছে (যেমন, "স্কাইট্রি ওপেন সোর্স বিকল্পগুলির তুলনায় মেশিন শিখার পদ্ধতিগুলিকে 150x পর্যন্ত গতি দেয়" )। বাণিজ্যিক ডেটা বিজ্ঞান এবং মেশিন লার্নিং অফার সম্পর্কে অবিরত বলতে গেলে , মাইক্রোসফ্টের বিশেষত তাদের অ্যাজুরি মেশিন লার্নিং স্টুডিওগুলির সমাধানগুলি উল্লেখ করতে হবে । ওয়েব-ভিত্তিক এই পণ্যটি বেশ শক্তিশালী এবং মার্জিত এবং কিছু বৈশিষ্ট্যযুক্ত ইঞ্জিনিয়ারিং কার্যকারিতা (এফএইফ) সরবরাহ করে। কিছু সাধারণ এফএফের উদাহরণের জন্য, এই দুর্দান্ত ভিডিওটি দেখুন

প্রশ্নে ফিরে, আমি মনে করি যে বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের জন্য স্বয়ংক্রিয় প্রয়োগের জন্য সবচেয়ে সহজ পদ্ধতির আবেদন করতে হবে তা সম্পর্কিত আইডিই ব্যবহার করা । যেহেতু আপনি (আমিও) একটি ডেটা সায়েন্স ব্যাকএন্ড হিসাবে আর ভাষায় আগ্রহী, তাই আর কে ওয়ার্ড নামে আর একটি অনুরূপ ওপেন সোর্স আইডিই আরস্টুডিও ছাড়াও পরীক্ষা করার পরামর্শ দেব । আর কে ওয়ার্ড বনাম আর স্টুডিওর অন্যতম সুবিধা হ'ল এটি আইডিই-র জন্য প্লাগইন লেখার পক্ষে সমর্থন করে , এইভাবে তথ্য বিজ্ঞানীদের বৈশিষ্ট্য ইঞ্জিনিয়ারিং স্বয়ংক্রিয় করতে এবং তাদের আর-ভিত্তিক ডেটা বিশ্লেষণকে প্রবাহিত করতে সক্ষম করে।

পরিশেষে, বৈশিষ্ট্য ইঞ্জিনিয়ারিং সমাধানগুলির বর্ণালীটির অন্যদিকে আমরা কয়েকটি গবেষণা প্রকল্প খুঁজে পেতে পারি । দুটি উল্লেখযোগ্য মনে হয় স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের কলম্বাস প্রকল্প , যা সম্পর্কিত গবেষণাপত্রে বিশদে বর্ণনা করা হয়েছে , এবং এই গবেষণাপত্রে বর্ণিত ব্রেইনওয়াশ


5

ফিচারটুলগুলি স্বয়ংক্রিয় বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের জন্য সম্প্রতি প্রকাশিত পাইথন লাইব্রেরি। এটি ডিপ ফিচার সিন্থেসিস নামক একটি অ্যালগরিদমের উপর ভিত্তি করে মূলত 2015 এমআইটিতে বিকাশিত এবং কেগল-এ পাবলিক ডেটা সায়েন্স প্রতিযোগিতায় পরীক্ষিত।

এটি কীভাবে সাধারণ তথ্য বিজ্ঞান প্রক্রিয়াটির সাথে ফিট করে।

এখানে চিত্র বর্ণনা লিখুন

গ্রন্থাগারের উদ্দেশ্যটি কেবল বিশেষজ্ঞদের আরও ভাল মেশিন লার্নিং মডেলগুলি দ্রুত তৈরি করতে সহায়তা করা নয়, তবে তথ্য বিজ্ঞান প্রক্রিয়াটি শেখার চেষ্টা করা লোকদেরকে কম ভয় দেখানো করা। আপনার যদি ইভেন্টটি চালিত বা রিলেশনাল ডেটা থাকে তবে আমি আপনাকে সুপারিশ করছি এটি পরীক্ষা করে দেখুন!

দাবি অস্বীকার: আমি প্রকল্পের অন্যতম বিকাশকারী।


2

ফিচার ইঞ্জিনিয়ারিং মেশিন লার্নিংয়ের কেন্দ্রবিন্দুতে এবং বরং শ্রমসাধ্য এবং সময়সাপেক্ষ। মানুষকে লুপ থেকে বের করে নেওয়ার আশায় ফিচার ইঞ্জিনিয়ারিংকে স্বয়ংক্রিয় করার বিভিন্ন প্রচেষ্টা রয়েছে। শ্রেণিবিন্যাস সমস্যার জন্য এটির একটি নির্দিষ্ট প্রয়োগ হ'ল অটো-স্কলারন । রূপান্তর এবং অ্যালগরিদম (এবং অ্যালগরিদম পরামিতি) এর উপযুক্ত সেট চয়ন করতে এটি হুডের অধীনে এসএমএসি নামে একটি অপ্টিমাইজেশন পদ্ধতি ব্যবহার করে ।

নোট করুন যে ত্রিফ্যাক্ট ডেটা ট্রান্সফরমেশনের জন্য সত্যই সহজে ব্যবহারের সরঞ্জাম সরবরাহ করে। এটির একটি অত্যন্ত স্বজ্ঞাত জিইউআই রয়েছে যা রূপান্তর / বৈশিষ্ট্য ইঞ্জিনিয়ারিং মানচিত্র সেট আপ করতে দেয়। এছাড়াও একটি বিনামূল্যে ট্রায়াল সংস্করণ রয়েছে যা যুক্তিসঙ্গত আকারের সমস্যার জন্য ব্যবহার করা যেতে পারে used


2

সাইকিট-লার্ন সম্প্রতি নতুন ট্রান্সফর্মার প্রকাশ করেছে যা ফিচার ইঞ্জিনিয়ারিংয়ের বিভিন্ন দিককে মোকাবেলা করে। উদাহরণ স্বরূপ:

  1. আপনি সংখ্যাসূচক এবং বিভাগীয় উভয় ভেরিয়েবলের গড়, মধ্যমা এবং স্বেচ্ছাসেবী মান মান অন্তর্ভুক্ত করে SimpleImputer( http://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html ) দিয়ে একাধিক নিখোঁজ ডেটা ইম্পুটেশন কৌশল করতে পারেন ।

  2. আপনি বায়েস, এলোমেলো বন এবং অন্যদের (আর এর মাইস, অ্যামেলিয়া এবং মিসফোরেস্টের সমতুল্য) মতো IterativeImputer( https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer ) এর সাহায্যে একাধিক অনুমান ব্যবহার করে মাল্টিভেয়ারেট ইমপুটেশন করতে পারেন .html # sklearn.impute.IterativeImputer )

  3. আপনি OneHotEncoder()সাইকিট-লার্নের সাথে শ্রেণীবদ্ধ এক হট এনকোডিং করতে পারেন

  4. আপনি সংখ্যার সাহায্যে শ্রেণিবদ্ধ ভেরিয়েবলগুলি এনকোড করতে পারেন LabelEncoder

  5. আপনি PowerTransformer( http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html ) এর সাহায্যে ইয়ে-জনসন পরিবর্তনশীল রূপান্তর করতে পারেন

  6. আপনি KBinsDiscretiser( https://scikit-learn.org/stable/auto_example/preprocessing/plot_discretiization.html ) এর মাধ্যমে বিযুক্তি করতে পারেন

সাইকিট-লার্নে সম্ভাব্য অন্যান্য ফিচার ইঞ্জিনিয়ারিং ট্রান্সফর্মার রয়েছে এবং বিকাশকারীরা বেশ নিয়মিতভাবে লাইব্রেরি আপডেট করে।

সুপরিচিত সাইকিট-লার্ন লাইব্রেরির বিকল্প হিসাবে ফিচার-ইঞ্জিন নামে একটি নতুন সম্প্রতি প্রকাশিত ওপেন সোর্স লাইব্রেরি রয়েছে । বৈশিষ্ট্য ইঞ্জিনের সাহায্যে আপনি এটি করতে পারেন:

  1. সংখ্যাসূচক এবং বিভাগীয় ভেরিয়েবলগুলিতে মিডিয়ান, স্বেচ্ছাসেবী, লেজের সমাপ্তি এবং এলোমেলো অনুচ্ছেদ বলতে কী বোঝায়
  2. এক হট, ইন্টিজার, অর্ডিনাল, মানে এনকোডিং এবং প্রমাণের ওজন সহ বিভিন্ন ধরণের শ্রেণিবদ্ধ এনকোডিং করুন।
  3. লগ, পারস্পরিক, এক্সপ এবং বক্স কক্স সহ বিভিন্ন পরিবর্তনশীল রূপান্তর করুন
  4. সমান ফ্রিকোয়েন্সি, সমান দূরত্ব এবং গাছ ভিত্তিক বিভিন্ন ধরণের বিচক্ষণতা
  5. আউটলেট হ্যান্ডলিং

গিথুব রেপো এবং ডক্সে আরও বিশদ ( https://feature-engine.readthedocs.io/en/latest/ )

দাবি অস্বীকার: আমি বৈশিষ্ট্য ইঞ্জিন তৈরি করেছি এবং এটিকে ওপেন সোর্স তৈরি করেছি।

অন্য ওপেন সোর্স পাইথন প্যাকেজটি বিভিন্ন ধরণের শ্রেণিবদ্ধ ভেরিয়েবল এনকোডিংয়ের অনুমতি দেয়: https://contrib.scikit-learn.org/categorical-encoding/

পরিশেষে, বৈশিষ্ট্য সরঞ্জামগুলি লেনদেনের ডেটার জন্য একটি ভাল ওপেন সোর্স লাইব্রেরি।


1

আপনার আজুর মেশিন লার্নিং প্ল্যাটফর্মটি পরীক্ষা করা উচিত । এটি অনলাইন এবং আপনি এটি একটি নিখরচায় অ্যাকাউন্ট দিয়ে ব্যবহার করতে পারেন।

গ্রাফিক ব্যবহারকারী ইন্টারফেসে মডিউল ব্যবহার করে আজুর এমএল আপনাকে একটি ওয়ার্কফ্লো সরবরাহ করে। এর মধ্যে অনেকগুলি ডেটা মংগিংয়ের সাথে সম্পর্কিত এবং আপনি সহজেই আপনার ডেটা পরিষ্কার করতে পারেন। আপনি যদি জিইউআই তে কিছু করতে পারেন না তবে আপনি কেবলমাত্র একটি মডিউল যুক্ত করতে পারেন যা আপনাকে আপনার ডেটা ম্যানিপুলেট করার জন্য কাস্টম আর বা পাইথন স্ক্রিপ্ট চালাতে দেয়।

এর দুর্দান্ত অংশটি হ'ল আপনি যে কোনও সময় সহজেই আপনার ডেটা ভিজ্যুয়ালাইজ করতে পারেন dataframe.describe()এবং আর এর মতো সাধারণ পরিসংখ্যানগুলি পরীক্ষা করতে পারেন that


1

আমাজন মেশিন লার্নিং একটি সরঞ্জাম, যা আমি কিছু সময় বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের জন্য ব্যবহার করি।

যেহেতু অ্যামাজন এডাব্লুএস পরিষেবাদি প্রচুর প্রতিশ্রুতি এবং মান দেখিয়েছে, আমি অবশ্যই বিজ্ঞানীদের কর্মপ্রবাহকে সহজতর করার সম্ভাবনা এবং প্রতিশ্রুতি দিয়ে আমি অবশ্যই অ্যামাজন এমএল-এর উপর নির্ভর করব। তবে এখন পর্যন্ত এটি এখনও ছোট।

তবে, যেমন আপনি বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের জন্য একটি সরঞ্জাম চেয়েছিলেন, সুতরাং এটি তাদের মধ্যে একটি।

কিছু অনবরত জিজ্ঞাসিত প্রশ্ন সম্পর্কে / আমাজন এমএল ব্যবহার করার জন্য।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.