অ-পারমাণবিক বৈশিষ্ট্যগুলির সাথে ভবিষ্যদ্বাণী

ভবিষ্যদ্বাণীটির বৈশিষ্ট্য হিসাবে আমি অ-পারমাণবিক ডেটা ব্যবহার করতে চাই। মনে করুন এই বৈশিষ্ট্যগুলির সাথে আমার একটি ছক রয়েছে:

- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]

আমি উদাহরণস্বরূপ, কলাম 2 পূর্বাভাস / শ্রেণিবদ্ধ করতে চাই।

আমি "ফু কোথায় জন্মগ্রহণ করেছি?" এর মতো কোনও ধরণের প্রশ্ন, স্বয়ংক্রিয়ভাবে প্রশ্নের জবাব দেওয়ার জন্য কিছু তৈরি করছি? ...

আমি প্রথমে একটি অনুসন্ধান ইঞ্জিনে একটি ক্যোরি করি, তারপরে আমি কিছু পাঠ্য ডেটা পেয়েছি, তারপরে আমি সমস্ত পার্সিং স্টাফ করি (ট্যাগিং, স্টেমিং, পার্সিং, বিভাজন ...)

"প্রথম শব্দ", "প্রথম শব্দের ট্যাগ", "খণ্ডগুলি", ইত্যাদির মতো প্রতিটি সারণীতে পাঠ্যটির একটি লাইন এবং অনেকগুলি বৈশিষ্ট্য সহ একটি সারণী তৈরি করা আমার প্রথম পদ্ধতির ছিল ...

তবে এই পদ্ধতির সাথে আমি বাক্যগুলির মধ্যে সম্পর্কগুলি মিস করছি।

আমি জানতে চাই যে কোনও অ্যালগরিদম আছে যা গাছের কাঠামোর (বা ভেক্টরগুলি) অভ্যন্তরে দেখায় এবং সম্পর্ক তৈরি করে এবং পূর্বাভাস / শ্রেণিবদ্ধকরণের জন্য যা প্রাসঙ্গিক তা নিষ্কাশন করে। আমি এমন একটি লাইব্রেরি সম্পর্কে জানতে পছন্দ করব যা এটি প্রয়োগ করতে হবে এমন একটি অ্যালগরিদমের চেয়ে বেশি করে।

machine-learning

— user3798928
সূত্র

দয়া করে পরিষ্কার করুন: আপনি বলছেন যে আপনি কলাম 2 একটি বৈশিষ্ট্য হিসাবে ব্যবহার করতে চান, কিন্তু তারপরে আপনি বলেছিলেন যে আপনি কলাম 2 এর পূর্বাভাস / শ্রেণিবদ্ধ করতে চান want এছাড়াও, আপনি এই বৈশিষ্ট্যটিকে 'অ-পারমাণবিক' বলেছেন ... আপনার অর্থ কি এটি শ্রেণীবদ্ধ নয়?

— লগ্যাক

যখন এটি বিভিন্ন স্বতন্ত্র ধরণের ডেটা নিয়ে কাজ করে, বিশেষত যখন তাদের মধ্যে সম্পর্কগুলি অস্পষ্ট থাকে, তখন আমি দৃ trees ়তার সাথে সিদ্ধান্তের গাছের উপর ভিত্তি করে একটি কৌশলটি সুপারিশ করব, আমার জ্ঞানের সেরাতমটি আজ সবচেয়ে জনপ্রিয় এলোমেলো বন এবং অত্যন্ত র্যান্ডমাইজড গাছ ।

উভয়ের স্কলারনে বাস্তবায়ন রয়েছে এবং এগুলি ব্যবহারের জন্য বেশ সোজা। খুব উচ্চ স্তরে, কারণ decision treeভিত্তিক পদ্ধতির একাধিক পৃথক ধরণের ডেটার জন্য সুবিধাজনক কারণ সিদ্ধান্ত গাছগুলি তারা যে নির্দিষ্ট ডেটা নিয়ে কাজ করে তা থেকে অনেকাংশে স্বতন্ত্র, যতক্ষণ তারা আপনার প্রতিনিধিত্ব বুঝতে সক্ষম হয়।

আপনাকে এখনও আপনার ডেটাটি কোনও ধরণের বৈশিষ্ট্যযুক্ত ভেক্টরের সাথে ফিট করতে হবে, তবে এটি আপনার উদাহরণের উপর ভিত্তি করে যা বেশ সহজ সরল কাজ বলে মনে হয় এবং আপনি যদি নিজের প্রয়োগের বিষয়ে আরও গভীরভাবে যেতে ইচ্ছুক হন তবে অবশ্যই আপনি সামনে আসতে পারেন অন্তর্নিহিত অ্যালগরিদমে আসলে কোনও পরিবর্তন না করেই একটি কাস্টম ট্রি-বিভাজন নিয়ম। মূল কাগজ শুরু করার জন্য আপনি একটি শট দিতে চান একটি প্রশংসনীয় শালীন জায়গা।

আপনি যদি আপনার পাঠ্য ডেটা থেকে সিউডো-স্ট্রাকচারাল ডেটা চান তবে আমি doc2vecসম্প্রতি গুগল দ্বারা বিকাশ করার পরামর্শ দেওয়ার পরামর্শ দিতে পারি । আমি মনে করি না যে এখন কোনও ভাল ওপেন-সোর্স বাস্তবায়ন রয়েছে, তবে এটি word2vecঅ্যালগরিদমের উপর একটি সুস্পষ্ট সোজা উন্নতি , যার কমপক্ষে Cএবং বাস্তবায়ন রয়েছে python।

আশা করি এইটি কাজ করবে! আপনার যদি আরও কোনও প্রশ্ন আসে তবে আমাকে জানান।

— indico
সূত্র