বৈশিষ্ট্য এক্সট্রাকশন প্রযুক্তি - ডেটার সিকোয়েন্সের সংক্ষিপ্তসার


11

আমি প্রায়শই একটি মডেল (শ্রেণিবদ্ধকরণ বা রিগ্রেশন) তৈরি করছি যেখানে আমার কাছে কিছু অনুমানকারী ভেরিয়েবল রয়েছে যা সিকোয়েন্স রয়েছে এবং আমি মডেলটিতে ভবিষ্যদ্বাণীকারী হিসাবে অন্তর্ভুক্তির জন্য সর্বোত্তম উপায়ে সংক্ষিপ্ত করার জন্য কৌশল প্রস্তাবনাগুলি সন্ধান করার চেষ্টা করছি।

একটি দৃ concrete় উদাহরণ হিসাবে, বলুন যে কোনও গ্রাহক আগামী 90 দিনের মধ্যে (টি এবং টি + 90 এর মধ্যে যে কোনও সময়; এইভাবে একটি বাইনারি ফলাফল) কোম্পানীটি ত্যাগ করবেন কিনা তা অনুমান করার জন্য একটি মডেল তৈরি করা হচ্ছে। উপলব্ধ পূর্বাভাসীদের মধ্যে একটি হ'ল টি-টু-টি-টি পিরিয়ডের জন্য গ্রাহকদের আর্থিক ব্যালেন্সের স্তর। সম্ভবত এটি পূর্ববর্তী 12 মাসের জন্য মাসিক পর্যবেক্ষণগুলি উপস্থাপন করে (অর্থাত 12 মাপদণ্ড)।

আমি এই সিরিজ থেকে বৈশিষ্ট্যগুলি নির্মাণের উপায়গুলি খুঁজছি। আমি প্রতিটি গ্রাহক সিরিজের বর্ণনামূলক ব্যবহার করি যেমন গড়, উচ্চ, নিম্ন, স্ট্যান্ড ডেভেলপেন্ড, প্রবণতা পেতে একটি ওএলএস রিগ্রেশন ফিট করে। বৈশিষ্ট্য গণনা করার জন্য তাদের অন্যান্য পদ্ধতিগুলি কী? পরিবর্তন বা অস্থিরতার অন্যান্য ব্যবস্থা?

যোগ করুন

নীচের প্রতিক্রিয়া হিসাবে উল্লিখিত হিসাবে, আমি ডায়নামিক টাইম ওয়ার্পিং (ডিটিডাব্লু) ব্যবহার করে এবং তারপরে ফলাফল দূরত্বের ম্যাট্রিক্সের উপর শ্রেণিবিন্যাসমূলক ক্লাস্টারিং - কিছু সংখ্যক ক্লাস্টার তৈরি করে এবং পরে ক্লাস্টারের সদস্যতাটি বৈশিষ্ট্য হিসাবে ব্যবহার করেও বিবেচনা করেছি (তবে এখানে যুক্ত করতে ভুলে গেছি)। স্কোরিং পরীক্ষার ডেটা সম্ভবত এমন একটি প্রক্রিয়া অনুসরণ করবে যেখানে ডিটিডব্লিউটি নতুন ক্ষেত্রে এবং ক্লাস্টার সেন্ট্রয়েডগুলিতে করা হয়েছিল - যা তাদের নিকটতম সেন্ট্রয়েডগুলির সাথে নতুন ডেটা সিরিজের সাথে মিলছে ...

উত্তর:


7

ফিচার ইঞ্জিনিয়ারিং / এক্সট্রাকশন সম্পর্কিত কেস স্টাডি সংগ্রহ করা একটি লিখিত বাক্স দেখতে পছন্দ করবেন

যদি এটি সাহায্য করে তবে পরামর্শ দিন

  1. টাইম সিরিজ ডেটা বিবেচনার জন্য

  2. জ্ঞান আবিষ্কারের জন্য সময় সিরিজ বিবেচনার অপ্টিমাইজ করা https://www.uni-marburg.de/fb12/datebionik/pdf/pubs/2005/moerchen05 অপ্টিমাইজিং

  3. স্যাক্সের অভিজ্ঞতা: সময় সিরিজের একটি উপন্যাস প্রতীকী প্রতিনিধিত্ব http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. বিগ ডেটা সিরিজ ইন্টারেক্টিভ এক্সপ্লোরেশনের জন্য সূচক: http://acs.ict.ac.cn/stores/slides/Indexing_for_Interactive_Exloration_of_Big_Data_Series.pdf

  5. টাইম-সিরিজ তথ্য মধ্যে কাঠামোগত প্যাটার্ন স্বীকৃতি জন্য সাধারণ বৈশিষ্ট্য নিষ্কাশন http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. আর এ ডায়নামিক টাইম ওয়ার্পিং অ্যালাইনমেন্টগুলি গণনা এবং ভিজ্যুয়ালাইজিং: ডিটিডাব্লু প্যাকেজ https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

আপনি এখানে যা করার চেষ্টা করছেন তা হ'ল আপনার বৈশিষ্ট্যগুলির মাত্রিকতা হ্রাস করা। আপনি কয়েকটি বিকল্প পেতে মাত্রিকতা হ্রাস অনুসন্ধান করতে পারেন, তবে একটি খুব জনপ্রিয় কৌশল হ'ল প্রধান উপাদান বিশ্লেষণ (পিসিএ)। অধ্যক্ষ উপাদানগুলি আপনার উল্লেখ করা বিকল্পগুলির মতো ব্যাখ্যাযোগ্য নয় তবে তারা সমস্ত তথ্যের সংক্ষিপ্ত বিবরণে ভাল কাজ করে।


এই উত্তরের সাথে আমার উদ্বেগটি হ'ল পিসিএ টি এবং টি + 1 সিরিজটির মধ্যে স্পষ্ট নির্ভরতা স্বীকৃতি দেয় না।
বি_মিনার

যদি টি এবং টি + 1 নির্ভরতা কোনও প্রবণতা বা seasonতুসত্তা হয় - এটিকে বের করে নেওয়া এবং বাকীগুলি স্বাধীন ভেরিয়েবলের সাথে আচরণ করার বিষয়ে বিবেচনা করুন।
দিয়েগো

2

বৈশিষ্ট্য নিষ্কাশন সর্বদা একটি চ্যালেঞ্জ এবং সাহিত্যে কম সম্বোধিত বিষয়, কারণ এটি ব্যাপকভাবে প্রয়োগ নির্ভর করে।

কিছু ধারণা আপনি চেষ্টা করতে পারেন:

  • কাঁচা ডেটা, দিন দিন পরিমাপ করা। বিভিন্ন দৈর্ঘ্যের টাইমলাইনকে তুলনীয় করে তুলতে কিছু প্রচ্ছন্নতা এবং অতিরিক্ত প্রিপ্রোসেসিং (স্বাভাবিককরণ) দিয়ে এ জাতীয় স্পষ্ট।
  • উচ্চতর মুহূর্তগুলি: স্কিউনেস, কুর্তোসিস ইত্যাদি
  • ডেরিভেটিভ (গুলি): বিবর্তনের গতি
  • সময়কাল এতো বড় নয় তবে কিছু সময় সিরিজের বিশ্লেষণ বৈশিষ্ট্য যেমন স্বতঃসংশোধনের চেষ্টা করা উপযুক্ত।
  • কিছু কাস্টমাইজড বৈশিষ্ট্য যেমন সপ্তাহে টাইমলাইন ভাঙার এবং প্রতিটি সপ্তাহে আপনি ইতিমধ্যে পরিমাপের পরিমাণ আলাদাভাবে পরিমাপ করেন। তারপরে কোনও অ-রৈখিক শ্রেণিবদ্ধক সময়ের সাথে বিবর্তনের অন্তর্দৃষ্টি পেতে গত সপ্তাহের বৈশিষ্ট্যগুলির সাথে যেমন প্রথম সপ্তাহের বৈশিষ্ট্যগুলি একত্রিত করতে সক্ষম হবে।

সুন্দর পরামর্শ! আপনি কি আরও ডেরিভেটিভ ব্যবহার ব্যবহার করতে পারেন?
বি_মিনার

আমি আপনার প্রথম বিবৃতি সঙ্গে সম্পূর্ণ একমত। আমি একটি বাক্স লিখিত দেখতে পছন্দ করব যা বৈশিষ্ট্য প্রকৌশল / নিষ্কাশন সম্পর্কিত কেস স্টাডি সংগ্রহ করেছে। প্রবন্ধটি হ'ল ভবিষ্যদ্বাণীমূলক মডেল পারফরম্যান্সে সর্বশেষতম অ্যালগরিদমের চেয়ে বৈশিষ্ট্যটি তৈরি করা অনেক বেশি গুরুত্বপূর্ণ।
বি_মিনার

2

প্রথম নজরে, আপনাকে আপনার সময় সিরিজ (x - 12) - এক্স থেকে বৈশিষ্ট্যগুলি বের করতে হবে। একটি সম্ভাব্য পদ্ধতির সংক্ষিপ্তসারগুলি গণনা করা: গড়, ছড়িয়ে পড়া ইত্যাদি But তবে এটি করার মাধ্যমে আপনি সমস্ত সময়-সিরিজ সম্পর্কিত তথ্য শিথিল করবেন। তবে ডাটা, কার্ভ শেপ থেকে এক্সট্রাক্ট করা বেশ কার্যকর হতে পারে। আমি আপনাকে এই নিবন্ধটি সন্ধান করার পরামর্শ দিচ্ছি , যেখানে লেখকরা টাইম সিরিজ ক্লাস্টারিংয়ের জন্য অ্যালগরিদমের প্রস্তাব দেয়। আশা করি, এটি কার্যকর হবে। এই জাতীয় ক্লাস্টারিংয়ের সাথে আপনি নিজের বৈশিষ্ট্য তালিকায় সংক্ষিপ্ত পরিসংখ্যান যুক্ত করতে পারেন।


লিঙ্কের জন্য ধন্যবাদ। আমি ডিটিডাব্লু এবং হায়ারিকিকাল ক্লাস্টারিং ব্যবহার করার বিষয়টিও বিবেচনা করেছি। আমি ডিডাব্লুটি-র জন্য আর প্যাকেজ নিয়ে পরীক্ষা-নিরীক্ষা করেছি। jstatsoft.org/v31/i07/paper
বি_মিনার

1
আমি বিশেষত এন ক্লাস্টার তৈরি করা এবং ক্লাস্টারিং সদস্যতার বৈশিষ্ট্য হিসাবে ব্যবহার করার বিষয়টি বিবেচনা করেছি।
বি_মিনার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.