প্রশ্ন ট্যাগ «text-mining»

নিদর্শনগুলি চিহ্নিত করে পাঠ্য আকারে ডেটা থেকে তথ্য আহরণের সাথে সম্পর্কিত ডেটা মাইনিংয়ের একটি উপসেটকে বোঝায়। পাঠ্য খনির লক্ষ্য হ'ল প্রদত্ত নথিটি একটি স্বয়ংক্রিয় উপায়ে কয়েকটি বিভাগের মধ্যে একটিতে শ্রেণিবদ্ধ করা এবং এই কর্মক্ষমতাটিকে গতিশীলভাবে উন্নত করা, এটি মেশিন লার্নিংয়ের উদাহরণ হিসাবে তৈরি করে। এই ধরণের পাঠ্য খনির একটি উদাহরণ ইমেলের জন্য ব্যবহৃত স্প্যাম ফিল্টার।

2
লেটেন্ট ডিরিচলেট বরাদ্দ দিয়ে কীভাবে একটি হোল্ডআউটের বিভ্রান্তি গণনা করবেন?
ল্যান্টেন্ট ডিরিচলেট অ্যালোকেশন (এলডিএ) করার সময় কীভাবে হোল্ডআউট নমুনার বিভ্রান্তি গণনা করা যায় সে সম্পর্কে আমি বিভ্রান্ত। বিষয়বস্তু সংক্রান্ত কাগজপত্রগুলি এটির উপর দিয়ে বাতাস বইছে, আমার মনে হচ্ছে যে আমি কোনও স্পষ্ট কিছু মিস করছি ... উদ্বেগকে এলডিএর জন্য পারফরম্যান্সের একটি ভাল পরিমাপ হিসাবে দেখা হয়। ধারণাটি হ'ল আপনি একটি …

5
বড় আকারের পাঠ্যের শ্রেণিবদ্ধকরণ
আমি আমার পাঠ্য ডেটাতে শ্রেণিবদ্ধকরণ করতে চাই। আমার কাছে 300 classesপ্রতি ক্লাসে 200 টি প্রশিক্ষণ দলিল রয়েছে (তাই 60000 documents in total) এবং এর ফলে খুব উচ্চ মাত্রিক ডেটা হতে পারে (আমরা সম্ভবত 1 মিলিয়ন মাত্রার চেয়ে বেশি খুঁজছি )। আমি পাইপলাইনে নিম্নলিখিত পদক্ষেপগুলি সম্পাদন করতে চাই (কেবলমাত্র আমার প্রয়োজনীয়তাগুলি …

2
পাঠ্য শ্রেণিবিন্যাসের জন্য কেন রিজ রিগ্রেশন শ্রেণিবদ্ধকারী বেশ ভাল কাজ করে?
পাঠ্য শ্রেণীবদ্ধকরণের জন্য একটি পরীক্ষার সময়, আমি রিজ শ্রেণিবদ্ধকারী ফলাফলগুলি পেয়েছি যা এই শ্রেণিবদ্ধদের মধ্যে নিয়মিত পরীক্ষাগুলি শীর্ষ করে থাকে যা সাধারণত দেখা হয় এবং এসভিএম, এনবি, কেএনএন ইত্যাদির মতো পাঠ্য খনির কাজগুলির জন্য প্রয়োগ করা হয় যদিও আমি বিশদ বিবরণ দিইনি প্যারামিটারগুলি সম্পর্কে কিছু সাধারণ টুইট বাদে এই নির্দিষ্ট …

1
আমি সংবাদ সংবাদের ভিত্তিতে ক্রাইম সূচক এবং রাজনৈতিক অস্থিরতা সূচক তৈরি করতে চাই
আমার এই পাশের প্রকল্প রয়েছে যেখানে আমি আমার দেশের স্থানীয় সংবাদ ওয়েবসাইটগুলি ক্রল করি এবং একটি অপরাধ সূচক এবং রাজনৈতিক অস্থিরতা সূচক তৈরি করতে চাই। আমি ইতিমধ্যে প্রকল্পের তথ্য পুনরুদ্ধার অংশ কভার করেছি। আমার পরিকল্পনাটি হ'ল: নিরীক্ষণযোগ্য বিষয় নিষ্কাশন। সদৃশ সনাক্তকরণের কাছাকাছি। তত্ত্বাবধানে শ্রেণিবদ্ধকরণ এবং ঘটনার স্তর (অপরাধ / রাজনৈতিক …

1
সুপ্ত ডিরিচলেট বরাদ্দ ব্যবহারের জন্য ইনপুট পরামিতি
টপিক মডেলিং (ল্যাটেন্ট ডিরিচলেট অ্যালোকেশন) ব্যবহার করার সময়, বিষয়গুলির সংখ্যাটি একটি ইনপুট প্যারামিটার যা ব্যবহারকারীর নির্দিষ্ট করতে হবে। আমার কাছে মনে হচ্ছে যে আমাদের প্রার্থী বিষয়ের একটি সংকলনও সরবরাহ করা উচিত যে ডিরিচলেট প্রক্রিয়াটির বিরুদ্ধে নমুনা দেওয়া উচিত? আমার বোধগম্যতা কি সঠিক? অনুশীলনে, এই ধরনের প্রার্থী বিষয় সেট কীভাবে সেটআপ …

1
সুপ্ত ডিরিচলেট বরাদ্দ ব্যবহার করে টপিকের পূর্বাভাস
আমি দলিলগুলির কর্পাসে এলডিএ ব্যবহার করেছি এবং কিছু বিষয় খুঁজে পেয়েছি। আমার কোডের আউটপুট সম্ভাব্যতা সহ দুটি ম্যাট্রিক রয়েছে; একটি ডক-বিষয় সম্ভাবনা এবং অন্য শব্দ-বিষয় সম্ভাবনা। তবে আমি কীভাবে এই ফলাফলগুলি নতুন ডকুমেন্টের বিষয় ভবিষ্যদ্বাণী করতে ব্যবহার করতে পারি তা আসলে জানি না। আমি গিবস স্যাম্পলিং ব্যবহার করছি। কেউ জানেন …

2
আমরা কখন ক্লাস্টারিংয়ের সাথে মাত্রিকতা হ্রাস একত্রিত করব?
আমি নথি-স্তরের ক্লাস্টারিংয়ের চেষ্টা করছি। আমি টার্ম-ডকুমেন্ট ফ্রিকোয়েন্সি ম্যাট্রিক্সটি তৈরি করেছি এবং আমি কে-মাধ্যম ব্যবহার করে এই উচ্চ মাত্রিক ভেক্টরগুলিকে ক্লাস্টার করার চেষ্টা করছি। সরাসরি ক্লাস্টারিংয়ের পরিবর্তে, আমি যা করেছি তা হ'ল প্রথমে ইউ, এস, ভিটি ম্যাট্রিকেসগুলি অর্জনের জন্য এলএসএ'র (প্রচ্ছন্ন সিমেটিক বিশ্লেষণ) একক ভেক্টর পচন প্রয়োগ করতে হবে এবং …

2
সংক্ষিপ্ত পাঠ্য ক্লাস্টারিংয়ের জন্য একটি ভাল পদ্ধতি কী?
আমি একটি পাঠ্য ক্লাস্টারিং সমস্যা নিয়ে কাজ করছি। তথ্যটিতে কয়েকটি বাক্য রয়েছে। একটি ভাল অ্যালগরিদম যা সংক্ষিপ্ত পাঠ্যে উচ্চ নির্ভুলতায় পৌঁছেছে? আপনি ভাল রেফারেন্স প্রদান করতে পারেন? কেমিনস, বর্ণালী ক্লাস্টারিংয়ের মতো অ্যালগরিদম এই সমস্যার জন্য ভাল কাজ করে না।

4
পাঠ্য মাইনিং: কৃত্রিম বুদ্ধিমত্তার সাথে কীভাবে ক্লাস্টার পাঠ্যগুলি (যেমন নিউজ নিবন্ধগুলি)?
আমি বিভিন্ন কাজের জন্য কিছু নিউরাল নেটওয়ার্ক (এমএলপি (সম্পূর্ণরূপে সংযুক্ত), এলম্যান (পুনরাবৃত্ত) তৈরি করেছি, যেমন পং খেলা, হাতের লেখার অঙ্কগুলি এবং স্টাফ শ্রেণিবদ্ধকরণ ... অতিরিক্ত হিসাবে আমি কয়েকটি প্রথম কনভ্যুশনাল নিউরাল নেটওয়ার্কগুলি তৈরি করার চেষ্টা করেছি, যেমন বহু-অঙ্কিত হস্তাক্ষর নোটগুলি শ্রেণিবদ্ধ করার জন্য, তবে বিশ্লেষণ এবং ক্লাস্টার পাঠ্যগুলিতে আমি সম্পূর্ণ …

3
সুপ্ত শব্দার্থক বিশ্লেষণ (এলএসএ), সুপ্ত সিমেটিক ইনডেক্সিং (এলএসআই), এবং একক মান মূল্য পচন (এসভিডি) মধ্যে পার্থক্য কী?
এই পদগুলি প্রচুর পরিমাণে একসাথে ছড়িয়ে পড়ে, তবে আমি জানাতে চাই যে পার্থক্যগুলি কী, আপনার যদি মনে হয়। ধন্যবাদ
15 pca  text-mining  svd 

5
কীভাবে এক-শ্রেণীর পাঠ্য শ্রেণিবিন্যাস করবেন?
আমাকে একটি পাঠ্য শ্রেণিবদ্ধকরণ সমস্যা মোকাবেলা করতে হবে। একটি ওয়েব ক্রলার একটি নির্দিষ্ট ডোমেনের ওয়েবপৃষ্ঠাগুলি ক্রল করে এবং প্রতিটি ওয়েবপৃষ্ঠার জন্য আমি এটি অনুসন্ধান করতে চাই যে এটি কেবলমাত্র একটি নির্দিষ্ট শ্রেণীর অন্তর্গত। অর্থাৎ যদি আমি কল এই বর্গ ইতিবাচক , প্রতিটি ক্রল ওয়েবপেজ ক্লাসে পারেন জন্যে ইতিবাচক বা ক্লাসে …

3
সংক্ষিপ্ত নথিগুলির জন্য বিষয়গুলির মডেল
এই প্রশ্নের দ্বারা অনুপ্রাণিত হয়ে আমি ভাবছি যে খুব ছোট সংক্ষিপ্ত পাঠগুলির বৃহত সংগ্রহের জন্য টপিক মডেলগুলিতে কোনও কাজ করা হয়েছে কিনা। আমার স্বজ্ঞাততা হ'ল এই জাতীয় মডেলগুলির জন্য টুইটারের একটি প্রাকৃতিক অনুপ্রেরণা হওয়া উচিত। তবে কিছু সীমিত পরীক্ষা-নিরীক্ষার থেকে দেখে মনে হচ্ছে স্ট্যান্ডার্ড টপিক মডেলগুলি (এলডিএ ইত্যাদি) এই জাতীয় …

2
আর (টিএম প্যাকেজ) সহ পাঠ্য খনির উদাহরণ
আমি তিন দিনের সাথে tmএক বন্ধুর একটি খসড়া কাগজ পড়ার সাথে সাথে কাটালাম যেখানে তিনি ইউসিআইএনইটি দিয়ে একটি টেক্সট কর্পাস অন্বেষণ করেছিলেন, যেখানে টেক্সট ক্লাউড, টু-মোড নেটওয়ার্ক গ্রাফ এবং একক মান পচন (স্টাটা ব্যবহার করে গ্রাফিক্স সহ) দেখিয়েছিলেন। আমি প্রচুর সমস্যার মুখোমুখি হয়েছি: ম্যাক ওএস এক্সে, স্নোবল (স্টেমিং) বা আরগ্রাভিজ …
14 r  text-mining 

2
কোন এন-এ এন-গ্রামগুলি প্রতিরক্ষামূলক হয়?
প্রাকৃতিক ভাষা প্রক্রিয়াকরণ করার সময়, কেউ একটি কর্পাস নিতে পারে এবং n এর ক্রমতে পরবর্তী শব্দের সম্ভাব্যতার মূল্যায়ন করতে পারে। n সাধারণত 2 বা 3 (বিগ্রাম এবং ট্রিগ্রাম) হিসাবে বেছে নেওয়া হয়। সেই স্তরে একটি নির্দিষ্ট কর্পাসকে একবার শ্রেণিবদ্ধ করার জন্য যে পরিমাণ সময় লাগে তাতে নবম চেইনের ডেটা ট্র্যাকিং …

1
স্বয়ংক্রিয় কীওয়ার্ড নিষ্কাশন: বৈশিষ্ট্য হিসাবে কোসাইন মিল ব্যবহার করে
আমি একটি ডকুমেন্ট-টার্ম ম্যাট্রিক্স পেয়েছি এবং এখন আমি তত্ত্বাবধানে শেখার পদ্ধতি (এসভিএম, নাইভ বয়েস, ...) সহ প্রতিটি নথির জন্য কীওয়ার্ডগুলি বের করতে চাই। এই মডেলটিতে, আমি ইতিমধ্যে টিএফ-আইডিএফ, পোস্ট ট্যাগ, ...এমMM তবে এখন আমি নেেক্সট নিয়ে ভাবছি। পদগুলির মধ্যে কোসাইন মিলের সাথে আমি একটি ম্যাট্রিক্স পেয়েছি ।সিCC এই মডেলগুলির বৈশিষ্ট্য …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.