তথ্য বিজ্ঞান similarity

5

নথির মধ্যে দূরত্ব গণনার কয়েকটি মানক উপায় কী?

আমি যখন "ডকুমেন্ট" বলি তখন আমার উইকিপিডিয়া নিবন্ধ এবং নিউজ স্টোরিগুলির মতো ওয়েব পৃষ্ঠাগুলি মনে থাকে। আমি উত্তরগুলি পছন্দ করি ভ্যানিলা লেজিকাল দূরত্বের মেট্রিকগুলি বা অত্যাধুনিক সিমেটিক দূরত্বের মেট্রিকগুলি উত্তরগুলির জন্য আরও দৃference় পছন্দ সহ giving

34 machine-learning data-mining nlp text-mining similarity

4

জ্যাকার্ড মিল এবং কোসিন মিলের জন্য অ্যাপ্লিকেশন এবং পার্থক্য

আইটেমের মিলের তুলনা করার সময় জ্যাকার্ডের মিল এবং কোসাইন মিল দুটি অত্যন্ত সাধারণ পরিমাপ। তবে কোন পরিস্থিতিতে কোনটির চেয়ে অন্যের চেয়ে ভাল হওয়া উচিত সে বিষয়ে আমি খুব বেশি পরিষ্কার নই। কেউ কি এই দুটি পরিমাপের পার্থক্য (সংজ্ঞা বা নীতিতে পার্থক্য, সংজ্ঞা বা গণনা নয়) এবং তাদের পছন্দসই প্রয়োগগুলি পরিষ্কার …

27 similarity

5

বাক্যটির মিলের জন্য সেরা ব্যবহারিক অ্যালগরিদম

আমার দুটি বাক্য রয়েছে, এস 1 এবং এস 2, উভয়ই 15 এর নীচে শব্দের গণনা (সাধারণত) থাকে। সর্বাধিক ব্যবহারিকভাবে কার্যকর এবং সফল (মেশিন লার্নিং) অ্যালগরিদমগুলি কী কী, যা সম্ভবত কার্যকর করা সহজ (নিউরাল নেটওয়ার্ক ঠিক আছে, যদি না গুগল ইনসেপশন ইত্যাদির মতো স্থাপত্যটি জটিল না হয়)। আমি একটি অ্যালগরিদম খুঁজছি …

18 nlp clustering word2vec similarity

4

সমতা স্কোরের ভিত্তিতে ক্লাস্টারিং

ধরে নিন যে আমাদের দুটি উপাদান Ei, ej ∈ E এর মধ্যে E উপাদান এবং একটি মিল ( দূরত্ব নয় ) ফাংশন সিম (ei, ej) রয়েছে । আমরা কীভাবে (দক্ষতার সাথে) সিম ব্যবহার করে ই উপাদানগুলি গুচ্ছ করতে পারি ? k -means, উদাহরণস্বরূপ, প্রদত্ত কে প্রয়োজন, ক্যানোপি ক্লাস্টারিংয়ের জন্য দুটি …

18 clustering algorithms similarity

5

সামুদ্রিক হটম্যাপটি আরও বড় করুন

আমি corr()একটি আসল df এর বাইরে একটি df তৈরি করি । corr()Df প্রয়োগ আউট 70 এক্স 70 এসে তা হিটম্যাপ ঠাহর করা অসম্ভব ... sns.heatmap(df)। যদি আমি এটি প্রদর্শনের চেষ্টা করি corr = df.corr(), টেবিলটি স্ক্রিনের সাথে খাপ খায় না এবং আমি সমস্ত সম্পর্কিততা দেখতে পাচ্ছি। dfএটির আকার নির্বিশেষে পুরো …

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

বাক্যটির মিলের পূর্বাভাস

আমি নিম্নলিখিত সমস্যাটি সমাধান করতে চাইছি: আমার ডেটাসেট হিসাবে বাক্যগুলির একটি সেট রয়েছে এবং আমি একটি নতুন বাক্য টাইপ করতে সক্ষম হতে চাই এবং ডেটাসেটে নতুনটি সর্বাধিক অনুরূপ বাক্যটি সন্ধান করতে চাই। একটি উদাহরণ দেখতে হবে: নতুন বাক্য: " I opened a new mailbox" ডেটাসেটের ভিত্তিতে পূর্বাভাস: Sentence | Similarity …

15 python nlp scikit-learn similarity text

4

টিফ-আইডিএফ এবং কোসিন সাদৃশ্যগুলির বিকল্পগুলি যখন ভিন্ন ভিন্ন ফর্ম্যাটের ডকুমেন্টগুলির সাথে তুলনা করে

আমি একটি ছোট, ব্যক্তিগত প্রকল্পে কাজ করছি যা ব্যবহারকারীর কাজের দক্ষতা গ্রহণ করে এবং সেই দক্ষতার উপর ভিত্তি করে তাদের জন্য সবচেয়ে আদর্শ ক্যারিয়ারের পরামর্শ দেয়। আমি এটি অর্জনের জন্য কাজের তালিকার একটি ডাটাবেস ব্যবহার করি। এই মুহুর্তে কোডটি নিম্নলিখিতভাবে কাজ করে: 1) তালিকায় উল্লেখ করা দক্ষতাগুলি নিষ্ক্রিয় করতে প্রতিটি …

12 nlp text-mining similarity cosine-distance

1

মিমহ্যাশিং বনাম সিমহ্যাশিং

ধরুন আমার কাছে পাঁচটি সেট রয়েছে আমি ক্লাস্টার করতে চাই। আমি বুঝতে পারি যে এখানে বর্ণিত সিমহ্যাশিং কৌশল: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ তিন ক্লাস্টার উত্পাদ পারেনি ( {A}, {B,C,D}এবং {E}), উদাহরণস্বরূপ, যদি তার ফলাফল ছিল: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 একইভাবে, এমএমডিএস বইয়ের …

12 clustering similarity

3

অনুরূপ নথির সন্ধানের জন্য ভেক্টর স্পেস মডেল কোসাইন tf-idf f

মিলিয়নেরও বেশি নথির কর্পাস রয়েছে প্রদত্ত নথির জন্য ভেক্টর স্পেস মডেলের মতো কোসাইন ব্যবহার করে অনুরূপ নথির সন্ধান করতে চান ঘ1। D2/ ( | | ডি।)1| | | | ঘ2| | )ঘ1⋅ঘ2/(||ঘ1||||ঘ2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) এই টিএফ-আইডিএফ-এর মতো দীর্ঘতর নথির প্রতি পক্ষপাতিত্ব রোধ করতে, সমস্ত টিএফকে …

10 text-mining similarity

2

গোলমাল স্ট্রিংয়ের তালিকা থেকে ক্যানোনিকাল স্ট্রিংটি বের করুন

আমার কাছে কয়েক হাজার স্ট্রিংয়ের তালিকা রয়েছে এবং প্রতিটি তালিকায় প্রায় 10 টি স্ট্রিং রয়েছে। প্রদত্ত তালিকার বেশিরভাগ স্ট্রিং খুব একই রকম, যদিও কিছু স্ট্রিং (খুব কমই) অন্যের সাথে সম্পূর্ণ অপ্রাসঙ্গিক এবং কিছু স্ট্রিং অপ্রাসঙ্গিক শব্দ ধারণ করে। এগুলিকে একটি আড়ম্বরপূর্ণ স্ট্রিংয়ের শোরগোল বৈচিত্র হিসাবে বিবেচনা করা যেতে পারে। আমি …

10 nlp similarity information-retrieval

প্রশ্ন ট্যাগ «similarity»