রেগেক্স ব্যবহার করে আমি জাভাস্ক্রিপ্টের কোনও স্ট্রিং থেকে সমস্ত বিরামচিহ্ন কেটে ফেলতে পারি?


152

এতে যদি কোনও ধরণের অ-অক্ষরীয় অক্ষরের সাথে আমার একটি স্ট্রিং থাকে:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

আমি কীভাবে জাভাস্ক্রিপ্টে এর কোনও বিরামচিহ্ন সংস্করণ পাব:

"This is an example of a string with punctuation"

উত্তর:


211

আপনি যদি কোনও স্ট্রিং থেকে নির্দিষ্ট বিরামচিহ্নগুলি সরাতে চান তবে আপনি যা চান ঠিক তা স্পষ্টভাবে মুছে ফেলা ভাল

replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")

উপরোক্ত কাজগুলি করা সুনির্দিষ্টভাবে এখনও স্ট্রিংটি দেয় না। আপনি যদি পাগল বিরামচিহ্ন অপসারণ থেকে বাদ পড়ে থাকা অতিরিক্ত স্থানগুলি সরিয়ে নিতে চান তবে আপনি এর মতো কিছু করতে চাইছেন

replace(/\s{2,}/g," ");

আমার পুরো উদাহরণ:

var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"");
var finalString = punctuationless.replace(/\s{2,}/g," ");

ফায়ারব্যাগ কনসোলে চলমান কোডের ফলাফল:

বিকল্প পাঠ


4
রেজেক্সের কোঁকড়া ধনুর্বন্ধনী পূর্ববর্তীটিতে একটি কোয়ান্টিফায়ার প্রয়োগ করে, সুতরাং এক্ষেত্রে এটি 2 এবং 100 শ্বেত স্পেস অক্ষরের ( \s) একক স্থানের সাথে প্রতিস্থাপন করে । আপনি এক নিচে হোয়াইটস্পেস অক্ষর কোন সংখ্যা সঙ্কুচিত করতে চান, আপনি তাই মত সর্বোচ্চ সীমা বন্ধ ছেড়ে দিতেন: replace(/\s{2,}/g, ' ')
মাইক পার্টরিজ

13
আমি যতিচিহ্ন তালিকায় আরো কয়েকটি অক্ষর জুড়েছেন প্রতিস্থাপিত ( @+?><[]+): replace(/[\.,-\/#!$%\^&\*;:{}=\-_`~()@\+\?><\[\]\+]/g, '')। কেউ যদি এখনও কিছুটা সামান্য-আরও সম্পূর্ণ সেট খুঁজছেন।
টিমফিন

9
পাইথনের স্ট্রিং.পান্টিকেশনটি বিরামচিহ্নগুলি এমনভাবে সংজ্ঞায়িত করে: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~যা আমার পক্ষে আরও ভাল কাজ করে, তাই অন্য একটি বিকল্প হতে পারে:replace(/['!"#$%&\\'()\*+,\-\.\/:;<=>?@\[\\\]\^_`{|}~']/g,"");
01 অটোমোনকি

1
@ এন্টোইনলিজাé আমি সম্মত হই যে এটি বিভ্রান্তিকর। উত্তর আপডেট করেছেন। ধন্যবাদ।
মাইক গ্রেস

2
আমি "এটি" দিয়ে চেষ্টা করেছি? - আমার জন্য কাজ করে না ( regex101.com/r/F4j5Qc/1 ), সঠিক সমাধানটি হ'ল: / ছেলেরা। \?] / জি
ম্যাক্সিমাম ফির্সফ

129
str = str.replace(/[^\w\s]|_/g, "")
         .replace(/\s+/g, " ");

আলফানিউমেরিক্যাল অক্ষর এবং সাদা স্থান বাদে সমস্ত কিছু সরিয়ে দেয়, তারপরে একাধিক সংলগ্ন অক্ষরকে একক স্পেসে পতিত হবে।

বিস্তারিত ব্যাখ্যা:

  1. \w যে কোনও অঙ্ক, বর্ণ বা আন্ডারস্কোর।
  2. \s যে কোনও সাদা স্থান।
  3. [^\w\s] এমন কোনও কিছু যা কোনও অঙ্ক, অক্ষর, সাদা স্থান বা আন্ডারস্কোর নয়।
  4. [^\w\s]|_ আবার যুক্ত হওয়া আন্ডারস্কোরগুলি বাদে # 3 এর সমান।

72
এটি অ-ইংরাজীও সরিয়ে ফেলবে তবে অন্যথায় পুরোপুরি বর্ণানুক্রমিক অক্ষরগুলির মতো পুরো সিরিলিক বর্ণমালা à
ড্যান আব্রামভ

5
@ মেকীফুল আমি দ্বিমত পোষণ করছি, মূল প্রশ্নটি "কেবল ইংরেজির জন্য" নির্দিষ্ট করে না। এসও বেশ আন্তর্জাতিক, সারা বিশ্বে ব্যবহৃত হয়। যে কেউ ইংরেজী বলতে এবং ইন্টারনেট অ্যাক্সেস পেয়েছেন তিনি এটি ব্যবহার করতে পারেন। যদি প্রশ্নটিতে ভাষাটি নির্দিষ্ট না করা থাকে, তবে আমাদের কোনও অনুমান করা উচিত নয়। আমরা 2017 এ!
রল্ফ

1
এছাড়াও, যদি আপনি কেবল ইংরেজিকে সমর্থন করেন তবে আপনার কাছে loanণ শব্দ যেমন রেসুমা এবং জায়গাগুলির নাম বা লোকের নাম রয়েছে তাই আপনি রামেন ক্লোয়ের মধ্যবর্তী ঘনক্ষেত্রে সান জোসে (সরকারী বানান) কাজ করার কথা বলার কারও দক্ষতা ভঙ্গ করতে চান না é
ক্রিস অ্যাডামস

এটি wouldn'tএবংdon't
চার্লি

71

US-ASCII এর জন্য এখানে স্ট্যান্ডার্ড বিরামচিহ্নগুলি রয়েছে: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

ইউনিকোড বিরামচিহ্নের জন্য (যেমন কোঁকড়ানো উদ্ধৃতি, এম-ড্যাশস ইত্যাদি), আপনি নির্দিষ্ট ব্লক রেঞ্জগুলিতে সহজেই মিল করতে পারেন। সাধারণ যতিচিহ্ন ব্লক \u2000-\u206F, এবং প্রাসঙ্গিক বিরাম চিহ্ন ব্লক \u2E00-\u2E7F

একসাথে রাখুন, এবং সঠিকভাবে পালানো, আপনি নিম্নলিখিত RegExp পাবেন:

/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

এটি আপনার মুখোমুখি যে কোনও বিরামচিহ্নের সাথে মিলবে। সুতরাং, মূল প্রশ্নের উত্তর দিতে:

var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');

>> "This is an example of a string with punctuation"

ইউএস-এএসসিআইআই উত্স: http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

ইউনিকোড উত্স: http://kourge.net/projects/regexp-unicode- block


3
ইউনিকোড বিরামচিহ্নের জন্য, ব্লকগুলি পর্যাপ্ত নয়। আপনাকে সাধারণ বিভাগের বিরামচিহ্নগুলি দেখতে হবে এবং আপনি দেখতে পাবেন যে সমস্ত বিরামচিহ্নগুলি সেই ব্লকগুলিতে খুব সুন্দরভাবে অবস্থিত না। উদাহরণস্বরূপ লাতিন ব্লকের অভ্যন্তরে অনেকগুলি বেশ কয়েকটি বিরামচিহ্ন রয়েছে।
nhahtdh

15

/ [^ A-Za-z0-9] s] / g এর সকল বিরামচিহ্নের সাথে মিল থাকা উচিত তবে স্পেস রাখতে হবে keep সুতরাং আপনার .replace(/\s{2,}/g, " ")যদি প্রয়োজন হয় তবে অতিরিক্ত স্থানগুলি প্রতিস্থাপন করতে আপনি এটি ব্যবহার করতে পারেন । আপনি http://rubular.com/ এ রেজেক্স পরীক্ষা করতে পারেন

.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

আপডেট : ইনপুটটি এএনএসআই ইংরাজী হলেই কাজ করবে।


6
আপনি ধরে নিচ্ছেন যে স্ট্রিংটি এএনএসআই ইংরাজী। উচ্চারণযুক্ত অক্ষর (àéô) সহ ফরাসি নয়, জার্মান, তুর্কিও নয়। ইউনিকোড আরবি, চাইনিজ ইত্যাদিও অদৃশ্য হয়ে যাবে।
রল্ফ

2
ধন্যবাদ, পুরোপুরি এটি সম্পর্কে ভাবেনি।
আদনান

10

আমি একই ইস্যু জুড়ে দৌড়েছি, এই সমাধানটি কৌশলটি করেছে এবং খুব পাঠযোগ্য:

var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newSen = sentence.match(/[^_\W]+/g).join(' ');
console.log(newSen);

ফলাফল:

"This is an example of a string with punctuation"

কৌশলটি ছিল একটি উপেক্ষিত সেট তৈরি করা । এর অর্থ এটি যে কোনও কিছুর সাথে মেলে যা সেটের মধ্যে [^abc]নয় যেমন - এ , বি বা সি নয়

\Wযে কোনও [^\W]+শব্দহীন , তাই এমন কোনও শব্দকে অস্বীকার করবে যা শব্দের চর নয়

_ (আন্ডারস্কোর) এ যুক্ত করে আপনি এটিও তুচ্ছ করতে পারেন।

এটি বিশ্বব্যাপী প্রয়োগ করুন /g , তারপরে আপনি এর মাধ্যমে যে কোনও স্ট্রিং চালাতে পারেন এবং বিরামচিহ্নগুলি পরিষ্কার করতে পারেন:

/[^_\W]+/g

সুন্দর এবং পরিষ্কার;)


1
আপনি এই পদ্ধতিটি দ্বারা সমস্ত নতুন লাইনকে মহাকাশে পরিবর্তন করতে পারেন।
nhahtdh

5
এই পদ্ধতিটি কেবল ইংরেজিতে কাজ করে, সমস্ত উচ্চারণকৃত অক্ষর মুছে ফেলা হয়।
নিকোলাস বার্নিয়ার

@ নিকোলাস বার্নিয়ার হ্যাঁ এটি 100% সঠিক - জাভাস্ক্রিপ্টের রেজেক্স ইঞ্জিনটি আসলে বেশ লম্বা (দেখুন: স্ট্যাকওভারফ্লো / সেকশনস / 4043307/… ) - দুর্ভাগ্যক্রমে আরও জটিল কাজগুলির জন্য (এবং অ-ইংরেজী শব্দের জন্য নিদর্শন তৈরি করতে) এটি বেশ খানিকটা সময় নেয় আরও কোড তবুও, দ্রুত এবং সংক্ষিপ্ত রেজিক্সের জন্য বিরামচিহ্নগুলি
ছাঁটাতে

এটি ছিল সহজতম এবং আমার উদ্দেশ্যটি ভালভাবে পরিবেশন করেছে।
জেমস শ্রাম

9

আমি এটি অন্যদের জন্য এখানে রাখব।

সমস্ত ভাষার জন্য সমস্ত বিরামচিহ্ন অক্ষর মেলে:

ইউনিকোড বিরামচিহ্ন বিভাগ থেকে তৈরি এবং কিছু সাধারণ কীবোর্ড প্রতীক যেমন $এবং বন্ধনী এবং যুক্ত করেছে\-=_

http://www.fileformat.info/info/unicode/category/Po/list.htm

প্রাথমিক প্রতিস্থাপন:

".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"")
"testda text"

স্থান হিসাবে যোগ করা হয়েছে

".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

বিরামচিহ্ন নয়, শব্দগুলিতে সেগুলি মিলিয়ে পেটারেন্টকে উল্টাতে যোগ করেছে added

".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

হিব্রু ভাষার মতো ভাষার জন্য সম্ভবত "" একক এবং দ্বিগুণ উদ্ধৃতি মুছে ফেলতে পারে এবং এ নিয়ে আরও চিন্তাভাবনা করা উচিত।

এই স্ক্রিপ্ট ব্যবহার:

পদক্ষেপ 1: ফায়ারফক্সে U + 1234 সংখ্যার কলাম নিয়ন্ত্রণ করে নির্বাচন করুন এবং এটি অনুলিপি করুন, ইউ + 12456 অনুলিপি করবেন না তারা ইংরেজী প্রতিস্থাপন করে

পদক্ষেপ 2 (আমি ক্রোমে করলাম) কিছু টেক্সেরিয়া খুঁজে এটিতে আটকান তারপরে রাইট ক্লিক করুন এবং পরিদর্শন ক্লিক করুন। তারপরে আপনি নির্বাচিত উপাদানটি $ 0 দিয়ে অ্যাক্সেস করতে পারবেন।

var x=$0.value
var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)})
var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else {  var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")

পদক্ষেপ 3 প্রথম অক্ষরের উপর ভিত্তি করে ascii আলাদা অক্ষর রেঞ্জ হিসাবে নয় কারণ কেউ ব্যক্তিগত অক্ষর যুক্ত বা মুছে ফেলতে পারে


7

ইউনিকোড-সচেতন ভাষায়, ইউনিকোড বিরামচিহ্ন চরিত্রের বৈশিষ্ট্যটি \p{P}- যা আপনি সাধারণত সংক্ষিপ্ত করতে পারেন \pPএবং কখনও কখনও প্রসারিত করতে পারেন\p{Punctuation} পাঠযোগ্যতার জন্য ।

আপনি কি পার্ল সামঞ্জস্যপূর্ণ নিয়মিত এক্সপ্রেশন গ্রন্থাগার ব্যবহার করছেন?


8
দুর্ভাগ্যক্রমে জেএস পার্ল সামঞ্জস্যপূর্ণ নয়। অন্য সমস্যাটি হ'ল আমি যখন এটি পরীক্ষা করেছি এটি @ কোয়ান্টিনের পরীক্ষামূলক স্ট্রিং => মাইকগ্রাস.স 3.amazonaws.com/forums/stack-overflow/…
মাইক গ্রেস

4
এই বর্ধিত বাক্য গঠন পেতে আপনি XRegExp লাইব্রেরি ব্যবহার করতে পারেন।
এরিক বার্কল্যান্ড

7

আপনি যদি কোনও স্ট্রিং থেকে বিরামচিহ্ন সরাতে চান তবে আপনার এটি ব্যবহার করা উচিত P ইউনিকোড ক্লাসটি ।

তবে, জাভাস্ক্রিপ্ট RegEx- এ ক্লাস গ্রহণ করা হয়নি, আপনি এই রেজেক্সটি চেষ্টা করতে পারেন যা সমস্ত বিরামচিহ্নের সাথে মেলে। এটি নিম্নলিখিত বিভাগগুলির সাথে মেলে: পিসি পিডি পে পিএফ পি পি এস এস এস এস এস এম সাধারণ জেনারেশন সুনির্দিষ্ট পরিপূরক সিজেকে সিম্বলসএন্ডপঞ্চিউচিউশন কিউনিফর্ম নাম্বার এবং প্যান্টিকেশন।

আমি এই অনলাইন সরঞ্জামটি ব্যবহার করে এটি তৈরি করেছি যা জাভাস্ক্রিপ্টের জন্য বিশেষভাবে নিয়মিত অভিব্যক্তি উত্পন্ন করে। এটি আপনার লক্ষ্যে পৌঁছানোর কোড:

var punctuationRegEx = /[!-/:-@[-`{-~¡-©«-¬®-±´¶-¸»¿×÷˂-˅˒-˟˥-˫˭˯-˿͵;΄-΅·϶҂՚-՟։-֊־׀׃׆׳-״؆-؏؛؞-؟٪-٭۔۩۽-۾܀-܍߶-߹।-॥॰৲-৳৺૱୰௳-௺౿ೱ-ೲ൹෴฿๏๚-๛༁-༗༚-༟༴༶༸༺-༽྅྾-࿅࿇-࿌࿎-࿔၊-၏႞-႟჻፠-፨᎐-᎙᙭-᙮᚛-᚜᛫-᛭᜵-᜶។-៖៘-៛᠀-᠊᥀᥄-᥅᧞-᧿᨞-᨟᭚-᭪᭴-᭼᰻-᰿᱾-᱿᾽᾿-῁῍-῏῝-῟῭-`´-῾\u2000-\u206e⁺-⁾₊-₎₠-₵℀-℁℃-℆℈-℉℔№-℘℞-℣℥℧℩℮℺-℻⅀-⅄⅊-⅍⅏←-⏧␀-␦⑀-⑊⒜-ⓩ─-⚝⚠-⚼⛀-⛃✁-✄✆-✉✌-✧✩-❋❍❏-❒❖❘-❞❡-❵➔➘-➯➱-➾⟀-⟊⟌⟐-⭌⭐-⭔⳥-⳪⳹-⳼⳾-⳿⸀-\u2e7e⺀-⺙⺛-⻳⼀-⿕⿰-⿻\u3000-〿゛-゜゠・㆐-㆑㆖-㆟㇀-㇣㈀-㈞㈪-㉃㉐㉠-㉿㊊-㊰㋀-㋾㌀-㏿䷀-䷿꒐-꓆꘍-꘏꙳꙾꜀-꜖꜠-꜡꞉-꞊꠨-꠫꡴-꡷꣎-꣏꤮-꤯꥟꩜-꩟﬩﴾-﴿﷼-﷽︐-︙︰-﹒﹔-﹦﹨-﹫!-/:-@[-`{-・¢-₩│-○-�]|\ud800[\udd00-\udd02\udd37-\udd3f\udd79-\udd89\udd90-\udd9b\uddd0-\uddfc\udf9f\udfd0]|\ud802[\udd1f\udd3f\ude50-\ude58]|\ud809[\udc00-\udc7e]|\ud834[\udc00-\udcf5\udd00-\udd26\udd29-\udd64\udd6a-\udd6c\udd83-\udd84\udd8c-\udda9\uddae-\udddd\ude00-\ude41\ude45\udf00-\udf56]|\ud835[\udec1\udedb\udefb\udf15\udf35\udf4f\udf6f\udf89\udfa9\udfc3]|\ud83c[\udc00-\udc2b\udc30-\udc93]/g;
var string = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newString = string.replace(punctuationRegEx, '').replace(/(\s){2,}/g, '$1');
console.log(newString)


5

এন-মার্কিন (আমেরিকান ইংরাজী) স্ট্রিংয়ের জন্য এটি পর্যাপ্ত হওয়া উচিত:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

সচেতন হন যে আপনি যদি ইউটিএফ -8 এবং চীনা / রাশিয়ান এবং সমস্তগুলির মতো অক্ষরগুলি সমর্থন করেন তবে এটি তাদের পাশাপাশি প্রতিস্থাপন করবে, তাই আপনাকে কী চান তা নির্দিষ্ট করে দিতে হবে।



2

অনুযায়ী যতিচিহ্ন এর উইকিপিডিয়ার তালিকা আমি নিম্নলিখিত Regex যা যতিচিহ্ন সনাক্ত করে গড়ে তুলতে ছিল:

[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]


2
যদি এই রেজেক্সটি ব্যবহার করে থাকেন তবে আপনার রেজেক্স ডিলিমিটারটিও এড়ানো উচিত। উদাহরণস্বরূপ, যদি আপনি ব্যবহার /(সবচেয়ে সাধারণ) তারপর, এটা চরিত্র শ্রেণীর ভিতরের উপরে একটি যোগ করে পালিয়ে দিতে হবে সামনে ব্যাক স্ল্যাশ, এরকম: \/। এভাবেই আপনি এটি ব্যবহার করবে: "String!! With, Punctuation.".replace(/[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";\/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]+/g,"")। যাইহোক, আমি কোথাও কোথাও ব্যাকটিক (`) দেখতে পাচ্ছি না, কীভাবে আসে?
রল্ফ

অনুপস্থিত. সমস্ত বিরামচিহ্নগুলির একটি তালিকা পাওয়া শক্ত বলে মনে হচ্ছে।
অ্যালেক্স

1

আপনি যদি কেবলমাত্র বর্ণমালা এবং স্পেসগুলি ধরে রাখতে চান তবে আপনি এটি করতে পারেন:

str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ')

8
এটি কি কেবল বিরামচিহ্নের চেয়ে বেশি টানতে পারে না? ইউনিকোড আর লাইক?
অ্যালেক্স

3
আপনার অর্থ "কেবলমাত্র ইংরেজী বর্ণমালা এবং স্পেসস"
রল্ফ

0

এটি আপনি কী ফিরিয়ে দেওয়ার চেষ্টা করছেন তার উপর নির্ভর করে। আমি সম্প্রতি এটি ব্যবহার করেছি:

return text.match(/[a-z]/i);
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.