সি নিয়মিত প্রকাশ: উদাহরণ?


171

আমি কিছু সাধারণ উদাহরণ এবং এএনএসআই সি-তে নিয়মিত এক্সপ্রেশন কীভাবে ব্যবহার করতে পারি তার সর্বোত্তম অনুশীলনের পরেও man regex.hতেমন সহায়তা সরবরাহ করে না।


6
এএনএসআই সি তে রেগেক্সের জন্য কোনও অন্তর্নির্মিত সমর্থন নেই আপনি কোন রেগেক্স লাইব্রেরি ব্যবহার করছেন?
জো

7
রব পাইক একটি ছোট্ট নিয়মিত এক্সপ্রেশন স্ট্রিং অনুসন্ধান ফাংশন লিখেছিলেন যা দ্য প্র্যাকটিস অফ প্রোগ্রামিং বইয়ের নিয়মিত অভিব্যক্তির একটি খুব দরকারী উপসেট গ্রহণ করেছিল যা তিনি এবং ব্রায়ান কর্নিগান সহ-রচনা করেছিলেন। এই আলোচনাটি দেখুন, ডাঃ কর্নিগান সিএস.প্রিন্সটন.ইডু
রিচার্ড চেম্বারস

উত্তর:


233

নিয়মিত প্রকাশগুলি আসলে এএনএসআই সি এর অংশ নয়, মনে হয় আপনি পসিক্স নিয়মিত প্রকাশের লাইব্রেরি সম্পর্কে কথা বলছেন যা বেশিরভাগ (সমস্ত?) * নিক্সেস নিয়ে আসে। এখানে (উপর ভিত্তি করে সি POSIX regexes ব্যবহারের একটি উদাহরণ এই ):

#include <regex.h>        
regex_t regex;
int reti;
char msgbuf[100];

/* Compile regular expression */
reti = regcomp(&regex, "^a[[:alnum:]]", 0);
if (reti) {
    fprintf(stderr, "Could not compile regex\n");
    exit(1);
}

/* Execute regular expression */
reti = regexec(&regex, "abc", 0, NULL, 0);
if (!reti) {
    puts("Match");
}
else if (reti == REG_NOMATCH) {
    puts("No match");
}
else {
    regerror(reti, &regex, msgbuf, sizeof(msgbuf));
    fprintf(stderr, "Regex match failed: %s\n", msgbuf);
    exit(1);
}

/* Free memory allocated to the pattern buffer by regcomp() */
regfree(&regex);

বিকল্পভাবে, আপনি সি সি-তে পার্ল-সামঞ্জস্যপূর্ণ নিয়মিত এক্সপ্রেশনগুলির জন্য একটি লাইব্রেরি পিসিআরআই চেক করতে চাইতে পারেন পার্ল বাক্য গঠনটি জাভা, পাইথন এবং অন্যান্য বেশ কয়েকটি ভাষায় একই সিনট্যাক্স ব্যবহার করে। POSIX সিনট্যাক্স দ্বারা ব্যবহৃত সিনট্যাক্স হল grep, sed, vi, ইত্যাদি


7
দ্বিতীয় পিসিআরই নির্ভরতা এড়াতে আপনার প্রয়োজন না পড়লে এর কিছু সুন্দর বাক্য গঠন বর্ধিত এবং অত্যন্ত স্থিতিশীল। কমপক্ষে লিনাক্সের কিছু পুরানো সংস্করণের সাথে, "অন্তর্নির্মিত" নিয়মিত এক্সপ্রেশন লাইব্রেরি নির্দিষ্ট ইনপুট স্ট্রিং এবং নির্দিষ্ট নিয়মিত এক্সপ্রেশনগুলির সাথে ক্রাশ করা খুব কঠিন নয় যা "প্রায়" মিলছে বা প্রচুর বিশেষ চরিত্রের সাথে জড়িত
বিডিকে

@ লরেন্স রেগকম্পে 0 পাস করার অর্থ কী? regcomp 4 টি বিভিন্ন মোড উপস্থাপন করতে কেবল চারটি পূর্ণসংখ্যার মান 1, 2, 4 এবং 8 নেয়।
লিক্সিয়াং

2
@lixiang গত পরামিতির regcomp, cflagsএকটি বিট-মাস্কের হয়। Pubs.opengroup.org/onlinepubs/009695399/funitions/regcomp.html থেকে : "সিএফ্লেগস আর্গুমেন্টটি শূন্যের বিটওয়াইস-অন্তর্ভুক্ত OR বা নীচের পতাকাগুলির আরও বেশি ..."। যদি আপনি বা একসাথে শূন্য হন, আপনি 0 পাবেন I আমি দেখতে পাচ্ছি যে লিনাক্সের regcompম্যানপেজটি "সিএফ্লেগগুলি বিটওয়াইস-বা নিম্নলিখিতগুলির এক বা একাধিক হতে পারে", যা বিভ্রান্তিকর বলে মনে হচ্ছে না।
লরেন্স গনসাল্ভেস

2
আপনি কিছু মিলিয়ে গোষ্ঠীগুলির থেকে পাঠ্য উত্তোলন করতে পারেন: regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }নোট করুন যে গ্রুপের ম্যাচগুলি শুরু হয় 1, গ্রুপ 0 সম্পূর্ণ স্ট্রিং। সীমানা ইত্যাদির জন্য ত্রুটি চেক যুক্ত করুন
বার্নসবিএ

2
regfreeব্যর্থ হওয়ার পরেও প্রয়োজনীয় কিনা তা সম্পর্কে regcomp, যদিও এটি সত্যই বরং সুনির্দিষ্টভাবে উল্লেখ করা হয়েছে, এটি পরামর্শ দেয় যে এটি করা উচিত নয়: redhat.com/archives/libvir-list/2013-
ড্যানিয়েল জার

12

এটি সম্ভবত আপনি যা চান তা নয়, তবে রি 2 সি-এর মতো একটি সরঞ্জাম এএনএসআই সি-তে নিয়মিত এক্সপ্রেশনগুলি পোসেক্স (-শ) সংকলন করতে পারে এটির প্রতিস্থাপন হিসাবে এটি রচনা করা হয়েছে lex, তবে এই পদ্ধতির সাহায্যে আপনি গতির শেষ বিটের জন্য নমনীয়তা এবং স্বচ্ছলতা ত্যাগ করতে পারবেন, যদি আপনার সত্যই এটি প্রয়োজন


9

man regex.hরিপোর্ট রেগেক্স.এর জন্য কোনও ম্যানুয়াল প্রবেশ নেই, তবে man 3 regex আপনাকে প্যাটার্ন মিলের জন্য পসিক্স ফাংশনগুলি ব্যাখ্যা করার জন্য একটি পৃষ্ঠা দেয় gives জিএনইউ সি লাইব্রেরিতে
একই ক্রিয়াকলাপ বর্ণনা করা হয়েছে : নিয়মিত এক্সপ্রেশন ম্যাচিং , যা ব্যাখ্যা করে যে জিএনইউ সি লাইব্রেরি অনেক বছর ধরে জিএনইউ সি লাইব্রেরিটির পসআইএক্স ২ ইন্টারফেস এবং ইন্টারফেস উভয় সমর্থন করে।

উদাহরণস্বরূপ, একটি অনুমানমূলক প্রোগ্রামের জন্য যা আর্গুমেন্ট হিসাবে পাস হওয়া স্ট্রিংগুলির মধ্যে কোনটি প্রথম আর্গুমেন্ট হিসাবে পাস করা প্যাটার্নের সাথে মেলে, আপনি নিম্নলিখিতটির মতো কোড ব্যবহার করতে পারেন।

#include <errno.h>
#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

void print_regerror (int errcode, size_t length, regex_t *compiled);

int
main (int argc, char *argv[])
{
  regex_t regex;
  int result;

  if (argc < 3)
    {
      // The number of passed arguments is lower than the number of
      // expected arguments.
      fputs ("Missing command line arguments\n", stderr);
      return EXIT_FAILURE;
    }

  result = regcomp (&regex, argv[1], REG_EXTENDED);
  if (result)
    {
      // Any value different from 0 means it was not possible to 
      // compile the regular expression, either for memory problems
      // or problems with the regular expression syntax.
      if (result == REG_ESPACE)
        fprintf (stderr, "%s\n", strerror(ENOMEM));
      else
        fputs ("Syntax error in the regular expression passed as first argument\n", stderr);
      return EXIT_FAILURE;               
    }
  for (int i = 2; i < argc; i++)
    {
      result = regexec (&regex, argv[i], 0, NULL, 0);
      if (!result)
        {
          printf ("'%s' matches the regular expression\n", argv[i]);
        }
      else if (result == REG_NOMATCH)
        {
          printf ("'%s' doesn't the regular expression\n", argv[i]);
        }
      else
        {
          // The function returned an error; print the string 
          // describing it.
          // Get the size of the buffer required for the error message.
          size_t length = regerror (result, &regex, NULL, 0);
          print_regerror (result, length, &regex);       
          return EXIT_FAILURE;
        }
    }

  /* Free the memory allocated from regcomp(). */
  regfree (&regex);
  return EXIT_SUCCESS;
}

void
print_regerror (int errcode, size_t length, regex_t *compiled)
{
  char buffer[length];
  (void) regerror (errcode, compiled, buffer, length);
  fprintf(stderr, "Regex match failed: %s\n", buffer);
}

সর্বশেষতম যুক্তিটি regcomp()কমপক্ষে হওয়া দরকার REG_EXTENDED, বা ফাংশনগুলি মৌলিক নিয়মিত এক্সপ্রেশনগুলি ব্যবহার করবে , যার অর্থ (উদাহরণস্বরূপ) বর্ধিত নিয়মিত এক্সপ্রেশন থেকে a\{3\}পরিবর্তে আপনাকে ব্যবহার করতে হবেa{3} , যা সম্ভবত কি আপনি ব্যবহার করতে আশা।

POSIX.2 এছাড়াও ওয়াইল্ডকার্ড মিলের জন্য অন্য ফাংশন আছে: fnmatch()। এটি নিয়মিত অভিব্যক্তি সংকলন করতে বা সাব-এক্সপ্রেশনটির সাথে মেলে সাবস্ট্রিংগুলি পেতে দেয় না, তবে কোনও ফাইলের নাম যখন ওয়াইল্ডকার্ডের সাথে মেলে তা পরীক্ষা করার জন্য এটি অত্যন্ত নির্দিষ্ট (যেমন এটি FNM_PATHNAMEপতাকা ব্যবহার করে )।


6

এটি REG_EXTENDED ব্যবহারের একটি উদাহরণ। এই নিয়মিত প্রকাশ

"^(-)?([0-9]+)((,|.)([0-9]+))?\n$"

আপনাকে স্প্যানিশ সিস্টেম এবং আন্তর্জাতিক দশমিক সংখ্যা ধরার অনুমতি দেয়। :)

#include <regex.h>
#include <stdlib.h>
#include <stdio.h>
regex_t regex;
int reti;
char msgbuf[100];

int main(int argc, char const *argv[])
{
    while(1){
        fgets( msgbuf, 100, stdin );
        reti = regcomp(&regex, "^(-)?([0-9]+)((,|.)([0-9]+))?\n$", REG_EXTENDED);
        if (reti) {
            fprintf(stderr, "Could not compile regex\n");
            exit(1);
        }

        /* Execute regular expression */
        printf("%s\n", msgbuf);
        reti = regexec(&regex, msgbuf, 0, NULL, 0);
        if (!reti) {
            puts("Match");
        }
        else if (reti == REG_NOMATCH) {
            puts("No match");
        }
        else {
            regerror(reti, &regex, msgbuf, sizeof(msgbuf));
            fprintf(stderr, "Regex match failed: %s\n", msgbuf);
            exit(1);
        }

        /* Free memory allocated to the pattern buffer by regcomp() */
        regfree(&regex);
    }

}

5

উপরের উত্তরটি ভাল হলেও, আমি PCRE2 ব্যবহার করার পরামর্শ দিচ্ছি । এর অর্থ আপনি এখন আক্ষরিকভাবে সমস্ত রেইগেক্স উদাহরণগুলি ব্যবহার করতে পারেন এবং কিছু প্রাচীন রেজেক্স থেকে অনুবাদ করতে হবে না।

আমি এর জন্য ইতিমধ্যে একটি উত্তর দিয়েছি, তবে আমি মনে করি এটি এখানেও সহায়তা করতে পারে ..

ক্রেডিট কার্ডের নাম্বার সন্ধান করতে সি ইন রেজেজ

// YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h

#define PCRE2_CODE_UNIT_WIDTH 8
#include <stdio.h>
#include <string.h>
#include <pcre2.h>
#include <stdbool.h>

int main(){

bool Debug = true;
bool Found = false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;
int errornumber;
int i;
int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;
size_t subject_length;
pcre2_match_data *match_data;


char * RegexStr = "(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";
char * source = "5111 2222 3333 4444";

pattern = (PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX 
subject = (PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked. 
subject_length = strlen((char *)subject);




  re = pcre2_compile(
  pattern,               /* the pattern */
  PCRE2_ZERO_TERMINATED, /* indicates pattern is zero-terminated */
  0,                     /* default options */
  &errornumber,          /* for error number */
  &erroroffset,          /* for error offset */
  NULL);                 /* use default compile context */

/* Compilation failed: print the error message and exit. */
if (re == NULL)
  {
  PCRE2_UCHAR buffer[256];
  pcre2_get_error_message(errornumber, buffer, sizeof(buffer));
  printf("PCRE2 compilation failed at offset %d: %s\n", (int)erroroffset,buffer);
  return 1;
  }


match_data = pcre2_match_data_create_from_pattern(re, NULL);

rc = pcre2_match(
  re,
  subject,              /* the subject string */
  subject_length,       /* the length of the subject */
  0,                    /* start at offset 0 in the subject */
  0,                    /* default options */
  match_data,           /* block for storing the result */
  NULL);

if (rc < 0)
  {
  switch(rc)
    {
    case PCRE2_ERROR_NOMATCH: //printf("No match\n"); //
    pcre2_match_data_free(match_data);
    pcre2_code_free(re);
    Found = 0;
    return Found;
    //  break;
    /*
    Handle other special cases if you like
    */
    default: printf("Matching error %d\n", rc); //break;
    }
  pcre2_match_data_free(match_data);   /* Release memory used for the match */
  pcre2_code_free(re);
  Found = 0;                /* data and the compiled pattern. */
  return Found;
  }


if (Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n", (int)ovector[0]);

if (rc == 0)
  printf("ovector was not big enough for all the captured substrings\n");


if (ovector[0] > ovector[1])
  {
  printf("\\K was used in an assertion to set the match start after its end.\n"
    "From end to start the match was: %.*s\n", (int)(ovector[0] - ovector[1]),
      (char *)(subject + ovector[1]));
  printf("Run abandoned\n");
  pcre2_match_data_free(match_data);
  pcre2_code_free(re);
  return 0;
}

for (i = 0; i < rc; i++)
  {
  PCRE2_SPTR substring_start = subject + ovector[2*i];
  size_t substring_length = ovector[2*i+1] - ovector[2*i];
  printf("%2d: %.*s\n", i, (int)substring_length, (char *)substring_start);
  }
}

else{
  if(rc > 0){
    Found = true;

    } 
} 
pcre2_match_data_free(match_data);
pcre2_code_free(re);
return Found;

}

ব্যবহার করে পিসিআরই ইনস্টল করুন:

wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip
make 
sudo make install 
sudo ldconfig

ব্যবহার করে সংকলন:

gcc foo.c -lpcre2-8 -o foo

আরও তথ্যের জন্য আমার উত্তর চেক করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.