Особенности регулярных выражений в Javascript

Форум

Учебник Node.JS скринкаст Стандарт языка

Справочник

Discord чат

 
Статьи Тест знаний Аналоги функций PHP  

Особенности регулярных выражений в Javascript

Update: Более новый материал по этой теме находится по адресу https://learn.javascript.ru/regexp-specials.

Регулярные выражения в javascript немного странные. Вроде - перловые, обычные, но с подводными камнями, на которые натыкаются даже опытные javascript-разработчики.

Эта статья ставит целью перечислить неожиданные фишки и особенности RegExp в краткой и понятной форме.

Общую информацию о регулярных выражениях в javascript вы можете найти в статье Регулярные выражения.

Точка и перенос строки

Для поиска в многострочном режиме почти все модификации перловых регэкспов используют специальный multiline-флаг.

И javascript здесь не исключение.

Попробуем же сделать поиск и замену многострочного вхождения. Скажем, будем заменять [u] ... [/u] на тэг подчеркивания: <u>:

function bbtagit(text) {
  text = text.replace(/\[u\](.*?)\[\/u\]/gim, '<u>$1</u>')
 
  return text
}

var line = "[u]мой\n текст[/u]"
alert( bbtagit(line) )

Попробуйте запустить. Заменяет? Как бы не так!

Дело в том, что в javascript мультилайн режим (флаг m) влияет только на символы ^ и $, которые начинают матчиться с началом и концом строки, а не всего текста.

Точка по-прежнему - любой символ, кроме новой строки. В javascript нет флага, который устанавливает мультилайн-режим для точки. Для того, чтобы заматчить совсем что угодно - используйте [\s\S].

Работающий вариант:

function bbtagit(text) {
  text = text.replace(/\[u\]([\s\S]*)\[\/u\]/gim, '<u>$1</u>')
 
  return text
}

var line = "[u]мой\n текст[/u]"
alert( bbtagit(line) )

Жадность

Это не совсем особенность, скорее фича, но все же достойная отдельного абзаца.

Все регулярные выражения в javascript - жадные. То есть, выражение старается отхватить как можно больший кусок строки.

Например, мы хотим заменить все открывающие тэги <a>. На что и почему - не так важно.

text = '1 <A href="#">...</A> 2'
text = text.replace(/<A(.*)>/, 'TEST')
alert(text)

При запуске вы увидите, что заменяется не открывающий тэг, а вся ссылка, выражение матчит ее от начала и до конца.

Это происходит из-за того, что точка-звездочка в "жадном" режиме пытается захватить как можно больше, в нашем случае - это как раз до последнего >.

Последний символ > точка-звездочка не захватывает, т.к. иначе не будет совпадения.

Как вариант решения используют квадратные скобки: [^>]:

text = '1 <A href="#">...</A> 2'
text = text.replace(/<A([^>]*)>/, 'TEST')
alert(text)

Это работает. Но самым удобным вариантом является переключение точки-звездочки в нежадный режим. Это осуществляется простым добавлением знака "?" после звездочки.

В нежадном режиме точка-звездочка пустит поиск дальше сразу, как только нашла совпадение:

text = '1 <A href="#">...</A> 2'
text = text.replace(/<A(.*?)>/, 'TEST')
alert(text)

В некоторых языках программирования можно переключить жадность на уровне всего регулярного выражения, флагом.

В javascript это сделать нельзя.. Вот такая особенность. А вопросительный знак после звездочки рулит - честное слово.

Backreferences в паттерне и при замене

Иногда нужно в самом паттерне поиска обратиться к предыдущей его части.

Например, при поиске BB-тагов, то есть строк вида [u]...[/u], [b]...[/b] и [s]...[/s]. Или при поиске атрибутов, которые могут быть в одинарных кавычках или двойных.

Обращение к предыдущей части паттерна в javascript осуществляется как \1, \2 и т.п., бэкслеш + номер скобочной группы:

text = ' [b]a [u]b[/u] c [/b] '

var reg = /\[([bus])\](.*?)\[\//*u*/\1/*/u*/\]/
text = text.replace(reg, '<$1>$2</$1>')
alert(text)

Обращение к скобочной группе в строке замены идет уже через доллар: $1. Не знаю, почему, наверное так удобнее..

P.S. Понятно, что при таком способе поиска bb-тагов придется пропустить текст через замену несколько раз - пока результат не перестанет отличаться от оригинала.

Найти все / Заменить все

Эти две задачи решаются в javascript принципиально по-разному.

Начнем с "простого".

Заменить все

Для замены всех вхождений используется метод String#replace.
Он интересен тем, что допускает первый аргумент - регэксп или строку.

Если первый аргумент - строка, то будет осуществлен поиск подстроки, без преобразования в регулярное выражение.

Попробуйте:

alert("2 ++ 1".replace("+", "*"))

Каков результат? Как, заменился только один плюс, а не два? Да, вот так.

Чтобы заменить все вхождения, String#replace придется использовать в режиме регулярного выражения.

В режиме регулярного выражения плюс придется заэкранировать, но зато replace заменит все вхождения (при указании флага g):

alert("2 ++ 1".replace(/\+/g, "*"))

Вот такая особенность работы со строкой.

Заменить функцией

Очень полезной особенностью replace является возможность работать с функцией вместо строки замены. Такая функция получает первым аргументом - все совпадение, а последующими аргументами - скобочные группы.

Следующий пример произведет операции вычитания:

var str = "count 36 - 26, 18 - 9"
str = str.replace(/(\d+) - (\d+)/g, function(a,b,c) { return b-c })
alert(str)

Найти все

В javascript нет одного универсального метода для поиска всех совпадений.
Для поиска без запоминания скобочных групп - можно использовать String#match:

var str = "count 36-26, 18-9"
var re =  /(\d+)-(\d+)/g
result = str.match(re)
for(var i=0; i<result.length; i++) alert(result[i])

Как видите, оно исправно ищет все совпадения (флаг 'g' у регулярного выражения обязателен), но при этом не запоминает скобочные группы. Эдакий "облегченный вариант".

Найти все со скобками

В сколько-нибудь сложных задачах важны не только совпадения, но и скобочные группы. Чтобы их найти, предлагается использовать многократный вызов RegExp#exec.

Для этого регулярное выражение должно использовать флаг 'g'. Тогда результат поиска, запомненный в свойстве lastIndex объекта RegExp используется как точка отсчета для следующего поиска:

var str = "count 36-26, 18-9"
var re =  /(\d+)-(\d+)/g
var res
while ( (res = re.exec(str)) != null) {
  alert("Найдено " + res[0] + ":  ("+ res[1]+") и ("+res[2]+")")
  alert("Дальше ищу с позиции "+re.lastIndex)
}

Проверка while( (res = re.exec(str)) != null) нужна т.к. значение res = 0 является хорошим и означает, что вхождение найдено в самом начале строки (поиск успешен). Поэтому необходимо сравнивать именно с null.

Статические свойства

Ну и напоследок - еще одна совсем оригинальная особенность регулярных выражений.

Вот - одна интересная функция.

Запустите ее один раз, запомните результат - и запустите еще раз.

function rere() {
    var re1 = /0/, re2 = new RegExp('0')
    alert([re1.foo, re2.foo])
    re1.foo = 1
    re2.foo = 1
}
rere()

В зависимости от браузера, результат первого запуска может отличаться от второго. На текущий момент, это так для Firefox, Opera. При этом в Internet Explorer все нормально.

С виду функция создает две локальные переменные и не зависит от каких-то внешних факторов.

Почему же разный результат?

Ответ кроется в стандарте ECMAScript, пункт 7.8.5:

Цитата...

A regular expression literal is an input element that is converted to a RegExp object (section 15.10)
when it is scanned. The object is created before evaluation of the containing program or function begins.
Evaluation of the literal produces a reference to that object; it does not create a new object.

То есть, простыми словами, литеральный регэксп не создается каждый раз при вызове var r = /regexp/.
Вместо этого браузер возвращает уже существующий объект, со всеми свойствами, оставшимися от предыдущего запуска.

В отличие от этого, new RegExp всегда создает новый объект, поэтому и ведет себя в примере по-другому.

Еще?

Есть еще особенности?

Напишите в комментарии, и я добавлю их в статью.


Автор: Octane, дата: 18 января, 2010 - 19:17

#permalink

Наверное, стоит упомянуть о lastIndex, из-за которого иногда получаются вот такие, не совсем очевидные, ситуации:

var toLowerCamelCase = function () {
	var expr = /-([a-z])/g;
	return function(prop) {
		return expr.test(prop) ? prop.replace(expr, function () {
			return arguments[1].toUpperCase();
		}) : prop;
	};
}();

alert([
    toLowerCamelCase('background-image'),
    toLowerCamelCase('background-image'),
    toLowerCamelCase('background-image'),
    toLowerCamelCase('background-image')
].join("\n"));

Эффект можно наблюдать в IE и Chrome 4

backgroundImage
background-image
backgroundImage
background-image

Автор: Андрей Сидоров (не зарегистрирован), дата: 18 января, 2010 - 14:24

#permalink

регекспы яваскрипта позаимствовали синтаксис из перла, но реализовали только часть функционала. на сколько я знаю, своего они ничего не придумывали, и в таком случае скорее стоит говорить не об особенностях js-регекспов, а об их отличии от перловых.

а именно:

поддерживаются только три модификатора i,g,m
не поддерживаются модификаторы внутри регекспа (?i) (?-i)
не поддерживаются \A и \Z (начало и конец строки)
нет possessive quantifiers ?+ *+ ++
нет атомарной группировки (?>...)
нет lookbehind assertions (?<=...) (?...)
нет conditionals (?(condition)yes-pattern|no-pattern)
нет комментариев (?#comment)
нет рекурсивной конструкции (?R)

p.s. если не читали, рекомендую почитать книгу Фридла по регекспам - очень способствует пониманию регекспов.
http://www.amazon.com/Mastering-Regular-Expressions-Jeffrey-Friedl/dp/05...


Автор: Rosya (не зарегистрирован), дата: 18 января, 2010 - 15:50

#permalink

Спасибо за рекомендации по поводу комментариев... Но дополнений и исправлений нет, есть только слова благодарности за такую информацию...


Автор: Regent, дата: 19 января, 2010 - 13:35

#permalink

.*? - действительно пробивная штука


Автор: anikey99, дата: 19 января, 2010 - 19:33

#permalink

вопрос почти в тему:
так как выражение replace в js работает только 1 раз -
как посчитать на странице количество bb тегов, в частности, ([url=ссылка]описание[/url] ), и если можно, как заменить такое выражение на желаемый мной текст?


Автор: Сашок (не зарегистрирован), дата: 25 января, 2010 - 13:03

#permalink

Да сложное дело java, а вы платную помощь не оказываете?


Автор: anikey99, дата: 27 января, 2010 - 07:57

#permalink

При конкретной формулировке вопроса и адекватности спрашивающего.

А что мой вопрос от 19 января, 2010 - 19:33 был не адекватен?


Автор: Гость (не зарегистрирован), дата: 19 февраля, 2010 - 21:09

#permalink

Подскажите, пожалуйста.
Делаю плагин autocomplete к jQuery. Не получается сделать проверку на вхождение и замену в строках с символами кириллицы.
Делаю так:

var re = new RegExp('\\b'+text,'gi');
if(re.search(str))
 str.replace(re,'<strong>$1</strong>');

где str — текст текущего элемент списка (в цикле обхожу все элементы),
text — это текст, содержащийся в поле ввода, т.е. подстрока.
С латиницей получается, с кириллицей — нет.




Автор: DmitryRegEx (не зарегистрирован), дата: 2 марта, 2010 - 20:29

#permalink

Подскажите как лучше решить задачу, если есть большой текст и надо произвести замену только одного вхождения подстроки, но при этом не первого (как будет без указания global), а последнего.
То есть, например есть строка "1xy2xy3xy4xy" и надо убрать последнее вхождение "xy", то есть получить "1xy2xy3xy4"
Подскажите, как это реализовать средствами javascript ?


Автор: Гость (не зарегистрирован), дата: 19 июня, 2010 - 18:25

#permalink

можно вот эти слова перевести в java выражения?
привет
пока
как дела
пошол ты
здарова
что делаеш

Буду очень блогодарен


Автор: Гость (не зарегистрирован), дата: 20 июня, 2010 - 09:00

#permalink

Для удаления тега, например span можно написать так:
x=x.replace(/<(\/?)span([^>]*)>/ig,'')
от тега останется только то, что в нём, например от:
Содержимое
останется только "Содержимое"
А как убрать всё целиком и тег и его содержимое?


Автор: Slawaq, дата: 26 августа, 2010 - 01:42

#permalink

то что искал 3 дня по бб кодам, только не давно начал работать с регами из-за это-го плохо понимал, статья супер, примеры идеальны


Автор: Гость (не зарегистрирован), дата: 19 ноября, 2010 - 15:27

#permalink

вы юзаете /i, /gi и т.п., но ничего о них не пишете
вы не находите что неплохо бы добавить их описание ?
или для них здесь есть отдельная страничка ? - тогда киньте ссылку


Автор: Гость (не зарегистрирован), дата: 18 января, 2011 - 23:41

#permalink

Найти все со скобками

Там у вас пример странный, вот например в Вашем же случае все скобочки найти можно просто: "count 36-26, 18-9".match( /(\d+)-(\d+)/g ) и вернется массив из найденых вхождений, в данном случае 2 элемента, почему Вы привели именно такой пример?


Автор: Гость (не зарегистрирован), дата: 21 января, 2011 - 09:03

#permalink

Объясните пожалуйста, как в маску передать переменную - строку.
Заранее спасибо за ответ.


Автор: max7 (не зарегистрирован), дата: 31 января, 2011 - 20:12

#permalink

А как вам это (почти как String.prototype.replace)

RegExp.prototype.reset = function() 
 { 
    this.lastIndex = 0;
    return this;
 };   

 RegExp.prototype.forEach = function(str, fun, scope) 
 { 
    this.reset();
    for(var res = null; (res = this.exec(str)) != null;)
       if(fun.apply(scope, res) === false)
          break;
    return this;
 };

Автор: edd_k, дата: 19 марта, 2011 - 16:49

#permalink

>> Это не совсем особенность, скорее фича, но все же достойная отдельного абзаца.

Нежадный "?" - это не фича js-а. Эту возможность давно поддерживают и php, и perl наверное, и микрософтовская реализация регулярок.


Автор: Гость (не зарегистрирован), дата: 14 апреля, 2011 - 18:07

#permalink

Как можно заполнить массив найдеными числами. Делаю

var re =  /\d+/g
	var res
	while ( (res = re.exec(str)) != null) {
	  ar[i] = res[i];
	  alert(res[i]);
	  i++;
	}

Не получается, заполняется только первый элемент?


Автор: Гость (не зарегистрирован), дата: 21 апреля, 2011 - 16:37

#permalink
var re =  /\d+/g
	var res
	var ar = new Array();
	while ( (res = re.exec(str)) != null) {
	  ar.push(res[i]);
	  alert(res[i]); //добавляемый элемент массива
	  i++;
	}
	alert(ar); //показать массив с найденными числами

Автор: Гость (не зарегистрирован), дата: 2 октября, 2011 - 07:08

#permalink

подправьте секцию "статические свойства" у меня кнопка "запустить" на однострочном коде выдаёт
rere() is not defined

firefox 6.0.2


Автор: Гость (не зарегистрирован), дата: 3 ноября, 2011 - 14:25

#permalink

Доброго времени суток.
Задача: заменить все двойные кавычки " в строке на пробелы, если они не являются частью выражения ";". Пытался так
var pattern = /"(?!;")/g;
var new_str = str.replace(pattern," ");
но данный вариант,удаляя кавычки, от ";" оставляет ";
Буду благодарен за помощь.


Автор: vexdex (не зарегистрирован), дата: 7 ноября, 2011 - 01:08

#permalink

Привет.
Прошу помощи - поиск и замена накладываются при повторном применении....

param = "p2 and s3"
param.replace(/p/g,"models.price=").replace(/s/g,"models.season_ID=")

приводит к
modelmodels.season_ID=.price=2

и как быть, если надо
model.price=2 and models.season_ID=3
?


Автор: oneguy, дата: 5 июня, 2012 - 22:51

#permalink

По поводу статических свойств регулярных выражений:
В 5-ом ECMAScript эту "фичу" уже убрали - теперь при каждом выполнении литерала регулярного выражения создаётся новый объект RegExp.


Автор: Гость (не зарегистрирован), дата: 30 июля, 2012 - 16:50

#permalink

Привет всем. Очень нужна помощь. Есть строка вида text.text.text - curr
в результате выполнения

/^([^\.]*)(\.?(.*)$|$)/.exec(curr);

получается

RegExp.$1
"text"
>>> RegExp.$2
".text.text"
>>> RegExp.$3
"text.text"

Беда в том, что в тексте может быть конструкция вида '/.' которая должна вопсприниматься как текст (text) и вести себя так же. Т.е. регулярка не должна срабатывать по точке если перед точкой есть '/'. Помогите пожалуйста. Вообще не могу придумать как это оформить


Автор: Гость (не зарегистрирован), дата: 28 января, 2013 - 10:55

#permalink

Доброго времени суток, уважаемые специалисты.
Впервые столкнулся с регэкспами... Пока обходился без него, но жизнь заставила).
Не могу сформировать шиблон для задачи:
Нужно проверить, подходит ли строка под шаблон ЧИСЛО.ЧИСЛО
На данный момент додумался вот до этого:

function CheckChain(Chain){
var validRegExp = /^(([0-9\-])+\.)+([0-9]{1,2})+$/;
var rslt = Chain.match(validRegExp);
return rslt;}

Работает, но есть 2 НО:
1) ошибка при выполнении, если Chain=Null (не оч. критично)
2) под шаблон попадаюn также значения типа ЧИСЛО.ЧИСЛО.ЧИСЛО.ЧИСЛО (1.2.17.56), что неправильно.
Подскажите, пожалуйста, где я не прав, и как должен выглядеть шаблон. Буду благодарен за пояснения.
Заранее благодарю всех откликнувшихся.


Автор: Глеб Иваницкий (не зарегистрирован), дата: 27 мая, 2013 - 15:10

#permalink

А как сделать так, чтобы я нажал на текст и открылось такое окно, но с моим текстом?


Автор: demoniqus, дата: 17 августа, 2013 - 08:03

#permalink

Если я не ошибаюсь, то в разделе "Точка и перенос строки" допущена ошибка во второй регулярке.
/\[u\](.*?)\[\/u\]/gim - здесь установлен нежадный поиск
/\[u\]([\s\S]*)\[\/u\]/gim - а вот тут забыли этот нежадный поиск установить и в результате получится инфаркт для чайника))) Правильно будет /\[u\]([\s\S]*?)\[\/u\]/gim


Автор: Гость (не зарегистрирован), дата: 4 октября, 2013 - 16:45

#permalink

Здравствуйте.
Столкнулся с проблемой, не работает правильно регулярное выражение.

Есть строка page/:cat/:name/sort/:subcat/my/:id
Мне нужно из неё получить код между ":" и "/"
Пробую так:

var str = "page/:cat/:name/sort/:subcat/my/:id";
 var myA;
  if((myA = /:(\w+)+/gi.exec(str)) != null) {
                  console.log(myA);
  }

Но, этот код возвращает только первое совпадение "cat", а нужно что бы вернуло все: cat, name, subcat, id


Автор: Гость (не зарегистрирован), дата: 4 октября, 2013 - 17:27

#permalink

Решил проблему, нужно было циклом пройтись.
Вот возможно кому-то понадобится:

var str = "page/:cat/:name/sort/:subcat/my/:id";
var myA;
var re =  /:(\w+)/gi
while((myA = re.exec(key)) != null) {
    console.log(myA[1]);
}

Автор: Гость (не зарегистрирован), дата: 4 октября, 2013 - 17:30

#permalink

Точнее:

var str = "page/:cat/:name/sort/:subcat/my/:id";
var myA;
var re =  /:(\w+)/gi
while((myA = re.exec(str)) != null) {
    console.log(myA[1]);
}

Опечатался


Автор: Suvorov (не зарегистрирован), дата: 27 марта, 2014 - 16:59

#permalink

Уважаемая администрация, код не запускается.

function rere() {
var re1 = /0/, re2 = new RegExp('0')
alert([re1.foo, re2.foo])
re1.foo = 1
re2.foo = 1
}
rere()

К тому же, в FF он работает нормально.


Автор: Гость (не зарегистрирован), дата: 27 августа, 2014 - 13:25

#permalink

"выражение матчит ее от начала и до конца" - а без жаргонизмов-кАлек можно писать, более литературно.


Автор: Василий Степанович (не зарегистрирован), дата: 26 марта, 2015 - 20:42

#permalink

> str = str.replace(/(\d+) - (\d+)/g, function(a,b,c) { return b-c })

А почему здесь в регулярном выражении - 2 аргумента - (\d+) и (\d+),
а в функции 3 аргумента - a, b, c?


Автор: Гость (не зарегистрирован), дата: 26 марта, 2015 - 20:44

#permalink

Прошу прощения. Ответ нашёл в описании:
> Первый параметр всегда содержит полную совпавшую подстроку


 
Текущий раздел
Поиск по сайту
Содержание

Дерево всех статей

Последние темы на форуме
Forum