Особенности регулярных выражений в Javascript
Регулярные выражения в javascript немного странные. Вроде - перловые, обычные, но с подводными камнями, на которые натыкаются даже опытные javascript-разработчики.
Эта статья ставит целью перечислить неожиданные фишки и особенности RegExp в краткой и понятной форме.
Общую информацию о регулярных выражениях в javascript вы можете найти в статье Регулярные выражения.
Для поиска в многострочном режиме почти все модификации перловых регэкспов используют специальный multiline-флаг.
И javascript здесь не исключение.
Попробуем же сделать поиск и замену многострочного вхождения. Скажем, будем заменять [u] ... [/u] на тэг подчеркивания: <u>:
function bbtagit(text) {
text = text.replace(/\[u\](.*?)\[\/u\]/gim, '<u>$1</u>')
return text
}
var line = "[u]мой\n текст[/u]"
alert( bbtagit(line) )
Попробуйте запустить. Заменяет? Как бы не так!
Дело в том, что в javascript мультилайн режим (флаг m) влияет только на символы ^ и $, которые начинают матчиться с началом и концом строки, а не всего текста.
Точка по-прежнему - любой символ, кроме новой строки. В javascript нет флага, который устанавливает мультилайн-режим для точки. Для того, чтобы заматчить совсем что угодно - используйте [\s\S].
Работающий вариант:
function bbtagit(text) {
text = text.replace(/\[u\]([\s\S]*)\[\/u\]/gim, '<u>$1</u>')
return text
}
var line = "[u]мой\n текст[/u]"
alert( bbtagit(line) )
Это не совсем особенность, скорее фича, но все же достойная отдельного абзаца.
Все регулярные выражения в javascript - жадные. То есть, выражение старается отхватить как можно больший кусок строки.
Например, мы хотим заменить все открывающие тэги <a>. На что и почему - не так важно.
text = '1 <A href="#">...</A> 2'
text = text.replace(/<A(.*)>/, 'TEST')
alert(text)
При запуске вы увидите, что заменяется не открывающий тэг, а вся ссылка, выражение матчит ее от начала и до конца.
Это происходит из-за того, что точка-звездочка в "жадном" режиме пытается захватить как можно больше, в нашем случае - это как раз до последнего >.
Последний символ > точка-звездочка не захватывает, т.к. иначе не будет совпадения.
Как вариант решения используют квадратные скобки: [^>]:
text = '1 <A href="#">...</A> 2'
text = text.replace(/<A([^>]*)>/, 'TEST')
alert(text)
Это работает. Но самым удобным вариантом является переключение точки-звездочки в нежадный режим. Это осуществляется простым добавлением знака "?" после звездочки.
В нежадном режиме точка-звездочка пустит поиск дальше сразу, как только нашла совпадение:
text = '1 <A href="#">...</A> 2'
text = text.replace(/<A(.*?)>/, 'TEST')
alert(text)
В некоторых языках программирования можно переключить жадность на уровне всего регулярного выражения, флагом.
В javascript это сделать нельзя.. Вот такая особенность. А вопросительный знак после звездочки рулит - честное слово.
Иногда нужно в самом паттерне поиска обратиться к предыдущей его части.
Например, при поиске BB-тагов, то есть строк вида [u]...[/u], [b]...[/b] и [s]...[/s]. Или при поиске атрибутов, которые могут быть в одинарных кавычках или двойных.
Обращение к предыдущей части паттерна в javascript осуществляется как \1, \2 и т.п., бэкслеш + номер скобочной группы:
text = ' [b]a [u]b[/u] c [/b] '
var reg = /\[([bus])\](.*?)\[\//*u*/\1/*/u*/\]/
text = text.replace(reg, '<$1>$2</$1>')
alert(text)
Обращение к скобочной группе в строке замены идет уже через доллар: $1. Не знаю, почему, наверное так удобнее..
P.S. Понятно, что при таком способе поиска bb-тагов придется пропустить текст через замену несколько раз - пока результат не перестанет отличаться от оригинала.
Эти две задачи решаются в javascript принципиально по-разному.
Начнем с "простого".
Для замены всех вхождений используется метод String#replace.
Он интересен тем, что допускает первый аргумент - регэксп или строку.
Если первый аргумент - строка, то будет осуществлен поиск подстроки, без преобразования в регулярное выражение.
Попробуйте:
alert("2 ++ 1".replace("+", "*"))
Каков результат? Как, заменился только один плюс, а не два? Да, вот так.
Чтобы заменить все вхождения, String#replace придется использовать в режиме регулярного выражения.
В режиме регулярного выражения плюс придется заэкранировать, но зато replace заменит все вхождения (при указании флага g):
alert("2 ++ 1".replace(/\+/g, "*"))
Вот такая особенность работы со строкой.
Очень полезной особенностью replace является возможность работать с функцией вместо строки замены. Такая функция получает первым аргументом - все совпадение, а последующими аргументами - скобочные группы.
Следующий пример произведет операции вычитания:
var str = "count 36 - 26, 18 - 9"
str = str.replace(/(\d+) - (\d+)/g, function(a,b,c) { return b-c })
alert(str)
В javascript нет одного универсального метода для поиска всех совпадений.
Для поиска без запоминания скобочных групп - можно использовать String#match:
var str = "count 36-26, 18-9"
var re = /(\d+)-(\d+)/g
result = str.match(re)
for(var i=0; i<result.length; i++) alert(result[i])
Как видите, оно исправно ищет все совпадения (флаг 'g' у регулярного выражения обязателен), но при этом не запоминает скобочные группы. Эдакий "облегченный вариант".
В сколько-нибудь сложных задачах важны не только совпадения, но и скобочные группы. Чтобы их найти, предлагается использовать многократный вызов RegExp#exec.
Для этого регулярное выражение должно использовать флаг 'g'. Тогда результат поиска, запомненный в свойстве lastIndex объекта RegExp используется как точка отсчета для следующего поиска:
var str = "count 36-26, 18-9"
var re = /(\d+)-(\d+)/g
var res
while ( (res = re.exec(str)) != null) {
alert("Найдено " + res[0] + ": ("+ res[1]+") и ("+res[2]+")")
alert("Дальше ищу с позиции "+re.lastIndex)
}
Проверка while( (res = re.exec(str)) != null) нужна т.к. значение res = 0 является хорошим и означает, что вхождение найдено в самом начале строки (поиск успешен). Поэтому необходимо сравнивать именно с null.
Ну и напоследок - еще одна совсем оригинальная особенность регулярных выражений.
Вот - одна интересная функция.
Запустите ее один раз, запомните результат - и запустите еще раз.
function rere() {
var re1 = /0/, re2 = new RegExp('0')
alert([re1.foo, re2.foo])
re1.foo = 1
re2.foo = 1
}
rere()
В зависимости от браузера, результат первого запуска может отличаться от второго. На текущий момент, это так для Firefox, Opera. При этом в Internet Explorer все нормально.
С виду функция создает две локальные переменные и не зависит от каких-то внешних факторов.
Почему же разный результат?
Ответ кроется в стандарте ECMAScript, пункт 7.8.5:
Цитата...
A regular expression literal is an input element that is converted to a RegExp object (section 15.10)
when it is scanned. The object is created before evaluation of the containing program or function begins.
Evaluation of the literal produces a reference to that object; it does not create a new object.
То есть, простыми словами, литеральный регэксп не создается каждый раз при вызове var r = /regexp/.
Вместо этого браузер возвращает уже существующий объект, со всеми свойствами, оставшимися от предыдущего запуска.
В отличие от этого, new RegExp всегда создает новый объект, поэтому и ведет себя в примере по-другому.
Есть еще особенности?
Напишите в комментарии, и я добавлю их в статью.
|
Автор: Octane, дата: 18 января, 2010 - 19:17
#permalinkНаверное, стоит упомянуть о lastIndex, из-за которого иногда получаются вот такие, не совсем очевидные, ситуации:
var toLowerCamelCase = function () { var expr = /-([a-z])/g; return function(prop) { return expr.test(prop) ? prop.replace(expr, function () { return arguments[1].toUpperCase(); }) : prop; }; }(); alert([ toLowerCamelCase('background-image'), toLowerCamelCase('background-image'), toLowerCamelCase('background-image'), toLowerCamelCase('background-image') ].join("\n"));Эффект можно наблюдать в IE и Chrome 4
Автор: Андрей Сидоров (не зарегистрирован), дата: 18 января, 2010 - 14:24
#permalinkрегекспы яваскрипта позаимствовали синтаксис из перла, но реализовали только часть функционала. на сколько я знаю, своего они ничего не придумывали, и в таком случае скорее стоит говорить не об особенностях js-регекспов, а об их отличии от перловых.
а именно:
поддерживаются только три модификатора i,g,m
не поддерживаются модификаторы внутри регекспа (?i) (?-i)
не поддерживаются \A и \Z (начало и конец строки)
нет possessive quantifiers ?+ *+ ++
нет атомарной группировки (?>...)
нет lookbehind assertions (?<=...) (?...)
нет conditionals (?(condition)yes-pattern|no-pattern)
нет комментариев (?#comment)
нет рекурсивной конструкции (?R)
p.s. если не читали, рекомендую почитать книгу Фридла по регекспам - очень способствует пониманию регекспов.
http://www.amazon.com/Mastering-Regular-Expressions-Jeffrey-Friedl/dp/05...
Автор: Rosya (не зарегистрирован), дата: 18 января, 2010 - 15:50
#permalinkСпасибо за рекомендации по поводу комментариев... Но дополнений и исправлений нет, есть только слова благодарности за такую информацию...
Автор: Regent, дата: 19 января, 2010 - 13:35
#permalink.*? - действительно пробивная штука
Автор: anikey99, дата: 19 января, 2010 - 19:33
#permalinkвопрос почти в тему:
так как выражение replace в js работает только 1 раз -
как посчитать на странице количество bb тегов, в частности, ([url=ссылка]описание[/url] ), и если можно, как заменить такое выражение на желаемый мной текст?
Автор: Сашок (не зарегистрирован), дата: 25 января, 2010 - 13:03
#permalinkДа сложное дело java, а вы платную помощь не оказываете?
Автор: anikey99, дата: 27 января, 2010 - 07:57
#permalinkПри конкретной формулировке вопроса и адекватности спрашивающего.
А что мой вопрос от 19 января, 2010 - 19:33 был не адекватен?
Автор: Гость (не зарегистрирован), дата: 19 февраля, 2010 - 21:09
#permalinkПодскажите, пожалуйста.
Делаю плагин autocomplete к jQuery. Не получается сделать проверку на вхождение и замену в строках с символами кириллицы.
Делаю так:
var re = new RegExp('\\b'+text,'gi'); if(re.search(str)) str.replace(re,'<strong>$1</strong>');где str — текст текущего элемент списка (в цикле обхожу все элементы),
text — это текст, содержащийся в поле ввода, т.е. подстрока.
С латиницей получается, с кириллицей — нет.
Автор: DmitryRegEx (не зарегистрирован), дата: 2 марта, 2010 - 20:29
#permalinkПодскажите как лучше решить задачу, если есть большой текст и надо произвести замену только одного вхождения подстроки, но при этом не первого (как будет без указания global), а последнего.
То есть, например есть строка "1xy2xy3xy4xy" и надо убрать последнее вхождение "xy", то есть получить "1xy2xy3xy4"
Подскажите, как это реализовать средствами javascript ?
Автор: Гость (не зарегистрирован), дата: 19 июня, 2010 - 18:25
#permalinkможно вот эти слова перевести в java выражения?
привет
пока
как дела
пошол ты
здарова
что делаеш
Буду очень блогодарен
Автор: Гость (не зарегистрирован), дата: 20 июня, 2010 - 09:00
#permalinkДля удаления тега, например span можно написать так:
x=x.replace(/<(\/?)span([^>]*)>/ig,'')
от тега останется только то, что в нём, например от:
Содержимое
останется только "Содержимое"
А как убрать всё целиком и тег и его содержимое?
Автор: Slawaq, дата: 26 августа, 2010 - 01:42
#permalinkто что искал 3 дня по бб кодам, только не давно начал работать с регами из-за это-го плохо понимал, статья супер, примеры идеальны
Автор: Гость (не зарегистрирован), дата: 19 ноября, 2010 - 15:27
#permalinkвы юзаете /i, /gi и т.п., но ничего о них не пишете
вы не находите что неплохо бы добавить их описание ?
или для них здесь есть отдельная страничка ? - тогда киньте ссылку
Автор: Гость (не зарегистрирован), дата: 18 января, 2011 - 23:41
#permalinkНайти все со скобками
Там у вас пример странный, вот например в Вашем же случае все скобочки найти можно просто: "count 36-26, 18-9".match( /(\d+)-(\d+)/g ) и вернется массив из найденых вхождений, в данном случае 2 элемента, почему Вы привели именно такой пример?
Автор: Гость (не зарегистрирован), дата: 21 января, 2011 - 09:03
#permalinkОбъясните пожалуйста, как в маску передать переменную - строку.
Заранее спасибо за ответ.
Автор: max7 (не зарегистрирован), дата: 31 января, 2011 - 20:12
#permalinkА как вам это (почти как String.prototype.replace)
RegExp.prototype.reset = function() { this.lastIndex = 0; return this; }; RegExp.prototype.forEach = function(str, fun, scope) { this.reset(); for(var res = null; (res = this.exec(str)) != null;) if(fun.apply(scope, res) === false) break; return this; };Автор: edd_k, дата: 19 марта, 2011 - 16:49
#permalink>> Это не совсем особенность, скорее фича, но все же достойная отдельного абзаца.
Нежадный "?" - это не фича js-а. Эту возможность давно поддерживают и php, и perl наверное, и микрософтовская реализация регулярок.
Автор: Гость (не зарегистрирован), дата: 14 апреля, 2011 - 18:07
#permalinkКак можно заполнить массив найдеными числами. Делаю
var re = /\d+/g var res while ( (res = re.exec(str)) != null) { ar[i] = res[i]; alert(res[i]); i++; }Не получается, заполняется только первый элемент?
Автор: Гость (не зарегистрирован), дата: 21 апреля, 2011 - 16:37
#permalinkvar re = /\d+/g var res var ar = new Array(); while ( (res = re.exec(str)) != null) { ar.push(res[i]); alert(res[i]); //добавляемый элемент массива i++; } alert(ar); //показать массив с найденными числамиАвтор: Гость (не зарегистрирован), дата: 2 октября, 2011 - 07:08
#permalinkподправьте секцию "статические свойства" у меня кнопка "запустить" на однострочном коде выдаёт
rere() is not defined
firefox 6.0.2
Автор: Гость (не зарегистрирован), дата: 3 ноября, 2011 - 14:25
#permalinkДоброго времени суток.
Задача: заменить все двойные кавычки " в строке на пробелы, если они не являются частью выражения ";". Пытался так
var pattern = /"(?!;")/g;
var new_str = str.replace(pattern," ");
но данный вариант,удаляя кавычки, от ";" оставляет ";
Буду благодарен за помощь.
Автор: vexdex (не зарегистрирован), дата: 7 ноября, 2011 - 01:08
#permalinkПривет.
Прошу помощи - поиск и замена накладываются при повторном применении....
param = "p2 and s3"
param.replace(/p/g,"models.price=").replace(/s/g,"models.season_ID=")
приводит к
modelmodels.season_ID=.price=2
и как быть, если надо
model.price=2 and models.season_ID=3
?
Автор: oneguy, дата: 5 июня, 2012 - 22:51
#permalinkПо поводу статических свойств регулярных выражений:
В 5-ом ECMAScript эту "фичу" уже убрали - теперь при каждом выполнении литерала регулярного выражения создаётся новый объект RegExp.
Автор: Гость (не зарегистрирован), дата: 30 июля, 2012 - 16:50
#permalinkПривет всем. Очень нужна помощь. Есть строка вида text.text.text - curr
в результате выполнения
получается
Беда в том, что в тексте может быть конструкция вида '/.' которая должна вопсприниматься как текст (text) и вести себя так же. Т.е. регулярка не должна срабатывать по точке если перед точкой есть '/'. Помогите пожалуйста. Вообще не могу придумать как это оформить
Автор: Гость (не зарегистрирован), дата: 28 января, 2013 - 10:55
#permalinkДоброго времени суток, уважаемые специалисты.
Впервые столкнулся с регэкспами... Пока обходился без него, но жизнь заставила).
Не могу сформировать шиблон для задачи:
Нужно проверить, подходит ли строка под шаблон ЧИСЛО.ЧИСЛО
На данный момент додумался вот до этого:
function CheckChain(Chain){ var validRegExp = /^(([0-9\-])+\.)+([0-9]{1,2})+$/; var rslt = Chain.match(validRegExp); return rslt;}Работает, но есть 2 НО:
1) ошибка при выполнении, если Chain=Null (не оч. критично)
2) под шаблон попадаюn также значения типа ЧИСЛО.ЧИСЛО.ЧИСЛО.ЧИСЛО (1.2.17.56), что неправильно.
Подскажите, пожалуйста, где я не прав, и как должен выглядеть шаблон. Буду благодарен за пояснения.
Заранее благодарю всех откликнувшихся.
Автор: Глеб Иваницкий (не зарегистрирован), дата: 27 мая, 2013 - 15:10
#permalinkА как сделать так, чтобы я нажал на текст и открылось такое окно, но с моим текстом?
Автор: demoniqus, дата: 17 августа, 2013 - 08:03
#permalinkЕсли я не ошибаюсь, то в разделе "Точка и перенос строки" допущена ошибка во второй регулярке.
/\[u\](.*?)\[\/u\]/gim - здесь установлен нежадный поиск
/\[u\]([\s\S]*)\[\/u\]/gim - а вот тут забыли этот нежадный поиск установить и в результате получится инфаркт для чайника))) Правильно будет /\[u\]([\s\S]*?)\[\/u\]/gim
Автор: Гость (не зарегистрирован), дата: 4 октября, 2013 - 16:45
#permalinkЗдравствуйте.
Столкнулся с проблемой, не работает правильно регулярное выражение.
Есть строка page/:cat/:name/sort/:subcat/my/:id
Мне нужно из неё получить код между ":" и "/"
Пробую так:
var str = "page/:cat/:name/sort/:subcat/my/:id"; var myA; if((myA = /:(\w+)+/gi.exec(str)) != null) { console.log(myA); }Но, этот код возвращает только первое совпадение "cat", а нужно что бы вернуло все: cat, name, subcat, id
Автор: Гость (не зарегистрирован), дата: 4 октября, 2013 - 17:27
#permalinkРешил проблему, нужно было циклом пройтись.
Вот возможно кому-то понадобится:
var str = "page/:cat/:name/sort/:subcat/my/:id"; var myA; var re = /:(\w+)/gi while((myA = re.exec(key)) != null) { console.log(myA[1]); }Автор: Гость (не зарегистрирован), дата: 4 октября, 2013 - 17:30
#permalinkТочнее:
var str = "page/:cat/:name/sort/:subcat/my/:id"; var myA; var re = /:(\w+)/gi while((myA = re.exec(str)) != null) { console.log(myA[1]); }Опечатался
Автор: Suvorov (не зарегистрирован), дата: 27 марта, 2014 - 16:59
#permalinkУважаемая администрация, код не запускается.
function rere() {
var re1 = /0/, re2 = new RegExp('0')
alert([re1.foo, re2.foo])
re1.foo = 1
re2.foo = 1
}
rere()
К тому же, в FF он работает нормально.
Автор: Гость (не зарегистрирован), дата: 27 августа, 2014 - 13:25
#permalink"выражение матчит ее от начала и до конца" - а без жаргонизмов-кАлек можно писать, более литературно.
Автор: Василий Степанович (не зарегистрирован), дата: 26 марта, 2015 - 20:42
#permalink> str = str.replace(/(\d+) - (\d+)/g, function(a,b,c) { return b-c })
А почему здесь в регулярном выражении - 2 аргумента - (\d+) и (\d+),
а в функции 3 аргумента - a, b, c?
Автор: Гость (не зарегистрирован), дата: 26 марта, 2015 - 20:44
#permalinkПрошу прощения. Ответ нашёл в описании:
> Первый параметр всегда содержит полную совпавшую подстроку