?

Log in

No account? Create an account

Крик души

« previous entry | next entry »
Oct. 9th, 2012 | 09:00 pm

К счастью не мой. Возникла довольно специфичная проблема с парсингом html регулярными выражениями.
В поисках ответа - наткнулся на это:
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags

Читать ответ набравший 4к+ репутации. Остальные комментарии там тоже доставляют.

Link | Leave a comment |

Comments {7}

MYem (Max Yemets)

(no subject)

from: myem
date: Oct. 9th, 2012 08:25 pm (UTC)
Link

OMG, SOS, а мужики-то и я не знаем, парсим и парсим потихоньку хтмл-ный контент, да, регекспами, и тоннами перерабатываем :)))

Вобщем, рыдалЪ

Reply | Thread

Греческая рожа

(no subject)

from: golovashevich
date: Oct. 9th, 2012 09:12 pm (UTC)
Link

Этому ответу сто лет в субботу.

Поддержу предыдущего оратора: а мы-то и не знаем и продолжаем парсить (весьма успешно).

Reply | Parent | Thread

Alex Semenyaka

(no subject)

from: fotos
date: Oct. 9th, 2012 09:31 pm (UTC)
Link

Ну, то что полноценно html не парсится [только ] regex'ом - это как бы написано везде. Второй вопрос, что если регексы дополнить обвязкой на ЯВУ - типа условий, циклов и прочего - то проблема обходится. Ну или html подрезать, чтобы грамматику-то упростить. Ну то есть "на коленке" можно, конечно. Но тоннами-то зачем? Нормальных парсеров еще не изобрели? :)

Reply | Parent | Thread

MYem (Max Yemets)

(no subject)

from: myem
date: Oct. 10th, 2012 08:23 am (UTC)
Link

Под специфические задачи временами проще написать свой специфический парсер с регекспами и прочим добром.

А вообще, да, знаю парочку с селекторами а-ля jQuery, не говоря уже о том, что валидный ХТМЛ какой-нибудь php успешно разберёт посредством какого-нибудь DOMXpath или simplexml и их комбинаций.

Reply | Parent | Thread

Греческая рожа

(no subject)

from: golovashevich
date: Oct. 10th, 2012 11:04 am (UTC)
Link

В тех случаях, где я сталкивался, речь шла в основном о том, чтобы быстро вытащить структурированные записи из готовых страниц (иногда логов). Или что-то вроде этого. RegEx'ов вполне хватало (иначе это была бы стрельба из пушки по воробьям).

Про полноценный парсинг никто и не спорит.

Reply | Parent | Thread

semenyaka

(no subject)

from: semenyaka
date: Oct. 10th, 2012 11:51 am (UTC)
Link

Не, ну вы молодцы. Ну то есть как если бы встретив фразу "большая часть населения Земного шара никогда не была в Харькове" отвечать - что за ерунда, я прямо в нем живу! :)

Reply | Parent | Thread

Греческая рожа

(no subject)

from: golovashevich
date: Oct. 10th, 2012 12:29 pm (UTC)
Link

Я тебя чем-то обидел?

Reply | Parent | Thread