Crawler называется larbin (
larbin.sourceforge.net/) Нужно научить его преобразовывать url с учетом пары правил, и фильтровать url регулярками (парсить matched и не парсить unmatched).
А также возможно понадобится еще несколько доработок.
Код довольно понятный, написан с учетом возможности масштабирования.