=?ISO-8859-2?Q?obróbka_html?

Thread View: pl.comp.lang.ruby

5 messages

[T] Back to Threads [V] Tree View [G] Group Articles

5 total messages Started by =?ISO-8859-2?Q?W Mon, 23 Mar 2009 14:57

#1204

Author: =?ISO-8859-2?Q?W
Date: Mon, 23 Mar 2009 14:57

18 lines
319 bytes

Mam pytanie, czy s� jakie� proste sposoby obr�bki html?
�ci�gam stron� i chce wyizolowac np.:

<td class="slon">
...
</td>

albo

nastepujace po sobie
<a href="(.*)">
.*
<img src=".*">

i oczywi�cie wyizolowac nazwy grafik i url.

Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie?

Re: =?ISO-8859-2?Q?obróbka_html?

#1205

Author: =?ISO-8859-2?Q?R
Date: Mon, 23 Mar 2009 18:05

27 lines
590 bytes

Wojciech Fryby�u pisze:
> Mam pytanie, czy s� jakie� proste sposoby obr�bki html?
> �ci�gam stron� i chce wyizolowac np.:
>
> <td class="slon">
> ...
> </td>
>
> albo
>
> nastepujace po sobie
> <a href="(.*)">
> .*
> <img src=".*">
>
> i oczywi�cie wyizolowac nazwy grafik i url.
>
> Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie?

Hpricot, Nokogiri - obczaj te gemy i przyk�ady na ich stronach domowych.

Inna opcja to regexpy - je�li piszesz w Rubym to musisz je zna� :).

--
Rados�aw Bu�at
http://radarek.jogger.pl - m�j blog

Re: =?iso-8859-2?Q?obróbka_html?

#1206

Author: =?iso-8859-2?B?U
Date: Mon, 23 Mar 2009 20:24

29 lines
879 bytes

On Mon, 23 Mar 2009 18:05:23 +0100, Rados�aw Bu�at <radarrek@poczta.fm>
wrote:
>> Mam pytanie, czy s� jakie� proste sposoby obr�bki html?
>> �ci�gam stron� i chce wyizolowac np.:
>>  <td class="slon">
>> ...
>> </td>
>>  albo
>>  nastepujace po sobie
>> <a href="(.*)">
>> .*
>> <img src=".*">
>>  i oczywi�cie wyizolowac nazwy grafik i url.
>>  Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie?
>
> Hpricot, Nokogiri - obczaj te gemy i przyk�ady na ich stronach domowych.
>
> Inna opcja to regexpy - je�li piszesz w Rubym to musisz je zna� :).

regexpy to w ogolnym przypadku bardzo kiepskie narzedzie do parsowania
HTML, XML itp. ciezko jest w regexpie obsluzyc zagniezdzanie elementow,
ich rozne znaczenie w zaleznosci od kontekstu itp.

pzdr
	szeryf

--
Przemys�aw ,,Szeryf'' Kowalczyk :: http://szeryf.wordpress.com/

Re: obróbka html

#1208

Author: Wojciech Piekuto
Date: Sun, 26 Apr 2009 05:35

32 lines
757 bytes

On Mar 23, 3:57 pm, Wojciech Fryby¶u <wfru8548...@pocztaNO-
SPAM.iUSUNTOnteria.pl> wrote:
> Mam pytanie, czy s± jakie¶ proste sposoby obróbki html?
> ¶ci±gam stronê i chce wyizolowac np.:
>
> <td class="slon">
> ...
> </td>
>
> albo
>
> nastepujace po sobie
> <a href="(.*)">
> .*
> <img src=".*">
>
> i oczywi¶cie wyizolowac nazwy grafik i url.
>
> Mo¿e jest jakies zwierze co przeszukuje DOM albo co¶ w tym gu¶cie?

Oprócz Hpricot i Nokogiri, wypróbuj te¿ Mechanize.

Je¶li u¿ywasz Mechanize/Nokogiri upewnij siê, ¿e posiadasz najnowsz±
stabiln± wersjê libxml2 w systemie, starsze wersje mog± mieæ problem z
poprawn± obs³ug± kodowania znaków.

--
Wojciech Piekutowski
http://amberbit.com

Re: obróbka html

#1210

Author: forumz@o2.pl
Date: Tue, 28 Apr 2009 08:15

3 lines
103 bytes

jest jeszcze LibXML ... mimo to najlepsza opcja to Hpricot ... zero
problemów , dzia³a z ruby 1.9

Thread Navigation

This is a paginated view of messages in the thread with full content displayed inline.

Messages are displayed in chronological order, with the original post highlighted in green.

Use pagination controls to navigate through all messages in large threads.

Back to All Threads