Thread View: pl.comp.lang.ruby
5 messages
5 total messages
Started by =?ISO-8859-2?Q?W
Mon, 23 Mar 2009 14:57
=?ISO-8859-2?Q?obróbka_html?
Author: =?ISO-8859-2?Q?W
Date: Mon, 23 Mar 2009 14:57
Date: Mon, 23 Mar 2009 14:57
18 lines
319 bytes
319 bytes
Mam pytanie, czy s� jakie� proste sposoby obr�bki html? �ci�gam stron� i chce wyizolowac np.: <td class="slon"> ... </td> albo nastepujace po sobie <a href="(.*)"> .* <img src=".*"> i oczywi�cie wyizolowac nazwy grafik i url. Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie?
Re: =?ISO-8859-2?Q?obróbka_html?
Author: =?ISO-8859-2?Q?R
Date: Mon, 23 Mar 2009 18:05
Date: Mon, 23 Mar 2009 18:05
27 lines
590 bytes
590 bytes
Wojciech Fryby�u pisze: > Mam pytanie, czy s� jakie� proste sposoby obr�bki html? > �ci�gam stron� i chce wyizolowac np.: > > <td class="slon"> > ... > </td> > > albo > > nastepujace po sobie > <a href="(.*)"> > .* > <img src=".*"> > > i oczywi�cie wyizolowac nazwy grafik i url. > > Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie? Hpricot, Nokogiri - obczaj te gemy i przyk�ady na ich stronach domowych. Inna opcja to regexpy - je�li piszesz w Rubym to musisz je zna� :). -- Rados�aw Bu�at http://radarek.jogger.pl - m�j blog
Re: =?iso-8859-2?Q?obróbka_html?
Author: =?iso-8859-2?B?U
Date: Mon, 23 Mar 2009 20:24
Date: Mon, 23 Mar 2009 20:24
29 lines
879 bytes
879 bytes
On Mon, 23 Mar 2009 18:05:23 +0100, Rados�aw Bu�at <radarrek@poczta.fm> wrote: >> Mam pytanie, czy s� jakie� proste sposoby obr�bki html? >> �ci�gam stron� i chce wyizolowac np.: >> <td class="slon"> >> ... >> </td> >> albo >> nastepujace po sobie >> <a href="(.*)"> >> .* >> <img src=".*"> >> i oczywi�cie wyizolowac nazwy grafik i url. >> Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie? > > Hpricot, Nokogiri - obczaj te gemy i przyk�ady na ich stronach domowych. > > Inna opcja to regexpy - je�li piszesz w Rubym to musisz je zna� :). regexpy to w ogolnym przypadku bardzo kiepskie narzedzie do parsowania HTML, XML itp. ciezko jest w regexpie obsluzyc zagniezdzanie elementow, ich rozne znaczenie w zaleznosci od kontekstu itp. pzdr szeryf -- Przemys�aw ,,Szeryf'' Kowalczyk :: http://szeryf.wordpress.com/
Re: obróbka html
Author: Wojciech Piekuto
Date: Sun, 26 Apr 2009 05:35
Date: Sun, 26 Apr 2009 05:35
32 lines
757 bytes
757 bytes
On Mar 23, 3:57 pm, Wojciech Fryby¶u <wfru8548...@pocztaNO- SPAM.iUSUNTOnteria.pl> wrote: > Mam pytanie, czy s± jakie¶ proste sposoby obróbki html? > ¶ci±gam stronê i chce wyizolowac np.: > > <td class="slon"> > ... > </td> > > albo > > nastepujace po sobie > <a href="(.*)"> > .* > <img src=".*"> > > i oczywi¶cie wyizolowac nazwy grafik i url. > > Mo¿e jest jakies zwierze co przeszukuje DOM albo co¶ w tym gu¶cie? Oprócz Hpricot i Nokogiri, wypróbuj te¿ Mechanize. Je¶li u¿ywasz Mechanize/Nokogiri upewnij siê, ¿e posiadasz najnowsz± stabiln± wersjê libxml2 w systemie, starsze wersje mog± mieæ problem z poprawn± obs³ug± kodowania znaków. -- Wojciech Piekutowski http://amberbit.com
Re: obróbka html
Author: forumz@o2.pl
Date: Tue, 28 Apr 2009 08:15
Date: Tue, 28 Apr 2009 08:15
3 lines
103 bytes
103 bytes
jest jeszcze LibXML ... mimo to najlepsza opcja to Hpricot ... zero problemów , dzia³a z ruby 1.9
Thread Navigation
This is a paginated view of messages in the thread with full content displayed inline.
Messages are displayed in chronological order, with the original post highlighted in green.
Use pagination controls to navigate through all messages in large threads.
Back to All Threads