🚀 go-pugleaf

RetroBBS NetNews Server

Inspired by RockSolid Light RIP Retro Guy

Thread View: pl.comp.lang.ruby
5 messages
5 total messages Started by =?ISO-8859-2?Q?W Mon, 23 Mar 2009 14:57
=?ISO-8859-2?Q?obróbka_html?
#1204
Author: =?ISO-8859-2?Q?W
Date: Mon, 23 Mar 2009 14:57
18 lines
319 bytes
Mam pytanie, czy s� jakie� proste sposoby obr�bki html?
�ci�gam stron� i chce wyizolowac np.:

<td class="slon">
...
</td>

albo

nastepujace po sobie
<a href="(.*)">
.*
<img src=".*">

i oczywi�cie wyizolowac nazwy grafik i url.

Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie?

Re: =?ISO-8859-2?Q?obróbka_html?
#1205
Author: =?ISO-8859-2?Q?R
Date: Mon, 23 Mar 2009 18:05
27 lines
590 bytes
Wojciech Fryby�u pisze:
> Mam pytanie, czy s� jakie� proste sposoby obr�bki html?
> �ci�gam stron� i chce wyizolowac np.:
>
> <td class="slon">
> ...
> </td>
>
> albo
>
> nastepujace po sobie
> <a href="(.*)">
> .*
> <img src=".*">
>
> i oczywi�cie wyizolowac nazwy grafik i url.
>
> Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie?

Hpricot, Nokogiri - obczaj te gemy i przyk�ady na ich stronach domowych.

Inna opcja to regexpy - je�li piszesz w Rubym to musisz je zna� :).

--
Rados�aw Bu�at
http://radarek.jogger.pl - m�j blog

Re: =?iso-8859-2?Q?obróbka_html?
#1206
Author: =?iso-8859-2?B?U
Date: Mon, 23 Mar 2009 20:24
29 lines
879 bytes
On Mon, 23 Mar 2009 18:05:23 +0100, Rados�aw Bu�at <radarrek@poczta.fm>
wrote:
>> Mam pytanie, czy s� jakie� proste sposoby obr�bki html?
>> �ci�gam stron� i chce wyizolowac np.:
>>  <td class="slon">
>> ...
>> </td>
>>  albo
>>  nastepujace po sobie
>> <a href="(.*)">
>> .*
>> <img src=".*">
>>  i oczywi�cie wyizolowac nazwy grafik i url.
>>  Mo�e jest jakies zwierze co przeszukuje DOM albo co� w tym gu�cie?
>
> Hpricot, Nokogiri - obczaj te gemy i przyk�ady na ich stronach domowych.
>
> Inna opcja to regexpy - je�li piszesz w Rubym to musisz je zna� :).

regexpy to w ogolnym przypadku bardzo kiepskie narzedzie do parsowania
HTML, XML itp. ciezko jest w regexpie obsluzyc zagniezdzanie elementow,
ich rozne znaczenie w zaleznosci od kontekstu itp.

pzdr
	szeryf

--
Przemys�aw ,,Szeryf'' Kowalczyk :: http://szeryf.wordpress.com/

Re: obróbka html
#1208
Author: Wojciech Piekuto
Date: Sun, 26 Apr 2009 05:35
32 lines
757 bytes
On Mar 23, 3:57 pm, Wojciech Fryby¶u <wfru8548...@pocztaNO-
SPAM.iUSUNTOnteria.pl> wrote:
> Mam pytanie, czy s± jakie¶ proste sposoby obróbki html?
> ¶ci±gam stronê i chce wyizolowac np.:
>
> <td class="slon">
> ...
> </td>
>
> albo
>
> nastepujace po sobie
> <a href="(.*)">
> .*
> <img src=".*">
>
> i oczywi¶cie wyizolowac nazwy grafik i url.
>
> Mo¿e jest jakies zwierze co przeszukuje DOM albo co¶ w tym gu¶cie?

Oprócz Hpricot i Nokogiri, wypróbuj te¿ Mechanize.

Je¶li u¿ywasz Mechanize/Nokogiri upewnij siê, ¿e posiadasz najnowsz±
stabiln± wersjê libxml2 w systemie, starsze wersje mog± mieæ problem z
poprawn± obs³ug± kodowania znaków.

--
Wojciech Piekutowski
http://amberbit.com

Re: obróbka html
#1210
Author: forumz@o2.pl
Date: Tue, 28 Apr 2009 08:15
3 lines
103 bytes
jest jeszcze LibXML ... mimo to najlepsza opcja to Hpricot ... zero
problemów , dzia³a z ruby 1.9

Thread Navigation

This is a paginated view of messages in the thread with full content displayed inline.

Messages are displayed in chronological order, with the original post highlighted in green.

Use pagination controls to navigate through all messages in large threads.

Back to All Threads