|
Lewis John Mcgibbney
2012-04-05, 20:45
alessio crisantemi
2012-04-05, 20:56
Lewis John Mcgibbney
2012-04-05, 21:02
Markus Jelsma
2012-04-05, 21:08
alessio crisantemi
2012-04-05, 21:19
alessio crisantemi
2012-04-05, 21:20
alessio crisantemi
2012-04-06, 20:19
Lewis John Mcgibbney
2012-04-06, 20:29
alessio crisantemi
2012-04-06, 20:42
Lewis John Mcgibbney
2012-04-07, 10:09
alessio crisantemi
2012-04-07, 11:21
Lewis John Mcgibbney
2012-04-07, 11:53
alessio crisantemi
2012-04-07, 13:23
alessio crisantemi
2012-04-07, 13:33
Lewis John Mcgibbney
2012-04-07, 19:57
alessio crisantemi
2012-04-07, 22:06
|
-
Re: request about snippets (with attachement)Lewis John Mcgibbney 2012-04-05, 20:45
Hi Alessio,
You need to determine in which field the unwanted content exists. Once you've done this you could write an indexing filter to remove this from your document prior to indexing. Lewis On Thu, Apr 5, 2012 at 9:41 PM, alessio crisantemi < [EMAIL PROTECTED]> wrote: > > > ---------- Messaggio inoltrato ---------- > Da: alessio crisantemi <[EMAIL PROTECTED]> > Date: 05 aprile 2012 22:32 > Oggetto: request about snippets > A: [EMAIL PROTECTED] > > > Dear all, > I configured my Nutch (1.4) for works with Solr (1.4.1) and I crawl and > index with success my website. > > I have only a problem with the results of my researches. > Into all results, the snippets have a raw with a string where I can read > all the categories of my website. I attached a screen shot for explain: > here, the no good raw is "Mercoledì Apr 04 parent"> Home NEWSLOT/VLT > SCOMMESSE ONLINE LOTTERIE Politica Video Live Score ") > > This is a problem, because if solr read for any page the same raw, when my > query is the same word of this raw (eg: 'ONLINe') I have all my solr index > like a result. > > When I can jump this raw during my crawling? Is possible exclude this raw? > thank you in adavande > alessio > > -- *Lewis*
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-05, 20:56
Dear Lewis, thank you for your fast reply.
But just thiat's my problem! I don't compred wich is the field that crates this raw. But I see a date (eg: "Mercoledì Apr 04") followed by the word "parent" anche after ">" and the the ame of categories (Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live Score"). Do you know wich field of default nutch configuration generate the 'parent' raw. as you can see in the attachement, this raw is into the content field, between 'str' tags. .. suggestions? tx a. Il giorno 05 aprile 2012 22:45, Lewis John Mcgibbney < [EMAIL PROTECTED]> ha scritto: > Hi Alessio, > > You need to determine in which field the unwanted content exists. Once > you've done this you could write an indexing filter to remove this from > your document prior to indexing. > > Lewis > > On Thu, Apr 5, 2012 at 9:41 PM, alessio crisantemi < > [EMAIL PROTECTED]> wrote: > > > > > > > ---------- Messaggio inoltrato ---------- > > Da: alessio crisantemi <[EMAIL PROTECTED]> > > Date: 05 aprile 2012 22:32 > > Oggetto: request about snippets > > A: [EMAIL PROTECTED] > > > > > > Dear all, > > I configured my Nutch (1.4) for works with Solr (1.4.1) and I crawl and > > index with success my website. > > > > I have only a problem with the results of my researches. > > Into all results, the snippets have a raw with a string where I can read > > all the categories of my website. I attached a screen shot for explain: > > here, the no good raw is "Mercoledì Apr 04 parent"> Home NEWSLOT/VLT > > SCOMMESSE ONLINE LOTTERIE Politica Video Live Score ") > > > > This is a problem, because if solr read for any page the same raw, when > my > > query is the same word of this raw (eg: 'ONLINe') I have all my solr > index > > like a result. > > > > When I can jump this raw during my crawling? Is possible exclude this > raw? > > thank you in adavande > > alessio > > > > > > > -- > *Lewis* >
-
Re: request about snippets (with attachement)Lewis John Mcgibbney 2012-04-05, 21:02
I can't see any of your attachments as they're not permitted on list.
Can you provide an URL? On Thu, Apr 5, 2012 at 9:56 PM, alessio crisantemi < [EMAIL PROTECTED]> wrote: > Dear Lewis, thank you for your fast reply. > But just thiat's my problem! I don't compred wich is the field that crates > this raw. > > But I see a date (eg: "Mercoledì Apr 04") followed by the word "parent" > anche after ">" and the the ame of categories (Home NEWSLOT/VLT SCOMMESSE > ONLINE LOTTERIE Politica Video Live Score"). > > Do you know wich field of default nutch configuration generate the 'parent' > raw. > > as you can see in the attachement, this raw is into the content field, > between 'str' tags. > .. > suggestions? > tx > a. > > Il giorno 05 aprile 2012 22:45, Lewis John Mcgibbney < > [EMAIL PROTECTED]> ha scritto: > > > Hi Alessio, > > > > You need to determine in which field the unwanted content exists. Once > > you've done this you could write an indexing filter to remove this from > > your document prior to indexing. > > > > Lewis > > > > On Thu, Apr 5, 2012 at 9:41 PM, alessio crisantemi < > > [EMAIL PROTECTED]> wrote: > > > > > > > > > > > ---------- Messaggio inoltrato ---------- > > > Da: alessio crisantemi <[EMAIL PROTECTED]> > > > Date: 05 aprile 2012 22:32 > > > Oggetto: request about snippets > > > A: [EMAIL PROTECTED] > > > > > > > > > Dear all, > > > I configured my Nutch (1.4) for works with Solr (1.4.1) and I crawl and > > > index with success my website. > > > > > > I have only a problem with the results of my researches. > > > Into all results, the snippets have a raw with a string where I can > read > > > all the categories of my website. I attached a screen shot for explain: > > > here, the no good raw is "Mercoledì Apr 04 parent"> Home NEWSLOT/VLT > > > SCOMMESSE ONLINE LOTTERIE Politica Video Live Score ") > > > > > > This is a problem, because if solr read for any page the same raw, when > > my > > > query is the same word of this raw (eg: 'ONLINe') I have all my solr > > index > > > like a result. > > > > > > When I can jump this raw during my crawling? Is possible exclude this > > raw? > > > thank you in adavande > > > alessio > > > > > > > > > > > > -- > > *Lewis* > > > -- *Lewis*
-
Re: request about snippets (with attachement)Markus Jelsma 2012-04-05, 21:08
Seems to me it's just the breadcrumb of the page popping up in Solr's
highlighter snippet? In Thu, 5 Apr 2012 22:02:31 +0100, Lewis John Mcgibbney <[EMAIL PROTECTED]> wrote: > I can't see any of your attachments as they're not permitted on list. > > Can you provide an URL? > > On Thu, Apr 5, 2012 at 9:56 PM, alessio crisantemi < > [EMAIL PROTECTED]> wrote: > >> Dear Lewis, thank you for your fast reply. >> But just thiat's my problem! I don't compred wich is the field that >> crates >> this raw. >> >> But I see a date (eg: "Mercoledì Apr 04") followed by the word >> "parent" >> anche after ">" and the the ame of categories (Home NEWSLOT/VLT >> SCOMMESSE >> ONLINE LOTTERIE Politica Video Live Score"). >> >> Do you know wich field of default nutch configuration generate the >> 'parent' >> raw. >> >> as you can see in the attachement, this raw is into the content >> field, >> between 'str' tags. >> .. >> suggestions? >> tx >> a. >> >> Il giorno 05 aprile 2012 22:45, Lewis John Mcgibbney < >> [EMAIL PROTECTED]> ha scritto: >> >> > Hi Alessio, >> > >> > You need to determine in which field the unwanted content exists. >> Once >> > you've done this you could write an indexing filter to remove this >> from >> > your document prior to indexing. >> > >> > Lewis >> > >> > On Thu, Apr 5, 2012 at 9:41 PM, alessio crisantemi < >> > [EMAIL PROTECTED]> wrote: >> > >> > > >> > > >> > > ---------- Messaggio inoltrato ---------- >> > > Da: alessio crisantemi <[EMAIL PROTECTED]> >> > > Date: 05 aprile 2012 22:32 >> > > Oggetto: request about snippets >> > > A: [EMAIL PROTECTED] >> > > >> > > >> > > Dear all, >> > > I configured my Nutch (1.4) for works with Solr (1.4.1) and I >> crawl and >> > > index with success my website. >> > > >> > > I have only a problem with the results of my researches. >> > > Into all results, the snippets have a raw with a string where I >> can >> read >> > > all the categories of my website. I attached a screen shot for >> explain: >> > > here, the no good raw is "Mercoledì Apr 04 parent"> Home >> NEWSLOT/VLT >> > > SCOMMESSE ONLINE LOTTERIE Politica Video Live Score ") >> > > >> > > This is a problem, because if solr read for any page the same >> raw, when >> > my >> > > query is the same word of this raw (eg: 'ONLINe') I have all my >> solr >> > index >> > > like a result. >> > > >> > > When I can jump this raw during my crawling? Is possible exclude >> this >> > raw? >> > > thank you in adavande >> > > alessio >> > > >> > > >> > >> > >> > -- >> > *Lewis* >> > >> -- Markus Jelsma - CTO - Openindex http://www.linkedin.com/in/markus17 050-8536600 / 06-50258350
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-05, 21:19
what is it 'breadcrumb' Markus?
Il giorno 05 aprile 2012 23:08, Markus Jelsma <[EMAIL PROTECTED]>ha scritto: > Seems to me it's just the breadcrumb of the page popping up in Solr's > highlighter snippet? > > > > In Thu, 5 Apr 2012 22:02:31 +0100, Lewis John Mcgibbney < > [EMAIL PROTECTED]> wrote: > >> I can't see any of your attachments as they're not permitted on list. >> >> Can you provide an URL? >> >> On Thu, Apr 5, 2012 at 9:56 PM, alessio crisantemi < >> [EMAIL PROTECTED]> wrote: >> >> Dear Lewis, thank you for your fast reply. >>> But just thiat's my problem! I don't compred wich is the field that >>> crates >>> this raw. >>> >>> But I see a date (eg: "Mercoledì Apr 04") followed by the word "parent" >>> anche after ">" and the the ame of categories (Home NEWSLOT/VLT SCOMMESSE >>> ONLINE LOTTERIE Politica Video Live Score"). >>> >>> Do you know wich field of default nutch configuration generate the >>> 'parent' >>> raw. >>> >>> as you can see in the attachement, this raw is into the content field, >>> between 'str' tags. >>> .. >>> suggestions? >>> tx >>> a. >>> >>> Il giorno 05 aprile 2012 22:45, Lewis John Mcgibbney < >>> [EMAIL PROTECTED]> ha scritto: >>> >>> > Hi Alessio, >>> > >>> > You need to determine in which field the unwanted content exists. Once >>> > you've done this you could write an indexing filter to remove this from >>> > your document prior to indexing. >>> > >>> > Lewis >>> > >>> > On Thu, Apr 5, 2012 at 9:41 PM, alessio crisantemi < >>> > [EMAIL PROTECTED]> wrote: >>> > >>> > > >>> > > >>> > > ---------- Messaggio inoltrato ---------- >>> > > Da: alessio crisantemi <[EMAIL PROTECTED]> >>> > > Date: 05 aprile 2012 22:32 >>> > > Oggetto: request about snippets >>> > > A: [EMAIL PROTECTED] >>> > > >>> > > >>> > > Dear all, >>> > > I configured my Nutch (1.4) for works with Solr (1.4.1) and I crawl >>> and >>> > > index with success my website. >>> > > >>> > > I have only a problem with the results of my researches. >>> > > Into all results, the snippets have a raw with a string where I can >>> read >>> > > all the categories of my website. I attached a screen shot for >>> explain: >>> > > here, the no good raw is "Mercoledì Apr 04 parent"> Home NEWSLOT/VLT >>> > > SCOMMESSE ONLINE LOTTERIE Politica Video Live Score ") >>> > > >>> > > This is a problem, because if solr read for any page the same raw, >>> when >>> > my >>> > > query is the same word of this raw (eg: 'ONLINe') I have all my solr >>> > index >>> > > like a result. >>> > > >>> > > When I can jump this raw during my crawling? Is possible exclude this >>> > raw? >>> > > thank you in adavande >>> > > alessio >>> > > >>> > > >>> > >>> > >>> > -- >>> > *Lewis* >>> > >>> >>> > -- > Markus Jelsma - CTO - Openindex > http://www.linkedin.com/in/**markus17<http://www.linkedin.com/in/markus17> > 050-8536600 / 06-50258350 >
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-05, 21:20
here a part of results:
[2] Live Score - GiocoNews - Tutto su casinò, poker, giochi online<http://www.gioconews.it/live-score.html> Live Score - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì Apr 04 Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live Score Home Live Score Questa opzione non funziona ... correttamente. Sfortunatamente, il tuo browser non supporta gli Inline Frame Visualizza * Gioco*News sul tuo Smart Phone Detect Version | Versione Mobile | Versione Standard Ripristina configurazione standard ... © Copyright 2012 *Gioco*News.it powered by GNMedia s.r.l. P.iva 01419700552, Tutti i diritti riservati http://www.gioconews.it/live-score.html [3] Curcio (Sapar): "Sviluppo consapevole del gioco da parte di tutti gli operatori" - GiocoNe<http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html> Curcio (Sapar): "Sviluppo consapevole del *gioco* da parte di tutti gli operatori" - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ... ONLINE LOTTERIE Politica Video Live Score Home NEWSLOT/VLT Generale Curcio (Sapar): "Sviluppo consapevole del * gioco* da parte di tutti gli operatori" HOT NEWS Turchi (Aams): ?Scommesse, è far west in Italia ... , ... Serpelloni (Dip. Antidroga): ?Sul *gioco*necessarie... » Servono ?linee di indirizzo comuni a livello nazionale" per riuscire a monitorare il fenom... Curcio (Sapar): "Sviluppo consapevole del *gioco* da... » ?Da ... , ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo Normativa *Gioco* e Fisco Personaggi Flipper Sfoglia Rivista Curcio (Sapar): "Sviluppo consapevole del *gioco* da parte di tutti gli operatori" Scritto da ... Sm Mercoledì 04 Aprile 2012 16:45 ?Da parte della commissione c?è l?intento di approfondire i numeri in possesso e i dati del settore del *gioco*. Da parte nostra abbiamo cercato di chiarire le cifre e http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html [4] Serpelloni (Dip. Antidroga): ?Sul gioco necessarie linee di indirizzo per la cura delle patologie? -<http://www.gioconews.it/generale/serpelloni-dip.-antidroga-sul-gioco-necessarie-linee-di-indirizzo-per-la-cura-delle-patologie-23847.html> Serpelloni (Dip. Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la cura delle patologie? - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì Apr 04 parent"> Home NEWSLOT ... /VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live Score Home Politica Generale Serpelloni (Dip. Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la cura delle patologie? HOT NEWS Turchi (Aams): ?Scommesse ... a tutti gli eccessi, ... Serpelloni (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono ?linee di indirizzo comuni a livello nazionale" per riuscire a monitorare il fenom... Curcio (Sapar): "Sviluppo ... consapevole del *gioco* da... » ?Da parte della commissione c?è l?intento di approfondire i numeri in possesso e i dati de... Scommesse sportive: il 9 aprile apertura anticipat... » Aams comunica che, per la ... montepremi complessivo delle vincite, ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo Normativa *Gioco* e Fisco Personaggi Flipper Sfoglia Rivista Serpelloni (Dip. Antidroga): ?Sul *gioco*necessarie http://www.gioconews.it/generale/serpelloni-dip.-antidroga-sul-gioco-necessarie-linee-di-indirizzo-per-la-cura-delle-patologie-23847.html [5] Generale - GiocoNews - Tutto su casinò, poker, giochi online<http://www.gioconews.it/generale/index.php> Generale - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live Score Home Politica Generale HOT NEWS Turchi ... sensibili e attenti a tutti gli eccessi, ... Serpelloni (Dip. Antidroga): ?Sul *gioco*necessarie... » Servono ?linee di indirizzo comuni a livello nazionale" per riuscire a monitorare il fenom... Curcio (Sapar ... ): "Sviluppo consapevole del *gioco* da... » ?Da parte della commissione c?è l?intento di approfondire i numeri in possesso e i dati de... Scommesse sportive: il 9 aprile apertura anticipat... » Aams comunica che ... previsto, il montepremi complessivo delle vincite, ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo Normativa *Gioco* e Fisco Personaggi Flipper Sfoglia Rivista Generale Filtro Mostra # 5 10 15 20 25 ... 30 50 100 Tutti # Titolo articolo Autore 1 Decreto fiscale: via libera del Senato al maxiemendamento e a tutte le norme sui giochi Amr 2 Serpelloni (Dip. Antidroga): ?Sul *gioco* necessarie linee di http://www.gioconews.it/generale/index.php [6] Video - GiocoNews - Tutto su casinò, poker, giochi online <http://www.gioconews.it/video.html> Video - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live Score Home Video HOT NEWS Turchi (Aams ... a tutti gli eccessi, ... Serpelloni (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono ?linee di indirizzo comuni a livello nazionale" per riuscire a monitorare il fenom... Curcio (Sapar): "Sviluppo ... consapevole del *gioco* da... » ?Da parte della commissione c?è l?intento di approfondire i numeri in possesso e i dati de... Scommesse sportive: il 9 aprile apertura anticipat... » Aams comunica che, per la ... Iori, presidente Conagga, al convegno dedicato al * gioco*... Visualizzazioni: 238 Da: redazione Intervista a Francesco... Categoria: News - Interviste Intervista a Francesco Ginestra presidente di Asso ... Snai Visualizzazioni: 169 Da: redazione Il Presidente Udc Rocco... Categoria: News - Interviste Il Presidente Udc Rocco Buttiglione parla di * gioco* e regolamentazione Visualizzazioni: 192 Da: redazione *Gioco* http://www.gioconews.it/video.html Il giorno 05 aprile 2012 23:02, Lewis John Mcgibbney < [EMAIL PROTECTED]> ha scritto:
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-06, 20:19
any suggestions for my cause?
Il giorno 05 aprile 2012 23:20, alessio crisantemi < [EMAIL PROTECTED]> ha scritto: > here a part of results: > > [2] Live Score - GiocoNews - Tutto su casinò, poker, giochi online<http://www.gioconews.it/live-score.html> Live > Score - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì Apr > 04 Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live Score > Home Live Score Questa opzione non funziona ... correttamente. > Sfortunatamente, il tuo browser non supporta gli Inline Frame Visualizza * > Gioco*News sul tuo Smart Phone Detect Version | Versione Mobile | > Versione Standard Ripristina configurazione standard ... © Copyright 2012 > *Gioco*News.it powered by GNMedia s.r.l. P.iva 01419700552, Tutti i > diritti riservati http://www.gioconews.it/live-score.html [3] Curcio > (Sapar): "Sviluppo consapevole del gioco da parte di tutti gli operatori" - > GiocoNe<http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html> Curcio > (Sapar): "Sviluppo consapevole del *gioco* da parte di tutti gli > operatori" - *Gioco*News - Tutto su casinò, poker, giochi online > Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ... ONLINE LOTTERIE > Politica Video Live Score Home NEWSLOT/VLT Generale Curcio (Sapar): > "Sviluppo consapevole del *gioco* da parte di tutti gli operatori" HOT > NEWS Turchi (Aams): ?Scommesse, è far west in Italia ... , ... Serpelloni > (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono ?linee di > indirizzo comuni a livello nazionale" per riuscire a monitorare il fenom... > Curcio (Sapar): "Sviluppo consapevole del *gioco* da... » ?Da ... , > ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo Normativa *Gioco*e Fisco Personaggi Flipper Sfoglia Rivista Curcio (Sapar): "Sviluppo > consapevole del *gioco* da parte di tutti gli operatori" Scritto da ... > Sm Mercoledì 04 Aprile 2012 16:45 ?Da parte della commissione c?è l?intento > di approfondire i numeri in possesso e i dati del settore del *gioco*. Da > parte nostra abbiamo cercato di chiarire le cifre e > http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html > [4] Serpelloni (Dip. Antidroga): ?Sul gioco necessarie linee di indirizzo > per la cura delle patologie? -<http://www.gioconews.it/generale/serpelloni-dip.-antidroga-sul-gioco-necessarie-linee-di-indirizzo-per-la-cura-delle-patologie-23847.html> Serpelloni > (Dip. Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la cura > delle patologie? - *Gioco*News - Tutto su casinò, poker, giochi online > Mercoledì Apr 04 parent"> Home NEWSLOT ... /VLT SCOMMESSE ONLINE LOTTERIE > Politica Video Live Score Home Politica Generale Serpelloni (Dip. > Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la cura delle > patologie? HOT NEWS Turchi (Aams): ?Scommesse ... a tutti gli eccessi, ... > Serpelloni (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono ?linee > di indirizzo comuni a livello nazionale" per riuscire a monitorare il > fenom... Curcio (Sapar): "Sviluppo ... consapevole del *gioco* da... » > ?Da parte della commissione c?è l?intento di approfondire i numeri in > possesso e i dati de... Scommesse sportive: il 9 aprile apertura > anticipat... » Aams comunica che, per la ... montepremi complessivo delle > vincite, ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo Normativa > *Gioco* e Fisco Personaggi Flipper Sfoglia Rivista Serpelloni (Dip. > Antidroga): ?Sul *gioco* necessarie > http://www.gioconews.it/generale/serpelloni-dip.-antidroga-sul-gioco-necessarie-linee-di-indirizzo-per-la-cura-delle-patologie-23847.html > [5] Generale - GiocoNews - Tutto su casinò, poker, giochi online<http://www.gioconews.it/generale/index.php> Generale > - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì Apr 04 > parent"> Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live > Score Home Politica Generale HOT NEWS Turchi ... sensibili e attenti a
-
Re: request about snippets (with attachement)Lewis John Mcgibbney 2012-04-06, 20:29
It would be easier if you could provide an URL and people can see exactly
what you are struggling with please? 2012/4/6 alessio crisantemi <[EMAIL PROTECTED]> > any suggestions for my cause? > > Il giorno 05 aprile 2012 23:20, alessio crisantemi < > [EMAIL PROTECTED]> ha scritto: > > > here a part of results: > > > > [2] Live Score - GiocoNews - Tutto su casinò, poker, giochi online< > http://www.gioconews.it/live-score.html> Live > > Score - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì Apr > > 04 Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live Score > > Home Live Score Questa opzione non funziona ... correttamente. > > Sfortunatamente, il tuo browser non supporta gli Inline Frame Visualizza > * > > Gioco*News sul tuo Smart Phone Detect Version | Versione Mobile | > > Versione Standard Ripristina configurazione standard ... © Copyright 2012 > > *Gioco*News.it powered by GNMedia s.r.l. P.iva 01419700552, Tutti i > > diritti riservati http://www.gioconews.it/live-score.html [3] Curcio > > (Sapar): "Sviluppo consapevole del gioco da parte di tutti gli > operatori" - > > GiocoNe< > http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html> > Curcio > > (Sapar): "Sviluppo consapevole del *gioco* da parte di tutti gli > > operatori" - *Gioco*News - Tutto su casinò, poker, giochi online > > Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ... ONLINE LOTTERIE > > Politica Video Live Score Home NEWSLOT/VLT Generale Curcio (Sapar): > > "Sviluppo consapevole del *gioco* da parte di tutti gli operatori" HOT > > NEWS Turchi (Aams): ?Scommesse, è far west in Italia ... , ... Serpelloni > > (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono ?linee di > > indirizzo comuni a livello nazionale" per riuscire a monitorare il > fenom... > > Curcio (Sapar): "Sviluppo consapevole del *gioco* da... » ?Da ... , > > ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo Normativa > *Gioco*e Fisco Personaggi Flipper Sfoglia Rivista Curcio (Sapar): "Sviluppo > > consapevole del *gioco* da parte di tutti gli operatori" Scritto da ... > > Sm Mercoledì 04 Aprile 2012 16:45 ?Da parte della commissione c?è > l?intento > > di approfondire i numeri in possesso e i dati del settore del *gioco*. Da > > parte nostra abbiamo cercato di chiarire le cifre e > > > http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html > > [4] Serpelloni (Dip. Antidroga): ?Sul gioco necessarie linee di indirizzo > > per la cura delle patologie? -< > http://www.gioconews.it/generale/serpelloni-dip.-antidroga-sul-gioco-necessarie-linee-di-indirizzo-per-la-cura-delle-patologie-23847.html> > Serpelloni > > (Dip. Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la cura > > delle patologie? - *Gioco*News - Tutto su casinò, poker, giochi online > > Mercoledì Apr 04 parent"> Home NEWSLOT ... /VLT SCOMMESSE ONLINE LOTTERIE > > Politica Video Live Score Home Politica Generale Serpelloni (Dip. > > Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la cura delle > > patologie? HOT NEWS Turchi (Aams): ?Scommesse ... a tutti gli eccessi, > ... > > Serpelloni (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono ?linee > > di indirizzo comuni a livello nazionale" per riuscire a monitorare il > > fenom... Curcio (Sapar): "Sviluppo ... consapevole del *gioco* da... » > > ?Da parte della commissione c?è l?intento di approfondire i numeri in > > possesso e i dati de... Scommesse sportive: il 9 aprile apertura > > anticipat... » Aams comunica che, per la ... montepremi complessivo delle > > vincite, ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo > Normativa > > *Gioco* e Fisco Personaggi Flipper Sfoglia Rivista Serpelloni (Dip. > > Antidroga): ?Sul *gioco* necessarie > > > http://www.gioconews.it/generale/serpelloni-dip.-antidroga-sul-gioco-necessarie-linee-di-indirizzo-per-la-cura-delle-patologie-23847.html *Lewis*
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-06, 20:42
that's can be good?
http://192.168.1.5:8983/WoWSolrWebApp/search?query=gioco&submit=Search Il giorno 06 aprile 2012 22:29, Lewis John Mcgibbney < [EMAIL PROTECTED]> ha scritto: > It would be easier if you could provide an URL and people can see exactly > what you are struggling with please? > > > 2012/4/6 alessio crisantemi <[EMAIL PROTECTED]> > > > any suggestions for my cause? > > > > Il giorno 05 aprile 2012 23:20, alessio crisantemi < > > [EMAIL PROTECTED]> ha scritto: > > > > > here a part of results: > > > > > > [2] Live Score - GiocoNews - Tutto su casinò, poker, giochi online< > > http://www.gioconews.it/live-score.html> Live > > > Score - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì > Apr > > > 04 Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live Score > > > Home Live Score Questa opzione non funziona ... correttamente. > > > Sfortunatamente, il tuo browser non supporta gli Inline Frame > Visualizza > > * > > > Gioco*News sul tuo Smart Phone Detect Version | Versione Mobile | > > > Versione Standard Ripristina configurazione standard ... © Copyright > 2012 > > > *Gioco*News.it powered by GNMedia s.r.l. P.iva 01419700552, Tutti i > > > diritti riservati http://www.gioconews.it/live-score.html [3] > Curcio > > > (Sapar): "Sviluppo consapevole del gioco da parte di tutti gli > > operatori" - > > > GiocoNe< > > > http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html > > > > Curcio > > > (Sapar): "Sviluppo consapevole del *gioco* da parte di tutti gli > > > operatori" - *Gioco*News - Tutto su casinò, poker, giochi online > > > Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ... ONLINE > LOTTERIE > > > Politica Video Live Score Home NEWSLOT/VLT Generale Curcio (Sapar): > > > "Sviluppo consapevole del *gioco* da parte di tutti gli operatori" HOT > > > NEWS Turchi (Aams): ?Scommesse, è far west in Italia ... , ... > Serpelloni > > > (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono ?linee di > > > indirizzo comuni a livello nazionale" per riuscire a monitorare il > > fenom... > > > Curcio (Sapar): "Sviluppo consapevole del *gioco* da... » ?Da ... , > > > ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo Normativa > > *Gioco*e Fisco Personaggi Flipper Sfoglia Rivista Curcio (Sapar): > "Sviluppo > > > consapevole del *gioco* da parte di tutti gli operatori" Scritto da ... > > > Sm Mercoledì 04 Aprile 2012 16:45 ?Da parte della commissione c?è > > l?intento > > > di approfondire i numeri in possesso e i dati del settore del *gioco*. > Da > > > parte nostra abbiamo cercato di chiarire le cifre e > > > > > > http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html > > > [4] Serpelloni (Dip. Antidroga): ?Sul gioco necessarie linee di > indirizzo > > > per la cura delle patologie? -< > > > http://www.gioconews.it/generale/serpelloni-dip.-antidroga-sul-gioco-necessarie-linee-di-indirizzo-per-la-cura-delle-patologie-23847.html > > > > Serpelloni > > > (Dip. Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la > cura > > > delle patologie? - *Gioco*News - Tutto su casinò, poker, giochi online > > > Mercoledì Apr 04 parent"> Home NEWSLOT ... /VLT SCOMMESSE ONLINE > LOTTERIE > > > Politica Video Live Score Home Politica Generale Serpelloni (Dip. > > > Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la cura > delle > > > patologie? HOT NEWS Turchi (Aams): ?Scommesse ... a tutti gli eccessi, > > ... > > > Serpelloni (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono > ?linee > > > di indirizzo comuni a livello nazionale" per riuscire a monitorare il > > > fenom... Curcio (Sapar): "Sviluppo ... consapevole del *gioco* da... » > > > ?Da parte della commissione c?è l?intento di approfondire i numeri in > > > possesso e i dati de... Scommesse sportive: il 9 aprile apertura > > > anticipat... » Aams comunica che, per la ... montepremi complessivo
-
Re: request about snippets (with attachement)Lewis John Mcgibbney 2012-04-07, 10:09
No I mean the URL that you are having trouble with not your solr server and
port number plus search query... If you can provide the URL you wish to remove some particular HTML tag from then at least we can see what it is that you are having trouble with. Sorry if I've not made myself clear enough. Lewis 2012/4/6 alessio crisantemi <[EMAIL PROTECTED]> > or this: > > http://pc-alessio:8983/*WoWSolrWebApp/search?query=gioco&submit=Search* > > > ---------- Messaggio inoltrato ---------- > Da: alessio crisantemi <[EMAIL PROTECTED]> > Date: 06 aprile 2012 22:42 > Oggetto: Re: request about snippets (with attachement) > A: [EMAIL PROTECTED] > > > > that's can be good? > http://192.168.1.5:8983/WoWSolrWebApp/search?query=gioco&submit=Search > Il giorno 06 aprile 2012 22:29, Lewis John Mcgibbney < > [EMAIL PROTECTED]> ha scritto: > > It would be easier if you could provide an URL and people can see exactly > > what you are struggling with please? > > > > > > 2012/4/6 alessio crisantemi <[EMAIL PROTECTED]> > > > > > any suggestions for my cause? > > > > > > Il giorno 05 aprile 2012 23:20, alessio crisantemi < > > > [EMAIL PROTECTED]> ha scritto: > > > > > > > here a part of results: > > > > > > > > [2] Live Score - GiocoNews - Tutto su casinò, poker, giochi online< > > > http://www.gioconews.it/live-score.html> Live > > > > Score - *Gioco*News - Tutto su casinò, poker, giochi online Mercoledì > > Apr > > > > 04 Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live > Score > > > > Home Live Score Questa opzione non funziona ... correttamente. > > > > Sfortunatamente, il tuo browser non supporta gli Inline Frame > > Visualizza > > > * > > > > Gioco*News sul tuo Smart Phone Detect Version | Versione Mobile | > > > > Versione Standard Ripristina configurazione standard ... © Copyright > > 2012 > > > > *Gioco*News.it powered by GNMedia s.r.l. P.iva 01419700552, Tutti i > > > > diritti riservati http://www.gioconews.it/live-score.html [3] > > Curcio > > > > (Sapar): "Sviluppo consapevole del gioco da parte di tutti gli > > > operatori" - > > > > GiocoNe< > > > > > > http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html > > > > > > Curcio > > > > (Sapar): "Sviluppo consapevole del *gioco* da parte di tutti gli > > > > operatori" - *Gioco*News - Tutto su casinò, poker, giochi online > > > > Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ... ONLINE > > LOTTERIE > > > > Politica Video Live Score Home NEWSLOT/VLT Generale Curcio (Sapar): > > > > "Sviluppo consapevole del *gioco* da parte di tutti gli operatori" > HOT > > > > NEWS Turchi (Aams): ?Scommesse, è far west in Italia ... , ... > > Serpelloni > > > > (Dip. Antidroga): ?Sul *gioco* necessarie... » Servono ?linee di > > > > indirizzo comuni a livello nazionale" per riuscire a monitorare il > > > fenom... > > > > Curcio (Sapar): "Sviluppo consapevole del *gioco* da... » ?Da ... , > > > > ottenuto nei... Cronache Esteri Ippica Videogiochi Bingo Normativa > > > *Gioco*e Fisco Personaggi Flipper Sfoglia Rivista Curcio (Sapar): > > "Sviluppo > > > > consapevole del *gioco* da parte di tutti gli operatori" Scritto da > ... > > > > Sm Mercoledì 04 Aprile 2012 16:45 ?Da parte della commissione c?è > > > l?intento > > > > di approfondire i numeri in possesso e i dati del settore del > *gioco*. > > Da > > > > parte nostra abbiamo cercato di chiarire le cifre e > > > > > > > > > > http://www.gioconews.it/generale/curcio-sapar-sviluppo-consapevole-del-gioco-da-parte-di-tutti-gli-operatori-23848.html > > > > [4] Serpelloni (Dip. Antidroga): ?Sul gioco necessarie linee di > > indirizzo > > > > per la cura delle patologie? -< > > > > > > http://www.gioconews.it/generale/serpelloni-dip.-antidroga-sul-gioco-necessarie-linee-di-indirizzo-per-la-cura-delle-patologie-23847.html > > > > > > Serpelloni > > > > (Dip. Antidroga): ?Sul *gioco* necessarie linee di indirizzo per la *Lewis*
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-07, 11:21
no Lewis,
I'm sorry for missunderstanding! But I dont's know this link, beacause this row, it's a fixed raow on my website template. And also if i see the source code of my html home page, I can't see this row. So, I can only read this link on my xml results from solr: this is a snippet between my results: -<leaf label="" id="VF162"> <webpage title="Nuove regole sulle slot machine: la Grecia invia proposta alla Commissione Ue - GiocoNews - Tutto su" rank="30" url=" http://www.gioconews.it/generale/nuove-regole-sulle-slot-machine-la-grecia-invia-proposta-alla-commissione-ue-23813.html"> Nuove regole sulle slot machine: la Grecia invia proposta alla Commissione Ue - GiocoNews - Tutto su casinò, poker, giochi online Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ONLINE ... LOTTERIE Politica Video Live Score Home Esteri Generale Nuove regole sulle slot machine: la Grecia invia proposta alla Commissione Ue HOT NEWS Turchi (Aams): “Scommesse, è far west in Italia: m... » "Non ... ... Cronache Esteri Ippica Videogiochi Bingo Normativa Gioco e Fisco Personaggi Flipper Sfoglia Rivista Nuove regole sulle slot machine: la Grecia invia proposta alla Commissione Ue Scritto da Sm Mercoledì 04 ... : #FF9900; }//-->slot-machine-la-grecia-invia-proposta-alla-commissione-ue-23813.html" target="_blank">Nuove regole ... sulle slot machine: la Grecia invia proposta alla Commissione UeMercoledì 04 Aprile 2012© 2012 - <a href </webpage> </leaf> this is the row is that i don't want on m results: "GiocoNews - Tutto su casinò, poker, giochi online Mercoledì Apr 04 parent"> Home NEWSLOT/VLT SCOMMESSE ONLINE ... LOTTERIE " thanx alessio Il giorno 07 aprile 2012 12:09, Lewis John Mcgibbney < [EMAIL PROTECTED]> ha scritto: > No I mean the URL that you are having trouble with not your solr server and > port number plus search query... > > If you can provide the URL you wish to remove some particular HTML tag from > then at least we can see what it is that you are having trouble with. Sorry > if I've not made myself clear enough. > > Lewis > > 2012/4/6 alessio crisantemi <[EMAIL PROTECTED]> > > > or this: > > > > http://pc-alessio:8983/*WoWSolrWebApp/search?query=gioco&submit=Search* > > > > > > ---------- Messaggio inoltrato ---------- > > Da: alessio crisantemi <[EMAIL PROTECTED]> > > Date: 06 aprile 2012 22:42 > > Oggetto: Re: request about snippets (with attachement) > > A: [EMAIL PROTECTED] > > > > > > > > that's can be good? > > http://192.168.1.5:8983/WoWSolrWebApp/search?query=gioco&submit=Search > > Il giorno 06 aprile 2012 22:29, Lewis John Mcgibbney < > > [EMAIL PROTECTED]> ha scritto: > > > > It would be easier if you could provide an URL and people can see exactly > > > what you are struggling with please? > > > > > > > > > 2012/4/6 alessio crisantemi <[EMAIL PROTECTED]> > > > > > > > any suggestions for my cause? > > > > > > > > Il giorno 05 aprile 2012 23:20, alessio crisantemi < > > > > [EMAIL PROTECTED]> ha scritto: > > > > > > > > > here a part of results: > > > > > > > > > > [2] Live Score - GiocoNews - Tutto su casinò, poker, giochi > online< > > > > http://www.gioconews.it/live-score.html> Live > > > > > Score - *Gioco*News - Tutto su casinò, poker, giochi online > Mercoledì > > > Apr > > > > > 04 Home NEWSLOT/VLT SCOMMESSE ONLINE LOTTERIE Politica Video Live > > Score > > > > > Home Live Score Questa opzione non funziona ... correttamente. > > > > > Sfortunatamente, il tuo browser non supporta gli Inline Frame > > > Visualizza > > > > * > > > > > Gioco*News sul tuo Smart Phone Detect Version | Versione Mobile | > > > > > Versione Standard Ripristina configurazione standard ... © > Copyright > > > 2012 > > > > > *Gioco*News.it powered by GNMedia s.r.l. P.iva 01419700552, Tutti i > > > > > diritti riservati http://www.gioconews.it/live-score.html [3] > > > Curcio > > > > > (Sapar): "Sviluppo consapevole del gioco da parte di tutti gli > > > > operatori" -
-
Re: request about snippets (with attachement)Lewis John Mcgibbney 2012-04-07, 11:53
This is a pretty specific task. Looks like a possible solution would be to
need to implement a parsefilter which disregards some certain text strings... such as that which you provided. What looks horrible is that fact that inside the <leaf> you have a nested <webpage> then nothing else apart from horribly constructed html... if you could call it that. 2012/4/7 alessio crisantemi <[EMAIL PROTECTED]> > -<leaf label="" id="VF162"> <webpage title="Nuove regole sulle slot > machine: la Grecia invia proposta alla Commissione Ue - GiocoNews - Tutto > su" rank="30" url=" > > http://www.gioconews.it/generale/nuove-regole-sulle-slot-machine-la-grecia-invia-proposta-alla-commissione-ue-23813.html > "> > Nuove regole sulle slot machine: la Grecia invia proposta alla Commissione > Ue - GiocoNews - Tutto su casinò, poker, giochi online Mercoledì Apr 04 > parent"> Home NEWSLOT/VLT SCOMMESSE ONLINE ... LOTTERIE Politica Video Live > Score Home Esteri Generale Nuove regole sulle slot machine: la Grecia invia > proposta alla Commissione Ue HOT NEWS Turchi (Aams): “Scommesse, è far west > in Italia: m... » "Non ... ... Cronache Esteri Ippica Videogiochi Bingo > Normativa Gioco e Fisco Personaggi Flipper Sfoglia Rivista Nuove regole > sulle slot machine: la Grecia invia proposta alla Commissione Ue Scritto da > Sm Mercoledì 04 ... : #FF9900; > }//-->slot-machine-la-grecia-invia-proposta-alla-commissione-ue-23813.html" > target="_blank">Nuove regole ... sulle slot machine: la Grecia invia > proposta alla Commissione UeMercoledì 04 Aprile 2012© 2012 - <a href > </webpage> </leaf> >
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-07, 13:23
'horribly html'? that's a bad consstruct on my website or it's a no good
result of my crawling? Il giorno 07 aprile 2012 13:53, Lewis John Mcgibbney < [EMAIL PROTECTED]> ha scritto: > This is a pretty specific task. Looks like a possible solution would be to > need to implement a parsefilter which disregards some certain text > strings... such as that which you provided. > > What looks horrible is that fact that inside the <leaf> you have a nested > <webpage> then nothing else apart from horribly constructed html... if you > could call it that. > > 2012/4/7 alessio crisantemi <[EMAIL PROTECTED]> > > > -<leaf label="" id="VF162"> <webpage title="Nuove regole sulle slot > > machine: la Grecia invia proposta alla Commissione Ue - GiocoNews - Tutto > > su" rank="30" url=" > > > > > http://www.gioconews.it/generale/nuove-regole-sulle-slot-machine-la-grecia-invia-proposta-alla-commissione-ue-23813.html > > "> > > Nuove regole sulle slot machine: la Grecia invia proposta alla > Commissione > > Ue - GiocoNews - Tutto su casinò, poker, giochi online Mercoledì Apr > 04 > > parent"> Home NEWSLOT/VLT SCOMMESSE ONLINE ... LOTTERIE Politica Video > Live > > Score Home Esteri Generale Nuove regole sulle slot machine: la Grecia > invia > > proposta alla Commissione Ue HOT NEWS Turchi (Aams): “Scommesse, è far > west > > in Italia: m... » "Non ... ... Cronache Esteri Ippica Videogiochi Bingo > > Normativa Gioco e Fisco Personaggi Flipper Sfoglia Rivista Nuove regole > > sulle slot machine: la Grecia invia proposta alla Commissione Ue Scritto > da > > Sm Mercoledì 04 ... : #FF9900; > > > }//-->slot-machine-la-grecia-invia-proposta-alla-commissione-ue-23813.html" > > target="_blank">Nuove regole ... sulle slot machine: la Grecia invia > > proposta alla Commissione UeMercoledì 04 Aprile 2012© 2012 - <a href > > </webpage> </leaf> > > >
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-07, 13:33
may be it'd my cause with my schema?
I chose for inex about only title, author and content. can you help me for setting a parsefilter? thank you alessio Il giorno 07 aprile 2012 15:23, alessio crisantemi < [EMAIL PROTECTED]> ha scritto: > 'horribly html'? that's a bad consstruct on my website or it's a no good > result of my crawling? > > Il giorno 07 aprile 2012 13:53, Lewis John Mcgibbney < > [EMAIL PROTECTED]> ha scritto: > > This is a pretty specific task. Looks like a possible solution would be to >> need to implement a parsefilter which disregards some certain text >> strings... such as that which you provided. >> >> What looks horrible is that fact that inside the <leaf> you have a nested >> <webpage> then nothing else apart from horribly constructed html... if you >> could call it that. >> >> 2012/4/7 alessio crisantemi <[EMAIL PROTECTED]> >> >> > -<leaf label="" id="VF162"> <webpage title="Nuove regole sulle slot >> > machine: la Grecia invia proposta alla Commissione Ue - GiocoNews - >> Tutto >> > su" rank="30" url=" >> > >> > >> http://www.gioconews.it/generale/nuove-regole-sulle-slot-machine-la-grecia-invia-proposta-alla-commissione-ue-23813.html >> > "> >> > Nuove regole sulle slot machine: la Grecia invia proposta alla >> Commissione >> > Ue - GiocoNews - Tutto su casinò, poker, giochi online Mercoledì >> Apr 04 >> > parent"> Home NEWSLOT/VLT SCOMMESSE ONLINE ... LOTTERIE Politica Video >> Live >> > Score Home Esteri Generale Nuove regole sulle slot machine: la Grecia >> invia >> > proposta alla Commissione Ue HOT NEWS Turchi (Aams): “Scommesse, è far >> west >> > in Italia: m... » "Non ... ... Cronache Esteri Ippica Videogiochi Bingo >> > Normativa Gioco e Fisco Personaggi Flipper Sfoglia Rivista Nuove regole >> > sulle slot machine: la Grecia invia proposta alla Commissione Ue >> Scritto da >> > Sm Mercoledì 04 ... : #FF9900; >> > >> }//-->slot-machine-la-grecia-invia-proposta-alla-commissione-ue-23813.html" >> > target="_blank">Nuove regole ... sulle slot machine: la Grecia invia >> > proposta alla Commissione UeMercoledì 04 Aprile 2012© 2012 - <a href >> > </webpage> </leaf> >> > >> > >
-
Re: request about snippets (with attachement)Lewis John Mcgibbney 2012-04-07, 19:57
>From the limited HTML that I've seen I can only assume that the offending
xhtml is in the content field. If this is the case then you will need to write a custom plugin implementation that removes this. There is loads of info allowing you to get up to speed with plugins on our wiki.[0] Once you have something that requires help get on to the list and let us know. Lewis [0] http://wiki.apache.org/nutch/PluginCentral On Sat, Apr 7, 2012 at 2:33 PM, alessio crisantemi < [EMAIL PROTECTED]> wrote: > may be it'd my cause with my schema? > I chose for inex about only title, author and content. > > can you help me for setting a parsefilter? > thank you > alessio > >
-
Re: request about snippets (with attachement)alessio crisantemi 2012-04-07, 22:06
thank you agin Lewis,
but do you think that my strange content field it's for my cause? beacuse I disabled the indexing of about all field. this is my schema: <fields> <field name="id" type="string" stored="true" indexed="true"/> <!-- core fields --> <field name="segment" type="string" stored="true" indexed="false"/> <field name="digest" type="string" stored="true" indexed="false"/> <field name="boost" type="float" stored="true" indexed="false"/> <!-- fields for index-basic plugin --> <field name="host" type="url" stored="false" indexed="false"/> <field name="site" type="string" stored="true" indexed="false"/> <field name="url" type="url" stored="true" indexed="false" required="true"/> <field name="content" type="text" stored="true" indexed="true"/> <field name="title" type="text" stored="true" indexed="false"/> <field name="cache" type="string" stored="true" indexed="false"/> <field name="tstamp" type="date" stored="true" indexed="false"/> <!-- fields for index-anchor plugin --> <field name="anchor" type="string" stored="true" indexed="false" multiValued="true"/> <!-- fields for index-more plugin --> <field name="type" type="string" stored="true" indexed="false" multiValued="true"/> <field name="contentLength" type="long" stored="true" indexed="false"/> <field name="lastModified" type="date" stored="false" indexed="false"/> <field name="date" type="date" stored="true" indexed="false"/> <!-- fields for languageidentifier plugin --> <field name="lang" type="string" stored="true" indexed="false"/> <!-- fields for subcollection plugin --> <field name="subcollection" type="string" stored="true" indexed="false" multiValued="true"/> <!-- fields for feed plugin (tag is also used by microformats-reltag)--> <field name="author" type="string" stored="true" indexed="true"/> <field name="tag" type="string" stored="true" indexed="true" multiValued="false"/> <field name="feed" type="string" stored="true" indexed="false"/> <field name="publishedDate" type="date" stored="true" indexed="false"/> <field name="updatedDate" type="date" stored="true" indexed="false"/> <!-- fields for creativecommons plugin --> <field name="cc" type="string" stored="true" indexed="true" multiValued="true"/> </fields> what do you think? alessio Il giorno 07 aprile 2012 21:57, Lewis John Mcgibbney < [EMAIL PROTECTED]> ha scritto: > From the limited HTML that I've seen I can only assume that the offending > xhtml is in the content field. > > If this is the case then you will need to write a custom plugin > implementation that removes this. There is loads of info allowing you to > get up to speed with plugins on our wiki.[0] > > Once you have something that requires help get on to the list and let us > know. > > Lewis > > [0] http://wiki.apache.org/nutch/PluginCentral > > On Sat, Apr 7, 2012 at 2:33 PM, alessio crisantemi < > [EMAIL PROTECTED]> wrote: > > > may be it'd my cause with my schema? > > I chose for inex about only title, author and content. > > > > can you help me for setting a parsefilter? > > thank you > > alessio > > > > > |