Realizzazione di web crawler, web spider e bot

Garda Informatica è una software house specializzata nello sviluppo, progettazione e realizzazione di procedure automatiche di estrazione dati da siti web come: web crawler, web spider e bot.

Le soluzioni informatiche di information brokering realizzate da Garda Informatica utilizzando la tecnologia degli headless browser, ovvero dei software automatici che interagiscono con i siti internet nello stesso modo di un utente in carne ed ossa.

I bot realizzati da Garda Informatica possono estrarre dati da qualsiasi tipo di sito web indipendentemente dalla tecnologia utilizzata (PHP, ASP, AJAX, Javascript, ecc.), inoltre sono in grado di replicare tutti i tipi di interazioni come login, navigazione, compilazione di form, ecc.

I dati estratti in modo automatico possono essere salvati su semplici file Excel o inseriti in Database, inoltre è possibile realizzare delle interfacce specifiche per la consultazione rapida dei dati storicizzati.

Vantaggi dei nostri crawler#

I crawler che sviluppiamo hanno le seguenti caratteristiche.

Chiavi in Mano

Realizziamo il crawler che estrae le informazioni dal sito web di interesse del cliente e lo eseguiamo sulla nostra infrastruttura informatica. Il cliente riceve direttamente con una cadenza concordata i dati estratti nel formato che preferisce, in questo modo non deve preoccuparsi della gestione dei server, della schedulazione dei bot e di tutti gli aspetti tecnici.

  • tecnologia cloud computing: l'infrastruttura scala in base alla quantità di pagine web da elaborare
  • invio dati estratti via email, con upload ftp o scritti direttamente su database. Su richiesta è possibile anche sviluppare dei software gestionali che permettano una consultazione agevole dei dati estratti con possibilità di inserire annotazioni, apportare modifiche, ecc.
  • il cliente non deve preoccuparsi della manutenzione dell'infrastruttura informatica
  • estrazioni periodiche e schedulabili con cadenza giornaliera, settimanale o mensile
  • storicizzazione: è possibile avere sempre l'ultima versione aggiornata dei dati estratti o su richiesta è possibile mantenere la storicità dei dati, ovvero è possibile vedere come sono stati modificati nel tempo.

Affidabili

I crawler realizzati da Garda Informatica sono sviluppati con il preciso scopo di funzionare giorno e notte in modalità automatica.

  • programmazione difensiva: nella creazione dei crawler facciamo uso della "programmazione difensiva" ovvero non si fanno assunzioni circa il formato dei dati estratti dai siti web. Tali dati infatti potrebbero essere inseriti manualmente da qualcuno senza rispettare alcun vincolo. Per tale ragione ogni dato estratto viene validato per verificare che vengano estratti solo dati corretti.
  • veloci: un crawler in condizioni normali è in grado di elaborare più di 20'000 pagine in meno di 8 ore. La velocità di estrazione dei dati può essere calibrata a piacere tenendo presente che va mantenuto un tradeoff tra la velocità di esecuzione e il numero di richieste che vengono fatte ai siti da elaborare.
  • instancabili: a differenza degli umani i crawler o i bot non si stancano, ripetono gli stessi passi all'infinito sempre con lo stesso ritmo.
  • supervisionati: i crawler realizzati da Garda Informatica vengono supervisionati da altri software detti watchdog (cani da guardia) che supervisionano il corretto funzionamento dei crawler.

Dotati di Intelligenza Artificiale

I bot e i crawler progettati da Garda Informatica includono semplici logiche di Intelligenza Artificiale come ad esempio il riconoscimento di date scritte in vari modi, pattern per i numeri di telefono, le email, gli indirizzi, gli appellativi Sig. Sig.ra, ecc.

  • Headless: grazie alla tecnologia headless vengono realizzati dei bot che sono a tutti gli effetti dei browser programmabili privi di interfaccia utente. Con questa tecnologia un sito web non può sapere se le richieste che riceve arrivano da un browser come Google Chrome utilizzato da un operatore umano, oppure se le richieste vengono inviate da un browser headless comandato da un software di intelligenza artificiale.
  • I bot sviluppati possono navigare i siti internet con qualsiasi tipo di interazione. Possono ad esempio effettuare procedure di login, di compilazione form, di navigazione elenchi paginati, ricerche, ecc.
  • Le attività di web scraping agiscono su qualsiasi tipo di dato. Ad esempio è possibile estrarre qualunque testo da una pagina web, effettuare il download e il salvataggio di immagini, documenti word, excel e di qualunque altro tipo di file.
  • Tutti i tipi di tecnologie web: i web spider di fatto sono dei browser senza interfaccia utente, di conseguenza sono compatibili con tutte le tecnologie web sia client side che server side come ad esempio: Javascript, HTML, CSS, AJAX, PHP, ASP, Java, ecc.

Per approfondire

Web Scraping, Crawler, Bot: cosa sono e come si implementano? Crawler per monitorare i prezzi della concorrenza

Portfolio#

Case History: Gestionale con Web Scraping di Aste Immobiliari

Per cliente operante nel settore delle aste immobiliari abbiamo sviluppato un sistema composto da BOT per l'estrazione e la storicizzazione dei dati presenti sulle banche dati delle aste immobiliari e un gestionale che consente di consultare i dati archiviati, filtrarli in modo puntuale e supportare i flussi operativi del cliente come ad esempio la postalizzazione.

Case History: Crawler Aste Giudiziarie

Per importante azienda del Nord Italia abbiamo sviluppato una soluzione per il recupero automatico di dati da famosi portali online di aste giudiziarie.

Vai all'elenco completo

Tecnologie#

Prezzi#

Il costo di una soluzione di estrazione dati si divide in un COSTO DI SVILUPPO della soluzione una tantum PIÙ un CANONE MENSILE per l'estrazione dei dati.

Il costo di sviluppo varia in base alla complessità del portale da sottoporre a scansione. Il canone del servizio mesile di estrazione varia invece in base alla frequenza di estrazione e alla quantità di dati da estrarre.

I prezzi riportati di seguito vanno intesi come A PARTIRE DA e IVA ESCLUSA.

Sviluppo Crawler

€ 1'000,00 / portale
  • Crawler headless
  • programmazione difensiva
  • semplici logiche di intelligenza artificiale
Contattaci

Esecuzione Crawler

€ 100,00 / mese
  • infrastruttura cloud computing scalabile
  • esecuzione periodica
  • esecuzione monitorata
Contattaci

Esperienza#

In media ogni cliente ci affida lo sviluppo di 2 progetti a dimostrazione della nostra serietà e competenza e della sua soddisfazione.

Anni di attività
8
Progetti realizzati
129
Clienti soddisfatti
60

Clienti/utilizzatori finali#

Le nostre soluzioni fanno crescere il business delle seguenti realtà

Focus di Garda Informatica#

Garda Informatica è una software house specializzata nello sviluppo di software personalizzato.

I software sviluppati da Garda Informatica comprendono gestionali personalizzati, software verticali, App iOS/Android, web bot crawler, integrazioni con software ERP, interfacce operatore per l'automazione industriale, algoritmi di visione artificiale, integrazione di software di terze parti ed estensioni a pacchetti open source come Joomla e Wordpress.

Comune denominatore di tutti i software sviluppati sono le tecnologie web che permettono lo sviluppo di software longevo, affidabile, manutenibile, scalabile, ubiquo e facile da usare. Prediligiamo gli standard aperti e il software open source per garantire longevità e interoperabilità ai nostri progetti.

Il nostri clienti tipo sono le aziende PMI o le micro imprese italiane che, per via dei loro flussi di lavoro innovativi, non trovano software a pacchetto adatti alle loro esigenze. Specialmente nel campo dei servizi, dove il software è una parte importante della qualità del servizio offerto, le aziende si rivolgono a noi per realizzare soluzioni su misura.

Negli anni abbiamo messo a punto una serie di tecnologie che ci consentono di realizzare soluzioni affidabili in tempi rapidi.

Garda Informatica opera principalmente nella provincia di Brescia e nel nord Italia.

Chi siamo#

Siamo due ingegneri informatici nonché fratelli, con la passione per la programmazione. Sviluppare software è quello che amiamo fare da quando ci regalarono il nostro primo personal computer: un commodore 64 che nostro padre, anch'egli ingegnere, acquistò nel lontato 1984 e con cui abbiamo cominciato a fare i nostri primi esperimenti. In più di 30 anni ne è passata di acqua sotto i ponti dell'informatica, ma la nostra passione e la nostra curiosità per questo "paese delle meraviglie" resta immutata.

Ing. Lorenzo Chiodi

Posizione: Senior developer
Campi di interesse: Database, gestionali/ERP, web, web scraping, app Android, sviluppo frontend.

Ing. Giovanni Chiodi

Posizione: Senior developer
Campi di interesse: Algoritmi, reti, linux/cloud hosting, computer vision, app iOS, sviluppo backend.

Storia#

Di seguito i principali avanzamenti tecnologici raggiunti da quando siamo partiti.

Perché scegliere noi#


Siamo trasparenti

Le nostre offerte sono chiare e puntuali, non hanno costi nascosti e non generano mai sorprese per il Cliente. Leggi i nostri Termini di servizio.

Siamo flessibili

Una volta che il Cliente ci ha spiegato il suo problema siamo in grado di proporre una soluzione che rispetti il budget e i tempi richiesti.

Siamo dei professionisti

Da più di 10 anni ci occupiamo di sviluppo software su misura.

Siamo divulgativi

Trasferiamo volentieri ai nostri Clienti tutta la conoscenza e tutto il materiale necessario perché diventino autonomi: sharing is caring.

Siamo oggettivi

Per ogni soluzione che proponiamo evidenziamo pregi e difetti in modo che i nostri Clienti possano fare una scelta consapevole.

Perché non scegliere noi#


Non andiamo di fretta

Per fare le cose fatte bene serve tempo. In genere lo sviluppo di un progetto su misura può richiedere qualche mese di lavoro.

Non seguiamo le mode

Tendiamo sempre a prediligere tecnologia mature e scelte conservative per minimizzare i rischi dei nostri Clienti.

Non andiamo in giro

Ci possiamo incontrare di persona per conoscerci e/o per definire lo stato di avanzamento del progetto, ma il lavoro lo svolgiamo dal nostro ufficio.

Non entriamo in società

Il nostro business è lo sviluppo software.

Non firmiamo contratti

Pur mantenendo la riservatezza su quanto ci vorrai raccontare, non firmeremo NDA, accordi di riservatezza o contratti in generale.

Contattaci#

Ti risponderemo il prima possibile. I campi marcati con * sono obbligatori. Inviando i dati della form accetti le condizioni sulla privacy riportate in calce a questo sito.

Attendere prego...

Dove siamo#

Indirizzo: Via Padana Superiore 82/i - 25080 Mazzano (Brescia)

Telefono: 030 68 98 477

Email: info@gardainformatica.it

Ultime dal Blog#

Vai all'elenco completo

Promemoria sui Cookie e sulla Privacy

Leggi l'informativa
closeIcona closesearchIcona searchmore vertIcona more vertmenuIcona menulinkIcona linkcheckIcona checkplaceIcona placephoneIcona phoneemailIcona email