domingo, 3 de abril de 2011

Web Scraping

Utilizar dados armazenados na web em aplicações móveis me parece ser algo essencial. E realmente é. Muitos aplicativos (móveis ou não) de sucesso utilizam essa técnica, que possui diversas maneiras de ser executada.  Basicamente, ela consiste em raspar o código HTML ou XML de sites alheios e utilizá-lo nas suas próprias aplicações,  organizando-o na forma de uma árvore, e acessando as informações hierarquicamente através das tags. Não é algo muito complicado, mas dá trabalho caso seja feito sem utilizar alguma ferramenta poderosa.
Recentemente, observando o código fonte do Consumo (aplicativo para iPhone que informa o usuário sobre o tráfego de dados, gastos, etc. que por acaso foi criado pelo @felipek), me deparei com o Beautiful Soup.
O Beautiful Soup é um poderoso HTML/XML parser, com recursos que facilitam a vida do desenvolvedor:  não é qualquer HTML mal escrito que o impede de organizar os dados em uma árvore de fácil compreensão. Ele também possui métodos dinâmicos e simples para navegar, pesquisar e alterar a árvore. 
Mas o que mais me deixou com vontade de utilizar essa ferramente foi o fato de ela utilizar Python, linguagem da qual sou fã e gosto de brincar de vez em quando (apesar de nunca ter estudado muito a fundo..). Em pouco tempo, construí um algorítmo em python que busca o último tweet do usuário informado, e abre-o em uma página no navegador. É algo MUITO simples, mas dá ideia do que é possível fazer. Contém uns erros de codificação, a velha história do utf-8 e mimimi que eu fiquei com preguiça de pesquisar a fundo. :P O código é esse: 


# -*- coding: utf-8 -*-

import urllib2
from BeautifulSoup import BeautifulSoup
import os

#Pede ao usuário que informe o user do twitter, e o
#concatena na url que será acessada
user = raw_input('Informe o user do twitter: ')
url = "https://twitter.com/" + user

#cria a árvore
page = urllib2.urlopen(url)
soup = BeautifulSoup(page, fromEncoding="utf-8")

#navegando pela árvore
tweets = soup.findAll('div')
tweets = tweets[12]
tweets = tweets.contents[5]

#cria o arquivo html que guardará o último tweet do usuário
arquivo = open("C:\site.html", "w")
arquivo.write(tweets.ol.span.span.span.prettify())
arquivo.close()
print u'Operação concluída!'

#abre o arquivo no navegador
os.system("C:\site.html")
os.system("exit")



Quem se interessar, aqui está a página do Beautiful Soup, que também contém toda a documentação dele.
Até!