Aqueles Blog: abril 2011

Utilizar dados armazenados na web em aplicações móveis me parece ser algo essencial. E realmente é. Muitos aplicativos (móveis ou não) de sucesso utilizam essa técnica, que possui diversas maneiras de ser executada. Basicamente, ela consiste em raspar o código HTML ou XML de sites alheios e utilizá-lo nas suas próprias aplicações, organizando-o na forma de uma árvore, e acessando as informações hierarquicamente através das tags. Não é algo muito complicado, mas dá trabalho caso seja feito sem utilizar alguma ferramenta poderosa.

Recentemente, observando o código fonte do Consumo (aplicativo para iPhone que informa o usuário sobre o tráfego de dados, gastos, etc. que por acaso foi criado pelo @felipek), me deparei com o Beautiful Soup.

O Beautiful Soup é um poderoso HTML/XML parser, com recursos que facilitam a vida do desenvolvedor: não é qualquer HTML mal escrito que o impede de organizar os dados em uma árvore de fácil compreensão. Ele também possui métodos dinâmicos e simples para navegar, pesquisar e alterar a árvore.

Mas o que mais me deixou com vontade de utilizar essa ferramente foi o fato de ela utilizar Python, linguagem da qual sou fã e gosto de brincar de vez em quando (apesar de nunca ter estudado muito a fundo..). Em pouco tempo, construí um algorítmo em python que busca o último tweet do usuário informado, e abre-o em uma página no navegador. É algo MUITO simples, mas dá ideia do que é possível fazer. Contém uns erros de codificação, a velha história do utf-8 e mimimi que eu fiquei com preguiça de pesquisar a fundo. :P O código é esse:

# -*- coding: utf-8 -*-



import urllib2

from BeautifulSoup import BeautifulSoup

import os



#Pede ao usuário que informe o user do twitter, e o

#concatena na url que será acessada

user = raw_input('Informe o user do twitter: ')

url = "https://twitter.com/" + user



#cria a árvore

page = urllib2.urlopen(url)

soup = BeautifulSoup(page, fromEncoding="utf-8")



#navegando pela árvore

tweets = soup.findAll('div')

tweets = tweets[12]

tweets = tweets.contents[5]



#cria o arquivo html que guardará o último tweet do usuário

arquivo = open("C:\site.html", "w")

arquivo.write(tweets.ol.span.span.span.prettify())

arquivo.close()

print u'Operação concluída!'



#abre o arquivo no navegador

os.system("C:\site.html")

os.system("exit")

Quem se interessar, aqui está a página do Beautiful Soup, que também contém toda a documentação dele.

Até!

domingo, 3 de abril de 2011

Web Scraping