sexta-feira, 17 de julho de 2015

Dados interessantes para análise em R

Hoje, como todo dia, estava eu "viajando" pela internet e dei "de cara" com uma página interessante que analisa um subconjunto de um arquivo de dados famoso (mais sobre ele daqui a pouco) em R.

É claro, como tudo que se refere à internet, uma coisa leva a outra, que leva a outra, etc.... e assim descobri um pacote do R que eu não conhecia que contém dados de vôos originários de New York em 2013. A fonte primária é o "Bureau of Transportation Statistics"do Governo dos EUA.

Então vamos ao que interessa primeiro: os links!

O pacote R se chama "nycityflights13" e sua descrição está em:
https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf

O URL dos dados é:
http://github.com/hadley/nycflights13

Em R pode-se instalar o pacote e chamar o arquivo de dados através do comando:
install.packages("nycflights13", repos='http://cran.us.r-project.org')

A fonte original destes dados é (divirta-se!):
http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236

Uma análise bem interessante destes dados é mostrada em:
http://www.rpubs.com/howelb/32599

E uma versão bem mais básica em
https://welcomedata.wordpress.com/2015/01/27/new-york-flights-dataset/

Divirta-se!




sábado, 24 de janeiro de 2015

Previsões (dos outros) para o mundo tech em 2015

Em primeiro lugar... os créditos: este "post" é um resumo resumidíssimo com muitas pitadas de opiniões próprias do seguinte artigo:

Tech predictions for 2015 that you should actually listen to
Quartz · January 20, 2015

There will be less of this stuff in 2015.(Reuters/Las Vegas Sun/Steve Marcus)Written by

Mobile WebJanuary 20, 2015


E quais são as previsões?

Segundo o autor, que usa o estudo de uma boutique de investimentos especializada em "tech" (http://www.gpbullhound.com/wp-content/uploads/2015/01/GP-Bullhound-Technology-Predictions-2015.pdf), o que vai ser "quente" em 2015 é:


1) Uber, uber e mais uber (e similares, como AirBnb)

2) Aparelhos "inteligentes" passarão a sê-los (de verdade...). Por exemplo, as pulseirinhas para monitorar sua atividade física não precisarão de inputs e serão mais inteligentes. 

Os novos dispositivos serão sensíveis ao contexto e coletarão dados automaticamente a partir de múltiplas fontes. Poderão aprender, fazer recomendações e ,em alguns casos, agir sem a necessidade de interferência de usuários.

Ahh, então minha pulseira da Nike terá que ser esperta e notar quando eu estou dirigindo numa estrada esburacada e sinuosa e não interpretar isso como um exercício vigoroso (por mais que eu quisesse...)

Além disso, e não faltarão letras MAIÚSCULAS...
A "INTERNET OF THINGS" (destes lindos aparelhinhos, dentre outros) é uma maravilhosa oportunidade para os estatísticos, cientistas de dados, etc... Por que? Já imaginaram a quantidades gerados e que precisam ser analisados por cada uma destas maquininhas?? Aliás, já vi em algum lugar, acho que numa das competições do Kaggle (juro que ainda falo sobre isso), a análise sobre um conjunto de dados que buscava identificar se a pessoa estava em movimento, de pé ou sentada a partir dos dados de um smartphone Samsung. 


3) O uso de cartões de crédito vai cair e será substituído por meios eletrônicos. No Brasil deve demorar mais um pouco, não?

4) Novos conteúdos de midia e modelos de distribuição

5) Jogos online crescem ainda mais.

Em 2016 a gente olha para trás e comenta, mas tudo isso me parece bem razoável, vocês não acham?


Ano Novo, post novo...

Faz tanto tempo que quase tinha esquecido como se fazia um "post" neste blog...
Enfim, é tão fácil que não dá para esquecer.

Sei que não bastam boas intenções, mas a ideia em 2015 é escrever "posts" curtos (se é que eu consigo...) sobre as coisas que considero interessante neste oceano da internet.

A seleção de assuntos vai refletir meu interesse no momento, então por favor não espere coerência e linearidade, ok?

O único compromisso é que tentarei mante o foco em assuntos meio "estatísticos", meio "geek", meio "tecnológicos", meio "data science", meio "data science", etc e tal.


domingo, 23 de fevereiro de 2014

APIs e novas funções do Excel 2013 para acessar dados na internet

Faz tempo, né?
Mas espero que este post seja bem interessante para os meus dois leitores...

O tema: algo que vem me fascinando há algum tempo - APIs ou "Application Programmable Interfaces", Interfaces que muitos sites tem para facilitar a consulta e o uso dos dados neles hospedados.

Em muitos casos, para usar uma API, basta o registro do seu e-mail (verdadeiro, pois nele você receberá um link para confirmação ou a sua própria senha (key) de acesso).

Os termos para utilização variam muito de site para site, e o número de consultas que é permitido no plano gratuito também.

E o que eu quero fazer?

Mostrar como você pode utilizar o Excel 2013 que tem 3 lindas funções para Web para fazer consultas direto a uma API, SEM NECESSIDADE de qualquer programação!

Neste caso usarei a API do site  http://www.wunderground.com/, que fornece dados gratuitos sobre o tempo atual e a previsão ds próximos dias. Os limites de uso para o registro gratuito são bem apertados, confesso que "estourei" o meu pois você pode fazer só 10 consultas por minuto, e fiz bem mais que isso.

Qual era meu objetivo?


Descobrir as condições do tempo em diversas cidades brasileiras. Veja o resultado a seguir para algumas cidades. Note que eu usei os códigos dos aeroportos. Por exemplo, CGH é o aeroporto de Congonhas, e GRU é o de Guarulhos, e ambos servem São Paulo. Por que fiz isso? Em alguns casos o site do wunderground nao conseguia achar os dados para a cidade, e tive a ideia de procurar por aeroporto. Bingo! Existiam informações para todos os aeroportos que eu queria...


Agora que você já viu que funciona, vamos ao "como fazer"...

Atenção - o help do Excel 2013 em inglês tem um "how to" excelente para o uso destas novas funções, e inclusive usa o mesmo site como exemplo, mas procura por dados nos EUA, o que leva a uma consulta um pouco diferente.

Supondo que você já tenha se registrado no site e tenha obtido sua API_key, e a colocado numa célula da planilha que eu convenientemente chamei de (adivinhe?) API_key, o próximo passo é escrever o comando:

=SERVIÇOWEB("http://api.wunderground.com/api/"&API_Key&"/geolookup/conditions/forecast/q/Brazil/"&C$4&".xml")

O que a célula C$4 contém? Na planilha que eu acabei de mostrar para vocês, o código do aeroporto, por exemplo, SDU para o Santos Dumont.

O resultado da função SERVIÇOWEB acima é um arquivo .xml que tem um MONTE de informações sobre o local que você está investigando, inclusive a previsão dos próximos dias. Esta função SERVIÇOWEB é talvez a mais importante das 3 novas funções para Web do Excel 2013, e em seguida mostraremos outra.

Suponha que o resultado da função SERVIÇOWEB acima esteja na célula C3 da sua planilha.

Como eu falei, o conteúdo desta célula C3 é um arquivo .xml, no qual você tem que "pescar" a informação que te interessa (e este tem sido o meu grande problema). Para isso use a função FILTROXML, a segunda das 3 novas do Excel 2013.

Por exemplo:
=FILTROXML(C$3;"//local_time_rfc822")
Fornece a data e horário da consulta. No caso da imagem neste post, o resultado é:
Sun, 23 Feb 2014 15:16:32 -0300

Em resumo, a sintaxe da função FILTROXML é: FILTROXML(cél. que contem o arquivo xml, xpath).

E onde está a encrenca? Em definir o xpath...
No meu caso está sendo meio tentativa e erro - funciona mais ou menos como estrutura de diretórios e subdiretórios e existem aplicativos que "pegam" um arquivo .xml e te dizem qual o xpath correto para o "pedaço" de informação que você quer. Em teoria... na prática não consegui fazer funcionar para mim!

O post está meio grande e eu vou me despedindo, mas antes gostaria de dizer que:

1) O Yahoo tem uma API maravilhosa (e grátis), inclusive com uma linguagem de programação moleza, que é uma parente de SQL mas é uma obviedade! Lindo!

2) Existe um número enorme (e crescente) de APIs. Neste momento em que escrevo o post, o site: www.programmableweb.com  lista 11063 APIs, sendo que 53 foram adicionadas nos últimos 7 ias e 208 nos últimos 30 dias. Isso deve significar algo, não é?

3) É claro que você pode programar as suas chamadas às APIs. Em R existe um pacote XML, mas eu ainda não usei. Ex



terça-feira, 2 de julho de 2013

StatAce - R via browser

Ainda em versão beta, mas com uma interface bastante agradável como vocês podem ver.

Disponível em www.statace.com - o registro é necessário para importar e salvar arquivos.




domingo, 23 de dezembro de 2012

Blogs e sites sobre a linguagem R em português

Abaixo alguns links de páginas dedicadas à linguagem R em português e espanhol. A lista não pretende ser exaustiva, é apenas um ponto de partida para quem detesta ler manuais.

O manual "oficial" (em inglês) na página do projeto R está em: http://cran.r-project.org/doc/manuals/R-lang.html

Na página oficial do R existem vários documentos, um deles é a seguinte apostila:

http://cran.r-project.org/doc/contrib/Provete-Estatistica_aplicada.pdf

Os links a seguir apresentam tutoriais variados e aulas em português:

http://www.academia.edu/1739126/Introducao_a_Programacao_R

http://aolinto-r.blogspot.com.br/

http://leg.ufpr.br/~paulojus/embrapa/Rembrapa/

Achei este blog particularmente interessante - dê uma olhada em alguns dos aplicativos que ele menciona, inclusive o de análise de dados do Twitter e o de dados financeiros da Bloomberg: http://www.estudarcomputacao.com/2010/09/breve-introducao-linguagem-r-e-seus.html

Aqui existem comandos básicos da linguagem R: http://andersonmedeiros.com/2010/06/08/comandos-basicos-do-sistema-estatistico-r/

Este link apresenta notas de aula de estatística aplicada ao sensoriamento remoto e inclui códigos em R, dentre outros: http://www.dpi.inpe.br/~camilo/estatistica/aulas.html

Este é o Blog: aprenda a usar o R-http://www.r-bloggers.com/lang/portuguese/378

Neste link há um curso introdutório de R: http://leg.ufpr.br/Rpira/Rpira/

http://www.feferraz.net/files_/Rlang-PT.pdf  (introdução ao R, versão traduzida do manual)

http://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o) - página na Wikipedia em português sobre o R

http://pt.wikibooks.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o) - página no Wikibooks em português sobre o R

http://www.mobileread.mobi/forums/showthread.php?t=67441 (neste link pode-se baixar o documento "Introdução à Programação em R" de Luís Torgo, que eu APENAS disponibilizo aqui também, através do slideshare na "iframe" abaixo:




http://estatisticanor.forumeiros.com/t12-livros-sobre-programacao-r

http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:03_apostila:programar_ale

http://www.slideshare.net/andycds/linguagem-r que está, para facilitar, colocado na "iframe" a seguir: