Artigos Interaction South America 2010

A
n
a
i
sd
oI
I
C
o
n
g
r
e
s
s
oI
n
t
e
r
n
a
c
i
o
n
a
l
d
e
D
e
s
i
g
nd
eI
n
t
e
r
a
ç
ã
o
É
r
i
c
oF
i
l
e
n
o
,
R
i
c
a
r
d
oC
o
u
t
oeR
o
b
s
o
nS
a
n
t
o
s
(
o
r
g
a
n
i
z
a
d
o
r
e
s
)

I
n
t
e
r
a
c
t
i
o
nS
o
u
t
hA
mé
r
i
c
a2
0
1
0
:
a
n
a
i
sd
oI
I
C
o
n
g
r
e
s
s
oI
n
t
e
r
n
a
c
i
o
n
a
l
d
eD
e
s
i
g
nd
e
I
n
t
e
r
a
ç
ã
o/
O
r
g
.
:
É
r
i
c
oF
i
l
e
n
o
,
R
i
c
a
r
d
oC
o
u
t
o
,
R
o
b
s
o
nS
a
n
t
o
s
.
-C
u
r
i
t
i
b
a
:
I
n
t
e
r
a
c
t
i
o
n
D
e
s
i
g
nA
s
s
o
c
i
a
t
i
o
nC
u
r
i
t
i
b
a
,
2
0
1
0
.
I
S
B
N9
7
8
-
8
5
-
6
4
2
1
4
-
0
0
-
2
1
.
T
e
c
n
o
l
o
g
i
a
.
2
.
D
e
s
i
g
n
.
3
.
D
e
s
e
n
h
oI
n
d
u
s
t
r
i
a
l
.
4
.
D
e
s
i
g
nd
eI
n
t
e
r
a
ç
ã
o
.
I
.
F
i
l
e
n
o
,
É
r
i
c
o
.
I
I
.
C
o
u
t
o
,
R
i
c
a
r
d
o
.
I
I
I
.
S
a
n
t
o
s
,
R
o
b
s
o
n
.
I
V
.
T
í
t
u
l
o
.
C
D
D6
2
0
.
8
2
I
x
D
AC
u
r
i
t
i
b
a

Érico Fileno
Ricardo Couto
Robson Santos
organizadores
INTERACTION SOUTH AMERICA 2010
ANAIS DO II CONGRESSO INTERNACIONAL DE DESIGN DE INTERAÇÃO
1ª Edição
Curitiba
Interaction Design Association – Curitiba
2010

Apresentação
Em novembro de 2009 realizou‐se o Interaction South America ’09, que
estabeleceu‐se como um fórum para pensar e discutir os diversos aspectos do
Design de Interação: planejamento, estratégias, métodos, conhecimentos,
técnicas e tecnologias. A realização desta segunda edição da conferência –
Interaction South America ’10 – é a demonstração definitiva do
estabelecimento da atividade no País.
Cabe citar que, fundamentalmente, tanto a primeira edição quanto esta
segunda edição foram fruto de uma intensa interação humana; também de
ambas resultaram novos laços, novas perspectivas e novas interações. Para
isto projetamos: para tornar as pessoas mais próximas umas das outras, para
facilitar a troca social e o crescimento dos pares. É disto que tratam os artigos
contidos neste volume ‐ possibilitar a aproximação humana por meio de
artefatos, serviços e interfaces.
Boa leitura e boas interações!
Érico Fileno
Ricardo Couto
Robson Santos

Índice
AIVA: Ambiente Instrucional Virtual Autônomo: uma proposta de LMS baseado em
hipermídia adaptativa
Bruno Corrêa e André Monat ......................................................................................... 1
Sistema de Rastreamento da Mão Humana Utilizando Visão Computacional para
Aplicações Embarcadas
Rodrigo F. Freitas, Paulo C. Cortez, Rodrigo C. S. Costa e Antônio C. da S. Barros ......... 9
Virtual Wheel: Proposta de Um Método de Interação Gestual para Jogos de Corrida
Rodrigo F. Freitas, Rodrigo C. S. Costa e Paulo C. Cortez .............................................. 19
Design de interação aplicado a modelos colaborativos na cobertura jornalística em
eventos de calamidade pública
Augusto Lohmann, Ruy Menezes, Thiago Lima e Andre Monat ................................... 27
O design de material jornalístico: do impresso ao virtual – os desafios da
interatividade
Thiago Censi e André Monat ......................................................................................... 37
Design de Interação: Estudo do Processo Interativo e Semiótico em Espaços Físicos e
Virtuais
Douglas D’agostini e Silvia Bertagnolli .......................................................................... 47
Recomendações de usabilidade para TV Digital Interativa baseadas na experiência
dos usuários com os celulares
Harlley Roberto de Oliveira ........................................................................................... 54
Reconhecimento de Fonemas usando Predição Linear para movimento labial de
modelos faciais humanóides virtuais
Raphael T. S. Carvalho, Rodrigo C. S. Costa e Paulo C. Cortez ...................................... 61
Uma Visão da Tecnologia além da Interação
Milena Lopes e Christina Sega ...................................................................................... 70
Sistema de Orientação e Navegação para Terminais de Ônibus Urbanos de Porto
Alegre
Marcelo Ferranti e Heli Meurer .................................................................................... 75
C.D.E. ‐ Uma Ferramenta para Análise de Jogos
Thiago Alves, Bruno Bulhões e Rafael Dubiela ............................................................. 84
O uso da metodologia de personas na produção de perfis para hipermídia adaptativa
Thiago Pinheiro ………………………………………………………………......................………………….. 97
Estudo comparativo de extensões UML nos artefatos do projeto de sistemas
interativos
Maria Cristina Machado Domingues e Lucia Filgueiras .............................................. 105

Design no Contexto da Interação
Cristina Portugal ......................................................................................................... 115
Influência do perfil do usuário na inteligibilidade de interfaces de data warehouse
Mônica Gouvea e Lucia Filgueiras ............................................................................... 124
Tecnologias para Assistir Pessoas com Deficiência Auditiva: Levantamento e
Discussão sobre seu Uso
Soraia Silva Prietch ...................................................................................................... 130
Circinus: Sistema Brasileiro de Controle de Tráfego Aéreo
Michelle Dalmas Loeffler ............................................................................................ 139
O processo de colaboração em ambientes hipermidiáticos na EAD: modalidades,
tecnologias e design de informação
Israel Braglia, Alice Cybis e Berenice Gonçalves ......................................................... 149
Aplicação de Matriz de Prioridade na verificação de preferências de leitores na
compra de livros em livrarias online
Adriano Bernardo Renzi e Sydney Freitas ................................................................... 157
Avaliação de Usabilidade em contexto de mobilidade: observação de uso do
aplicativo do Facebook para iPhone
Brenda Lucena ............................................................................................................ 165
Implementando Acessibilidade em um Sistema de Gestão de Aprendizagem através
do Design Centrado no Usuário
Virgínia Chalegre, Fabrício Teles e Audrey Vasconcelos ............................................. 173
Medindo Emoções em Reuniões no Second Life
Cleyton Slaviero, Jivago Medeiros, Karen Figueiredo, Willian Silva, Cintia Caetano
Ramalho da Silva e Ana Cristina Bicharra Garcia ........................................................ 181
Interatividade e navegação em infográficos digitais
Bruna Reginato, Luciano Adorno e Richard Perassi .................................................... 189
Observações Etnográficas na Avaliação da Usabilidade de Dispositivos Móveis de
Coleta de Dados Estatísticos
Luiz Agner, Patricia Tavares e Simone Bacellar Leal Ferreira ..................................... 198
Metodologia Projetual no Ensino de Design Digital Interativo
Paula Tramujas e Luciane Hilu .................................................................................... 207
Vision‐Based System for Smart Store Showcase
Thiago de Freitas Oliveira Araujo, Alexsandro José Virgínio dos Santos e Everaldo
Fernandes Monteiro ................................................................................................... 216

AIVA – Ambiente Instrucional Virtual Autônomo: uma
proposta de LMS baseado em hipermídia adaptativa
Bruno de Souza Corrêa
PPD – ESDI/UERJ
Rua Evaristo da Veiga, 95
20031-040 – Rio de Janeiro, RJ
brcorrea@yahoo.com.br
André Soares Monat
PPD – ESDI/UERJ
Rua Evaristo da Veiga, 95
20031-040 – Rio de Janeiro, RJ
andresmonat@yahoo.com.br
RESUMO
Este trabalho apresenta a Hipermídia Adaptativa (HA)
como caminho válido no desenvolvimento de novas
técnicas de usabilidade de interfaces e ergonomia
informacional voltados para a educação a distância.
Enquanto os estudos atuais sobre ergonomia informacional
buscam encontrar soluções de usabilidade aplicáveis a uma
grande população de usuários, reduzindo a um grande perfil
todos os perfis individuais, a HA procura atribuir
características múltiplas a um sistema, adaptando a forma
de apresentação, a estrutura de navegação e o próprio
conteúdo a uma ampla gama de perfis individuais de
usuários. Desta forma, um sistema pode se apresentar de
maneira diferenciada para cada usuário, buscando criar um
ambiente exclusivo, personalizado e direcionado às suas
necessidades e expectativas. Esse tipo de tecnologia tem um
potencial de utilidade especialmente alto nas aplicações
voltadas para a Educação a Distância (EaD), justificando a
concentração de esforços de pesquisa e desenvolvimento
nesta área.
Palavras-chave do autor
Hipermídia adaptativa, educação a distância, design de
interfaces.
ABSTRACT
This paper presents the Adaptive Hypermedia (AH) as a
valid path in the development of new techniques of interface
usability and informational ergonomics geared to distance
education. While the current studies on informational
ergonomics seek usability solutions applicable to a large
user population, reducing to a high profile all the individual
profiles, the HA demand assign multiple features to a
system, adapting the form, the navigation structure and the
content itself to a wide range of individual profiles of users.
Thus, a system can appear differently for each user, seeking
to create an exclusive, personalized and targeted
environment to their needs and expectations. This type of
technology has a particularly high utility potential in
applications directed to Distance Learning (DL), justifying
the concentration of efforts on research and development in
this area.
Author Keywords
Adaptive hypermedia, distance learning, interface design.
ACM Classification Keywords
H.5.2 - Informatio Interfaces and Presentation (e.g., HCI):
User Interfaces;
H.5.4 - Informatio Interfaces and Presentation (e.g., HCI):
Hypertext/Hypermedia;
K.3.1. Computers and Education: Computer Uses in
Education.
INTRODUÇÃO
O crescente interesse de instituições de ensino,
organizações e do próprio governo na educação à distância
via Internet impulsiona a pesquisa e o desenvolvimento de
ambientes e tecnologias que possibilitem o trânsito cada vez
mais eficiente de conteúdos instrucionais entre entidades
com um nível crescente de afastamento geográfico,
acadêmico e sócio-cultural. Desta forma, é necessário o
desenvolvimento de ferramentas que permitam uma
interface objetiva entre os sistemas e os seus usuários,
demandando que os próprios cursos precisem ser
organizados e disponibilizados de forma acessível e
compreensível à maior população de estudantes possível,
buscando neutralizar as diferenças acadêmicas e sócio-
culturais que possam existir entre estes usuários.
A democratização do acesso à educação a distância é um
dos focos de investigações da área de Hipermídia
Adaptativa (HA), que, de acordo com Brusilovsky (1996), é
o estudo de sistemas, arquiteturas, métodos e técnicas
capazes de promover a adaptação de hiperdocumentos
e hipermídia em geral aos objetivos, necessidades,
preferências e desejos de seus usuário. Palazzo (2000)
complementa que a HA objetiva adaptar a interface dos
sistemas de ensino para cada usuário. Isso significa ajustar
textos, imagens e sons durante a sua navegação, mas esta
adaptação só ocorre durante a execução do sistema, ou seja,
a partir do momento em que o usuário utiliza as
funcionalidades do mesmo.
ENSINO A DISTÂNCIA
Segundo a Associação Brasileira de Educação a Distância,
ABED, muitas são as definições possíveis e apresentadas,
mas há um consenso mínimo em torno da idéia de que EAD
Interaction South America 2010 Curitiba, Brazil - December 2-4
IxDA Curitiba - www.ixdacuritiba.com.br 1

é a modalidade de educação em que as atividades de
ensino-aprendizagem são desenvolvidas majoritariamente
(e em bom número de casos exclusivamente) sem que
alunos e professores estejam presentes no mesmo lugar à
mesma hora.
Moran (2002) explica que educação a distância é o processo
de ensino/aprendizagem onde professores e alunos não
estão normalmente juntos, fisicamente, mas podem estar
conectados, interligados por tecnologias, principalmente as
telemáticas, como a Internet. Hoje temos a educação
presencial, semi-presencial (parte presencial/parte virtual ou
a distância) e educação a distância (ou virtual). A presencial
é a dos cursos regulares, em qualquer nível, onde
professores e alunos se encontram sempre num local físico,
chamado sala de aula. É o ensino convencional. A
semipresencial acontece em parte na sala de aula e outra
parte a distância, através de tecnologias. A educação a
distância pode ter ou não momentos presenciais, mas
acontece fundamentalmente com professores e alunos
separados fisicamente no espaço e ou no tempo, mas
podendo estar juntos através de tecnologias de
comunicação.
Aspectos legais
A educação a distância no Brasil está amparada no Artigo
80 da Lei nº 9.394, de 20 de dezembro de 1996 conhecida
como Lei de Diretrizes e Bases (anexo 02), regulamentado
pelo Decreto nº 5.622, de 19 de dezembro de 2005 (anexo
03) e na Portaria 4059 de 10/12/2004 do MEC.
O Artigo 80 da Lei nº 9.394 define que “o Poder Público
incentivará o desenvolvimento e a veiculação de programas
de ensino a distância, em todos os níveis e modalidades de
ensino, e de educação continuada”, sendo o conceito de
educação a distância definido pelo Decreto nº 5.622, que a
caracteriza “como modalidade educacional na qual a
mediação didático-pedagógica nos processos de ensino e
aprendizagem ocorre com a utilização de meios e
tecnologias de informação e comunicação, com estudantes e
professores desenvolvendo atividades educativas em
lugares ou tempos diversos”. O mesmo decreto delimita em
seu Art. 1o
a obrigatoriedade de momentos presenciais para
as avaliações dos estudantes, estágios obrigatórios (quando
previstos na legislação pertinente), defesa de trabalhos de
conclusão de curso (quando previsto na legislação
pertinente) e atividades relacionadas a laboratórios de
ensino, quando for o caso.
Também são listadas no Decreto todas as modalidades de
ensino que podem ser apresentadas como programas de
educação a distância, a saber:
- Educação básica: apenas para complementação de
aprendizagem, situações emergenciais ou situações em que
os cidadãos estejam impedidos, por motivo de saúde, de
acompanhar ensino presencial; sejam portadores de
necessidades especiais e requeiram serviços especializados
de atendimento; se encontram no exterior, por qualquer
motivo; vivam em localidades que não contem com rede
regular de atendimento escolar presencial;
compulsoriamente sejam transferidos para regiões de difícil
acesso, incluindo missões localizadas em regiões de
fronteira; ou estejam em situação de cárcere;
- educação de jovens e adultos (nos termos do Artigo 37 da
Lei nº 9.394, de 20 de dezembro de 1996);
- educação especial, respeitadas as especificidades legais
pertinentes;
- educação profissional, abrangendo os seguintes cursos e
programas:
a) técnicos, de nível médio;
b) tecnológicos, de nível superior;
- educação superior, abrangendo os seguintes cursos e
programas:
a) sequenciais;
b) de graduação;
c) de especialização;
d) de mestrado;
e) de doutorado.
Um aspecto importante a ser observado sobre a legislação
vigente é o de que não há citações que limitem o uso da
tecnologia. Ao contrário, conforme consta no Parágrafo 3º
do Artigo 80 da Lei de Diretrizes e Bases, “as normas para
produção, controle e avaliação de programas de educação a
distância e a autorização para sua implementação, caberão
aos respectivos sistemas de ensino, podendo haver
cooperação e integração entre os diferentes sistemas”. Tal
aspecto provê amplas possibilidades de desenvolvimento e
aplicação de ferramentas e mídias.
A Portaria 4059 trata da oferta de conteúdo a distância nas
grades curriculares dos cursos superiores reconhecidos pelo
MEC, estabelecendo as seguintes diretrizes:
- Art. 1º As instituições de ensino superior poderão
introduzir, na organização pedagógica e curricular de seus
cursos superiores reconhecidos, a oferta de disciplinas
integrantes do currículo que utilizem modalidade semi-
presencial, com base no art. 81 da Lei nº 9.394, de 1.996, e
no disposto nesta Portaria.
§ 1º Para fins desta Portaria, caracteriza-se a modalidade
semi-presencial como quaisquer atividades didáticas,
módulos ou unidades de ensino-aprendizagem centrados na
auto-aprendizagem e com a mediação de recursos didáticos
organizados em diferentes suportes de informação que
utilizem tecnologias de comunicação remota.
§ 2º Poderão ser ofertadas as disciplinas referidas no caput,
integral ou parcialmente, desde que esta oferta não
ultrapasse 20 % (vinte por cento) da carga horária total do
curso.
§ 3º As avaliações das disciplinas ofertadas na modalidade
referida no caput serão presenciais.
Contexto histórico
A evolução da EaD vem seguindo os avanços das
tecnologias de comunicação. Pode-se dizer que são ciclos
de inovação incremental, que, segundo Lemos (2000), é a
introdução de qualquer tipo de melhoria em um produto,

processo ou organização da produção dentro de um
contexto, sem alteração na sua estrutura. Em EaD, esses
ciclos são caracterizados pela manutenção das metodologias
básicas de ensino e design instrucional, com as maiores
mudanças acontecendo apenas nos meios de acesso e
disseminação da informação. Portanto, o próprio conceito
de educação a distância não pode ser considerado inovativo
em níveis além do incremental.
Sherron y Boettcher (1997) separam a linha evolutiva da
educação a distância em quatro gerações:
• Primeira Geração - 1850 a 1960. Começa via papel
impresso e anos mais tarde ganha a participação do rádio e
da televisão. Característica: uma tecnologia predominante.
• Segunda Geração - 1960 a 1985. Os meios são fitas
de áudio, televisão, fitas de vídeo, fax e papel impresso.
Característica: múltiplas tecnologias sem computadores.
• Terceira Geração - 1855 a 1995. Correio eletrônico,
papel impresso, sessões de chat, mediante uso de
computadores, Internet, CD, videoconferência e fax.
Característica: múltiplas tecnologias incluindo os
computadores e as redes de computadores.
• Quarta Geração - 1995 a 2005 (estimado). Correio
eletrônico, chat, computador, Internet, transmissões em
banda larga, interação por vídeo e ao vivo,
videoconferência, fax, papel impresso. Característica:
múltiplas tecnologias incluindo o começo das tecnologias
computacionais de banda larga.
• Taylor (2003) fala em uma quinta geração, que
somaria todos os recursos característicos da quarta geração
a sistemas inteligentes totalmente automatizados,
maximizando o uso da Internet.
A quinta geração da educação a distância, proposta por
Taylor, fala na comunicação totalmente mediada por
computador, o que dependeria de sistemas inteligentes e
autônomos capazes de, entre outras coisas, se adaptar às
características dos usuários e definirem quais caminhos um
determinado curso pode tomar.
HIPERMÍDIA ADAPTATIVA
Em alinhamento à proposta de Taylor, um dos caminhos
para a difusão de sistemas inteligentes de cursos a distância
é o desenvolvimento de sistemas baseados em hipermídia
adaptativa, que, segundo Brusilovsky (1996), são capazes
de construir um modelo de objetivos, preferências e
conhecimento de cada usuário individualmente e usar este
modelo durante a interação com o usuário para adaptar o
sistema às necessidades deste usuário.
Assis (2005) nos lembra que se pode considerar que
sistemas hipermídia são, de certa forma, sempre
adaptativos, uma vez que ao proporcionarem liberdade de
navegação aos diferentes usuários, estão possibilitando que
eles adaptem o sistema às suas necessidades de informação,
ou seja, o próprio usuário é responsável pela adaptação.
Entretanto, Brusilovsky (1996) atenta para o fato de que,
em algumas áreas de aplicação, é necessário que o próprio
sistema de hipermídia se adapte ao usuário, caracterizando
a hipermídia adaptativa.
Palazzo (2002) define que um sistema de HA deve
satisfazer a três critérios básicos:
(1) ser um sistema hipertexto ou hipermídia;
(2) possuir um modelo do usuário;
(3) ser capaz de adaptar a hipermídia do sistema usando tal
modelo.
A figura 1 demonstra a taxonomia básica de sistemas de
hipermídia adaptativa, segundo Brusilovsky (2001).
Técnicas de adaptação
Assis (2005) propõe uma interpretação mais clara e precisa
sobre o quê pode ser adaptado – ou seja, qual o resultado
real da adaptação, qual aspecto da aplicação muda –,
propõe-se aqui uma diferenciação entre a adaptação do teor
do conteúdo e a adaptação da estrutura do conteúdo, esta
última considerada como um tipo de adaptação de
navegação. Distingue-se, ainda, um outro tipo de adaptação
de navegação: a adaptação da topologia do hiperespaço
(alterações nos destinos dos elos ou na quantidade de elos).
Em relação à apresentação (interface), separa-se as
alterações na aparência do conteúdo das alterações na
aparência dos elos. A Tabela 1 apresenta a classificação
proposta.
Figura 1. Taxonomia das tecnologias de hipermídia
adaptativa (Brusilovsky,2001).

AIVA – AMBIENTE INSTRUCIONAL VIRTUAL
AUTÔNOMO
Com base nestes preceitos é apresentada a proposta do
modelo de gerenciamento de ensino a distância AIVA que
se baseia na determinação de um sistema para a criação de
cursos em ambiente gráfico, com etapas seqüenciadas e a
opção de edição de conteúdos instrucionais por
fluxogramas e camadas. Este sistema inclui caminhos
acionados pela inserção de módulos, hiperlinks e camadas
de modelos de usuários e adaptações de conteúdo e
navegação.
A filosofia básica do AIVA contempla os seguintes
requisitos:
- Edição gráfica e textual de conteúdos;
- Flexibilidade para aplicação de recursos multimídia;
- Adaptações baseadas em modelos de usuário por nível de
conhecimento e aferição de rendimento (testes);
- Testes com questões objetivas;
- Totalmente baseada na WEB;
A taxonomia do AIVA
As técnicas de adaptação apresentadas são disponibilizadas
em conjunto, paralelamente entre si, tendo como critério-
base o modelo de usuário. Para uma melhor compreensão
deste conceito, todos os elementos que compõem o AIVA
podem ser organizados em camadas editáveis pelos autores
dos conteúdos instrucionais alimentados no sistema. Esta
organização por camadas permite a visualização da
flexibilidade de composição das adaptações, propiciando
que um grande número de modelos de usuários distintos
seja alimentado no AIVA. Além disso, o conteúdo
instrucional é dividido em módulos e cada um deles pode
receber combinações próprias de adaptações. Combinações
diferentes das camadas permitem a adaptação dos módulos
de conteúdos instrucionais a diferentes critérios de
modelagem de usuários, ou seja, para cada modelo de
usuário haverá configurações próprias dos módulos,
conforme demonstra a Figura 2. À Camada de Conteúdo
Básico, pode-se adicionar (+) a Camada de Conteúdo
Adaptado e/ou a Camada de Navegação Adaptada. Da
mesma forma, essas camadas de adaptações podem ser
removidas (-).
Comparando-se as características das adaptações permitidas
no AIVA com a taxonomia das tecnologias de hipermídia
adaptativa descrita por Brusilovsky (2001), que contempla
todos os tipos de adaptações de conteúdo, apresentação e
navegação descritos por ele, temos uma idéia exata do
aproveitamento das possibilidades interativas do AIVA
(Figura 3).
Tabela 1. O quê é adaptado (Assis, 2005).
Figura 2. Fluxograma de camadas do AIVA.

Os módulos contidos dentro de cada modelo de usuário são
editados individualmente. Assim, a manipulação das
camadas prevê a ativação ou desativação das adaptações em
qualquer etapa do curso que estiver sendo criado.
Para ilustrar e exemplificar a aplicação de uma adaptação
de conteúdo na tela de um curso apresentado através do
AIVA, uma tela contendo um texto específico é mostrada
em três momentos diferentes, cada um sob a influência de
um modelo de usuário distinto. Na primeira tela (Figura 4),
o texto é apresentado na sua formatação básica, sob
influência de uma modelagem de usuário denominada
MU01. A segunda tela (Figura 5) exibe o texto contendo
uma adaptação de conteúdo através da qual, além da
informação textual, vê-se um complemento ilustrado do
assunto abordado. Essa tela está sob a influência da
modelagem de usuário MU02.
A terceira tela (Figura 6) exemplifica o conteúdo textual
com alterações da linguagem utilizada, adaptando-se ao
modelo de usuário MU03. É importante notar que As
questões visuais relacionadas ao AIVA remetem a um
ambiente simples e padronizado, que atenda aos requisitos
de legibilidade exigidos pelos padrões atuais de usabilidade.
Essas características visam manter a atenção dos usuários
focada no conteúdo que está sendo exibido pelo sistema,
sem elementos de distração.
Interfaces de inserção de conteúdo
A proposta do AIVA prevê que a tela inicial de adição de
cursos apresente uma área de fluxograma contendo o balão
Figura 4. Exemplo de tela do curso visível para o
modelo de usuário MU01, mostrando um módulo
com conteúdo textual básico.
com conteúdo textual básico complementado por
ilustração.
com conteúdo textual com modificações na
linguagem e informações adicionais.
Figura 3. Em azul, as técnicas de adaptação
empregadas no AIVA.

indicativo do primeiro módulo de conteúdo e um menu,
através do qual são selecionados os modelos de usuários
previamente determinados e as adaptações que poderão ser
usadas, tanto as de conteúdo quanto as de navegação
(Figura 7). Todo o processo é gráfico.
Para se acrescentar conteúdo ao módulo indicado, basta
clicar no balão e uma tela de edição WYSIWYG será aberta
(Figura 8).
Uma vez salvo o conteúdo básico do módulo, o sistema
retorna para a tela inicial de edição, onde serão
selecionados o modelo de usuário e as suas adaptações
correspondentes (Figuras 9 e 10), através do menu.
Na mesma tela podem ser selecionadas as adaptações de
conteúdo e de navegação, que ficam indicadas no
fluxograma como novos balões. A Figura 11 mostra o sub-
menu das adaptações de conteúdo e a forma como são
indicadas no fluxograma ao serem selecionadas.
Figura 7. Proposta de tela incial da área de edição
de cursos.
Figura 8. Exemplo de conteúdo sendo inserido no
editor WYSIWYG.
Figura 9. Menu de seleção do modelo de usuário.
Figura 10. Modelo de usuário selecionado e sua
indicação junto ao balão do módulo.

A figura 12 demonstra o sub-menu das adaptações de
navegação e a representação no fluxograma daquelas que
foram selecionadas.
Sempre que alguma adaptação de conteúdo ou de
manipulação de links é selecionada e inserida no
fluxograma, ela pode ser customizada através do editor
WYSIWYG, que apresentará o conteúdo básico do módulo
como ponto de partida para as modificações referentes a
cada adaptação.
CONSIDERAÇÕES FINAIS
O cenário atual da educação a distância (EaD) no Brasil
aponta para uma tendência à continuidade tecnológica e
metodológica caracterizada pela proliferação de
plataformas de gerenciamento de cursos distribuídas em
pacotes fechados, de código aberto, que demandam o
envolvimento de profissionais com sólidos conhecimentos
de tecnologias de informação na sua implementação e
administração. Estes sistemas, utilizados na maioria das
instituições brasileiras, são pouco flexíveis às grandes
variações de perfis de usuários existentes no país. Ou seja,
um curso é apresentado da mesma maneira para diversas
categorias (econômicas, sociais, culturais, educacionais,
etc.) de usuários. A tecnologia de hipermídia adaptativa
permite que páginas estáticas se tornem adaptáveis a
diferentes modelos e perfis de usuários. Entretanto, há a
necessidade de se agregar essa tecnologia aos ambientes
virtuais de aprendizagem e fazê-lo de uma forma que
usuários leigos em informática consigam trabalhar
facilmente. O AIVA é uma tentativa de se promover uma
união viável e acessível entre a hipermídia adaptativa e os
AVAs, permitindo que conteudistas possam alimentar e
editar materiais instrucionais através de editores
WYSIWYG combinados com gerenciadores de
fluxogramas, especificar diferentes modelos de usuários e
definir adaptações de conteúdos a estes modelos.
Este trabalho abre caminho para a criação futura de um
ambiente virtual de aprendizagem completo baseado em
hipermídia adaptativa, contendo outras ferramentas como
áreas de testes e avaliações de desempenho, ferramentas de
comunicação cooperativa, geradores de perfis de usuários,
etc. Espera-se, com isso, o desenvolvimento de um sistema
que possa ser disponibilizado ao mercado de educação a
distância, contribuindo para a sua democratização e
evolução.
Estudos futuros poderão viabilizar a integração do AIVA a
ambientes virtuais de aprendizagem atualmente disponíveis,
atribuindo a estes as características da hipermídia
adaptativa.
Outra possibilidade de estudo futuro é a inclusão de novas
técnicas de adaptação, permitindo ao AIVA utilizar toda a
tecnologia de hipermídia adaptativa prevista da taxonomia
de Brusilovsky.
No campo da pesquisa experimental, os estudos poderão ser
direcionados para a aferição da eficiência do AIVA em
relação a sistemas que já tenham bases consolidadas de
usuários. Para isso, uma versão beta do AIVA deverá ser
implementada para testes com usuários. Desta forma será
possível implementar um programa evolutivo dos aspectos
ligados à usabilidade do sistema.
A evolução desta pesquisa pode culminar na demonstração
de novas modalidades e técnicas de adaptação de
hipermídia, em adição àquelas já demonstradas por outros
autores.
Figura 11. Menu das adaptações de conteúdo
ativado e a representação, no fluxograma, das
adaptações selecionadas.
Figura 12. Menu das adaptações de navegação
ativado e a representação, no fluxograma, das
adaptações selecionadas.

REFERÊNCIAS
1. Associação Brasileira de Educação a Distância –
ABED. Anuário Brasileiro Estatístico de Educação Aberta
e a Distância de 2008 – ABRAEAD 2008. São Paulo, Brasil,
2008.
2. Assis, Patrícia Seefelder de. Arquitetura para
adaptação e meta-adaptação de sistemas hipermídia. Tese
Doutorado; orientador: Daniel Schwabe. – Rio de Janeiro :
PUC-Rio, Departamento de Informática, 2005.
3. Brusilovsky, P. Methods and Techniques of adaptive
hypermedia. In: User Modeling and User Adapted
Interaction, v. 6, n. 2-3, p. 87-129, 1996.
4. Brusilovsky, P. User Modeling and User-Adapted
Interaction. Kluwer, 2001.
5. Palazzo, Luiz Antônio Moro. Sistemas de Hipermídia
Adaptativa, 2002. In:
http://ia.ucpel.tche.br/~lpalazzo/sha/sha.htm .
6. Taylor, James C. Fifth Generation Distance Education.
International Council for Open and Distance Education
(ICDE), 2003. Disponível em
http://eprints.usq.edu.au/136/1/Taylor.pdf.
7. Lemos, C. Inovação na Era do Conhecimento. IN:
Parcerias Estratégicas, nº8, maio, 2000, MCT.
8. Moran, J. M. Novos caminhosdo ensino a distância.
Em: Informe CEAD - Centro de Educação a Distância.
SENAI, Rio de Janeiro, ano 1, n.5, out-dezembro de 1994,
páginas 1-3. Atualizado em 2002.
9. Sherron, G. y Boettcher, J. Distance learning: The shift
to interactivity. CAUSE Professional. Paper Series 17.
Boulder; CO: CAUSE, 1997.

Sistema de Rastreamento da Mão Humana Utilizando
Visão Computacional
Rodrigo Fernandes Freitas, Paulo César Cortez, Rodrigo C. S. Costa, Antônio C. da S. Barros
Laboratório de Engenharia de Sistemas de Computação
Campus do Pici S/N, Bloco 723,
rodrigo@gihm.info, cortez@gihm.info
RESUMO
O mercado de dispositivos portáteis tem crescido muito nos
últimos anos, o que os tornou parte importante da vida
diária da maioria da população. Porém, a interação
usuário com eles ainda é baseada em teclados pequenos e
incômodos. Com o avanço do poder
desses dispositivos, eles agora conseguem executar pesados
aplicativos como navegadores de internet e manipuladores
de imagens, os quais se beneficiariam bastante de novas
formas de interação. Este trabalho propõe um sistema de
interação para dispositivos portáteis através do rastreamento
da mão baseado em Visão Computacional. Os resultados
obtidos demonstram que este sistema apresenta uma boa
taxa de processamento, bem como é invariante à rotação da
mão e consegue reconhecer todos os gest
Author Keywords
Rastreamento da Mão, Dispositivos Portáteis
Interação.
I.4.9. I.4.9. Image processing and computer vision:
Applications.
INTRODUÇÃO
O mercado dos dispositivos portáteis, como os telefones
celulares e smartphones, tem tido um grande crescimento
nos últimos anos. Tanto a diminuição dos custos e do
volume de hardware quanto o aumento da capacidade de
processamento e armazenamento ajudaram
tipo de dispositivo mais popular, fazendo deles parte
indispensável da rotina diária da maioria
cada geração são desenvolvidos dispositivos cada vez
menores e com maior poder computacional, como visto na
Figura 1 [28].
Permission to make digital or hard copies of all or part of this work for
personal or classroom use is granted without fee provided that copies are
not made or distributed for profit or commercial advantage and that copies
bear this notice and the full citation on the first page. To copy otherwise,
or republish, to post on servers or to redistribute to lists, requires prior
specific permission and/or a fee.
CHI 2009, April 4–9, 2009, Boston, Massachusetts, USA.
Copyright 2009 ACM 978-1-60558-246-7/09/04...$5.00.
Computacional para Aplicações Embarcadas
, Paulo César Cortez, Rodrigo C. S. Costa, Antônio C. da S. Barros
Laboratório de Engenharia de Sistemas de Computação, Universidade Federal do Ceará
, Bloco 723, Cx. Postal 6015, CEP 60455-970 – Fortaleza
cortez@gihm.info, rodcosta@gimh.info, carlos@gimh.info
O mercado de dispositivos portáteis tem crescido muito nos
últimos anos, o que os tornou parte importante da vida
da população. Porém, a interação do
ainda é baseada em teclados pequenos e
de processamento
desses dispositivos, eles agora conseguem executar pesados
aplicativos como navegadores de internet e manipuladores
de imagens, os quais se beneficiariam bastante de novas
. Este trabalho propõe um sistema de
para dispositivos portáteis através do rastreamento
da mão baseado em Visão Computacional. Os resultados
obtidos demonstram que este sistema apresenta uma boa
taxa de processamento, bem como é invariante à rotação da
mão e consegue reconhecer todos os gestos propostos.
Dispositivos Portáteis, Sistemas de
Image processing and computer vision:
O mercado dos dispositivos portáteis, como os telefones
, tem tido um grande crescimento
nos últimos anos. Tanto a diminuição dos custos e do
quanto o aumento da capacidade de
processamento e armazenamento ajudaram a tornar este
tipo de dispositivo mais popular, fazendo deles parte
maioria da população. A
cada geração são desenvolvidos dispositivos cada vez
menores e com maior poder computacional, como visto na
Figura 1. Evolução dos celulares.
Apesar do avanço significativo na performance e nas
capacidades dos dispositivos portáteis, as interfaces com os
usuários ainda são largamente baseadas no conjunto
pequena e teclado. O uso
pode às vezes ser incômodo, pois o número de botões é
limitado e deve-se pressionar as teclas várias vezes para se
obter o resultado desejado [13
suficiente para modos mais simples de interação, como
originar e receber chamadas telefônicas; aplicações mais
complexas exigem técnicas de interação mais intuitivas
Por causa do seu aumento de capacidade computacional, os
dispositivos portáteis são agora capazes de processar
aplicações que antes somente
plataformas de maior poder computacional, como os
Computadores Pessoais (PCs) e
gráficos como jogos, navegadores de internet e
manipuladores de imagens são cada vez mais comuns em
dispositivos portáteis. Muitas dess
beneficiar largamente da presença de um dispositivo de
entrada mais intuitivo [28].
Nas últimas décadas tem havido uma pesquisa muito
intensa para o desenvolvimento de novas formas de
interação com dispositivos portáteis, com vários
tecnologias sendo propostas, tais como telas de toque,
reconhecimento de voz e sensores de movimento
como visto na Figura 2.
classroom use is granted without fee provided that copies are
istribute to lists, requires prior
9, 2009, Boston, Massachusetts, USA.
7/09/04...$5.00.
para Aplicações Embarcadas
, Paulo César Cortez, Rodrigo C. S. Costa, Antônio C. da S. Barros
Federal do Ceará - UFC
Fortaleza - CE
carlos@gimh.info
. Evolução dos celulares.
Apesar do avanço significativo na performance e nas
capacidades dos dispositivos portáteis, as interfaces com os
usuários ainda são largamente baseadas no conjunto tela
pequena e teclado. O uso de teclados não-ergonômicos
pode às vezes ser incômodo, pois o número de botões é
se pressionar as teclas várias vezes para se
[13]. Esse tipo de abordagem é
suficiente para modos mais simples de interação, como
riginar e receber chamadas telefônicas; aplicações mais
complexas exigem técnicas de interação mais intuitivas [3].
Por causa do seu aumento de capacidade computacional, os
dispositivos portáteis são agora capazes de processar
aplicações que antes somente eram possíveis em
plataformas de maior poder computacional, como os
Computadores Pessoais (PCs) e notebooks. Aplicativos
gráficos como jogos, navegadores de internet e
manipuladores de imagens são cada vez mais comuns em
dispositivos portáteis. Muitas dessas aplicações podem se
beneficiar largamente da presença de um dispositivo de
Nas últimas décadas tem havido uma pesquisa muito
intensa para o desenvolvimento de novas formas de
interação com dispositivos portáteis, com vários tipos de
tecnologias sendo propostas, tais como telas de toque,
reconhecimento de voz e sensores de movimento [15],

Figura 2. Exemplos de novas formas de interação com
dispositivos portáteis: (a) Exemplo de utilização através de tela
de toque. (b) Exemplo de utilização através de sensor de
movimento.
Contudo, essas soluções apresentam várias limitações. Com
as caras telas de toque é necessário que o usuário opere o
aparelho com ambas as mãos. O reconhecimento de voz
peca às vezes pela falta de confiabilidade. Já para os
sensores de movimento, precisa-se da inclusão de hardware
extra no dispositivo móvel, o que acarreta em um acréscimo
no custo do aparelho [12].
Hoje em dia câmeras digitais de baixa resolução vêm
integradas à maioria dos dispositivos portáteis produzidos
com o objetivo de obter-se fotografias e vídeos [25].
Dessa forma é interessante o desenvolvimento de formas de
interação com dispositivos móveis baseados em Visão
Computacional, os quais não sofrem das limitações
apresentadas anteriormente e utilizam as câmeras já
embutidas nos aparelhos, evitando aumento de custo do
produto pela adição de hardware extra [1].
Com a capacidade de processamento atual dos dispositivos
portáteis, é possível processar as imagens capturadas pelo
aparelho e oferecer novas formas de interação ao usuário
através de técnicas de detecção de movimento, detecção de
cores e reconhecimento de gestos, dentre outras [2].
Dentre as formas de interação citadas anteriormente, a área
de reconhecimento de gestos e rastreamento da mão
humana tem sido bastante pesquisada nos últimos anos para
o desenvolvimento de aplicações para computadores
pessoais [26, 8, 18] e recentemente também tem sido
estudada para o desenvolvimento de interações com
dispositivos portáteis [12, 10, 27].
O objetivo geral deste trabalho é descrever o
desenvolvimento de um sistema de rastreamento da mão
humana, possibilitando o uso da câmera como dispositivo
sensor para interação com sistemas embarcados.
FUNDAMENTAÇÃO TEÓRICA
Esta seção descreve alguns fundamentos da área de
processamento de imagens necessários para um melhor
entendimento deste trabalho e também descreve as etapas
que constituem um sistema de Visão Computacional.
Figura 3. Etapas constituintes de um Sistema de Visão
Computacional.
Um sistema de Visão Computacional é composto pelas
etapas mostradas na Figura 3, descritas em maiores detalhes
a seguir.
A etapa de aquisição consiste na captura das imagens por
um elemento sensor, gerando uma matriz com valores
discretos à qual podem ser aplicadas diversas operações. O
processo de aquisição pode ser realizado através de uma
ampla gama de dispositivos, tais como webcams, câmeras
de infra-vermelho, câmeras digitais, dentre outros [11].
As imagens fornecidas pelos dispositivos sensores citados
na seção anterior tendem a apresentar uma degradação da
sua qualidade pela introdução de ruído, deformação
geométrica ou borramento devido ao movimento do objeto.
A etapa de pré-processamento consiste na aplicação de
métodos para melhorar a qualidade da imagem e reduzir as
degradações introduzidas pelos elementos sensores [24].
A etapa de pré-processamento pode se dar através de dois
tipos de técnicas: restauração e realce. As técnicas de
restauração preocupam-se principalmente com a
reconstrução ou recuperação de uma imagem que foi
degradada e um conhecimento prévio sobre o fenômeno de
degradação pode ser utilizado para este propósito. As
técnicas de realce melhoram a qualidade subjetiva das
imagens aguçando certos atributos delas, tais como bordas e
contraste, e reduzindo o ruído [11].
Tanto as operações de restauração quanto as de realce
podem ser vistas como filtros digitais bidimensionais.
Dentre as diversas técnicas disponíveis na literatura, uma
das técnicas de restauração no domínio espacial mais
utilizada é a aplicação do filtro da média, o qual consiste
em uma janela deslizante de tamanho 2N+1 x 2N+1, em
que o pixel (x,y) da imagem (I) em que a janela está
centrada é substituído na imagem filtrada (J) através de:
, = ∑ ∑ + , +

(2)
A segmentação de uma imagem consiste em dividí-la em
um certo número de regiões, em que cada região tem um
alto grau de uniformidade em algum parâmetro específico,
tal como brilho, cor, textura ou mesmo movimento [7].
O nível de detalhes no qual essa sub-divisão da imagem se
baseia depende do problema a ser resolvido. A acurácia da

Figura 4. Exemplo da aplicação do processo de limiarização
sobre um histograma.
segmentação determina o eventual sucesso ou fracasso do
sistema de processamento de imagens, de forma que deve-
se dedicar considerável cuidado para aumentar a
probabilidade de segmentação correta [11].
Dentre as diversas técnicas de segmentação existentes, a
limiarização é muito utilizada na literatura devido às suas
propriedades intuitivas, facilidade de implementação e
baixo custo computacional [11]. O funcionamento deste
método pode ser entendido através da Figura 4.
Considere o histograma da Figura 4 como correspondendo
ao histograma de uma imagem qualquer, composta de
objetos claros e um fundo escuro. Uma maneira fácil de
extrair os objetos do fundo é selecionar um limiar T que
separe os dois agrupamentos. Assim, qualquer ponto (x,y)
na imagem tal que f(x,y) T é chamado de um ponto do
objeto; caso contrário, o ponto é chamado de ponto do
fundo [8]. Dessa forma, a imagem segmentada g(x,y) é dada
por:
, =
1, , ≥
0, ,
(3)
Após a segmentação de uma imagem em suas regiões
componentes, o conjunto resultante de pixels deve ser
representado e descrito de forma adequada para o
processamento computacional subsequente. Basicamente, a
representação de uma região pode ser realizada de duas
maneiras: a primeira é representar a região em termos de
suas características externas (seu contorno); a segunda é
representar a região em termos de suas características
internas (os pixels que compreendem a região) [11].
Escolhe-se uma representação externa quando o foco
principal do problema reside nas características da forma,
tais como cantos e inflexões. A representação interna é
escolhida quando se deseja observar as propriedades locais
do objeto, tais como cor e textura [21].
Na categoria de representação externa, o algoritmo de
código em cadeia é uma abordagem muito utilizada. Uma
região geralmente descreve um conteúdo (ou pontos
internos) rodeado por uma borda, chamada de contorno.
Um ponto é definido como estando no contorno se ele faz
parte da região e se há pelo menos um pixel na sua
vizinhança que não é parte da região [22].
Figura 5. Principais tipos de análise de conectividade: (a)
conectividade-4; (b) conectividade-8.
Figura 6. Conectividade no código em cadeia.
Dessa forma, o código em cadeia é formado concatenando-
se o número que designa a direção do próximo pixel. Isto é
repetido para cada ponto do contorno até se alcançar o
ponto inicial [24]. O código em cadeia pode ser realizado
com base em conectividades do tipo 4 e 8 (como visto na
Figura 5). As direções tanto na conectividade-4 que na
conectividade-8 podem ser atribuídas como mostrado na
Figura 6.
Após o processo de representação de um objeto, a tarefa
seguinte é a de descrição ou seleção de atributos, de forma
a extrair atributos dos dados representados que resultem em
alguma informação quantitativa de interesse ou que sejam
básicos para diferenciar uma classe de objetos de outra;
essa diferenciação ocorre na fase seguinte de
reconhecimento [14].
De modo a terem utilidade para a etapa de reconhecimento,
os descritores selecionados devem possuir um conjunto de
importantes propriedades: dois objetos devem ter os
mesmos descritores apenas se eles tiverem as mesmas
características; objetos similares devem ter descritores com
valores similares; os descritores devem ser invariantes a
mudanças no objeto como escala, rotação, translação e
perspectiva; e os descritores devem representar a essência
de um objeto de forma eficiente, contendo informações
apenas sobre o que torna aquela objeto único ou diferente
dos outros objetos [22].
A partir da representação do contorno originada pelo código
em cadeia, um descritor que pode-se extrair dele são os seus
pontos críticos. Pontos críticos ou cantos são pontos muito
importantes de um objeto, visto que a informação sobre
uma forma se concentra em seus cantos [20]. Pontos

críticos são definidos como pontos em que a linha do
contorno da região apresenta uma variação brusca na sua
direção, ou seja, é um ponto com alto valor de amplitude no
sinal de curvatura [23].
A curvatura k(t) de uma curva paramétrica c(t) = (x(t), y(t))
é definida como:
=
!#!#!!
!$%!$

$
'
(4)
Fica claro pela equação que para estimar a curvatura é
necessário o cálculo das derivadas de x(t) e y(t). Devido ao
fato do contorno ter natureza discreta (ou seja,
espacialmente amostrado) o cálculo das derivadas se torna
um problema computacional, dificultando a utilização
direta desta fórmula [6].
Uma abordagem básica que evita o cálculo da fórmula é a
definição de medidas de curvatura alternativas baseadas nos
ângulos entre vetores definidos em termos dos elementos
discretos do contorno. Considere c(n) = (x(n), y(n)) como
sendo uma curva discreta. Os seguintes vetores podem ser
definidos [6]:
() = ) − ) − , ) − ) − (5)
+) = ) − ) + , ) − ) + (6)
Esses vetores são definidos entre o atual ponto do contorno
e os vizinhos para a direita e para a esquerda, como
mostrado na Figura 7.
O modelo digital de pontos de alta curvatura proposto por
Johnston e Rosenfeld (1973) [17] é definido pela seguinte
equação:
,) =
-./0./
||-./||||0./||
(7)
em que ,) é o cosseno do ângulo entre os vetores ()
e +). Dessa forma, temos que −1 ≤ ,) ≤ 1, com
,) = −1 para linhas retas e ,) = 1 quando o ângulo
se torna 0° (o menor ângulo possível). Neste sentido, ,)
pode ser utilizado como uma medida capaz de localizar
pontos de curvatura alta, ou seja, maiores que um certo
limiar.
Finalmente, a etapa de reconhecimento consiste do
processo de atribuir um rótulo para um objeto baseado em
seus descritores [11].
Figura 7. Indicação da curvatura baseada no ângulo.
METODOLOGIA
Nesta seção são apresentados, inicialmente, os
equipamentos e os ambientes de simulação e
desenvolvimento utilizados neste trabalho e, em seguida, o
algoritmo de interação proposto.
Equipamentos Utilizados
No desenvolvimento deste trabalho os algoritmos são
inicialmente desenvolvidos em um Computador Pessoal
(PC) e, em seguida, adaptados e embarcados em um
dispositivo portátil. Os equipamentos utilizados no
desenvolvimento deste trabalho são resumidamente
descritos na Tabela 1.
Para a realização dos experimentos foram utilizados um PC
e um aparelho celular. O computador possui como
acessório uma câmera Microsoft NX-3000. O aparelho
celular não possui Unidade de Ponto Flutuante (FPU).
Todos os cálculos em ponto flutuante são feitos através de
software no processador de ponto fixo (inteiro). O uso de
ponto flutuante aumenta o custo computacional,
necessitando a adaptação do código para ponto fixo.
Simulação
As simulações realizadas seguem a estrutura ilustrada na
Figura 8. O primeiro passo, a aquisição, é realizado pelo
pacote de aquisição de imagens presentes no Simulink.
O último passo, a exibição dos resultados, é realizado pelo
pacote de processamento de vídeo e imagens do Simulink,
Computador Pessoal
Telefone
Celular
Fabricante IBM Samsung
Modelo MT-M 8212-G4P SGH-A706
Processador Intel Pentium D
ARM9 à
143MHz
RAM 2GB -
OS
Windows XP com
SP2
Qualcomm
REX
Câmera
1.3 MPix Microsoft
NX-3000 2MPix
Tabela 1. Equipamentos utilizados no desenvolvimento do
trabalho.
Figura 8. Etapas na simulação do processo de Visão
Computacional.

exibindo no monitor ou salvando em arquivo a saída do
sistema.
Os processamentos intermediários são implementados
utilizando os blocos padrões de operações diversas
Desenvolvimento
O diagrama da implementação em C ANSI dos métodos de
interação baseados em visão é mostrado na Figura 9. Nesta
figura, as setas representam o acesso de informações. Os
algoritmos de VC desenvolvidos neste trabalho possuem
um acesso indireto ao hardware, devido à necessidade de
utilização do método proposto em várias plataformas
(Windows e REX). Os códigos desenvolvidos são
implementados em C ANSI e utilizam apenas comandos
presentes nas bibliotecas padrões.
Após as simulações, os algoritmos são implementados em
C ANSI e em seguida embarcados e testados no dispositivo
portátil. Para cada plataforma, é desenvolvido um conjunto
de comandos de acesso ao meio físico dependente de cada
plataforma. Por exemplo, para os testes realizados no PC, a
interface de acesso ao hardware da câmera é feita utilizando
comandos existentes na Interface de Programação de
Aplicativos (API) do OpenCV que, ao fim do
processamento, converte os frames adquiridos em um vetor
em ponto fixo (inteiro) [16].
Para testar os algoritmos, foi desenvolvida uma aplicação
em C++ que realiza a execução do código. Esta aplicação
inicia os algoritmos de rastreamento da mão e entra em um
laço que adquire um frame da câmera, executa o algoritmo
proposto e exibe os resultados até que uma tecla seja
pressionada. Após sair do laço, a aplicação fecha os
algoritmos de VC.
No ambiente REX, os algoritmo são compilados em C
ANSI e enviados para o grupo de desenvolvedores do
Samsung Instituto de Desenvolvimento para Informática
(SIDI). Os desenvolvedores implementaram a interface de
acesso ao hardware e integram o algoritmo em uma
aplicação nativa do sistema operacional, deixando
disponível o conjunto de algoritmos para serem testados e
avaliados.
Figura 9. Diagrama da implementação em C dos algoritmos.
Método Proposto de Interação para Dispositivos
Portáteis
Este trabalho propõe um método com baixo esforço
computacional capaz de identificar um conjunto de gestos
padronizados para formar um sistema de interação com
dispositivos portáteis através do rastreamento da mão
humana.
O sistema proposto segue o processo de um Sistema de
Visão Computacional descrito na seção de Fundamentação
Teórica. A seguir são detalhadas as técnicas utilizadas em
cada uma das etapas que formam o sistema proposto.
A etapa de aquisição do método proposto é realizada pela
câmera embutida do dispositivo móvel. A imagem
fornecida pelo telefone celular para a realização dos testes
encontra-se no espaço de cores YCbCr.
Para a realização da etapa de pré-processamento foi
escolhida a aplicação do Filtro da Média sobre a imagem
adquirida pela câmera. O objetivo com isso é atenuar o
ruído presente na imagem, de forma a melhorar a etapa
seguinte de segmentação.
Vários testes foram realizados e foi observado que a
utilização de uma janela 5x5 para o Filtro da Média
apresenta o melhor equilíbrio entre custo computacional e
desempenho de filtragem.
O objetivo da etapa de segmentação é identificar a região
da imagem filtrada que corresponde à mão do usuário. Para
realizar essa segmentação, é utilizada a técnica de
limiarização no espaço de cores YCbCr.
A técnica de limiarização foi escolhida devido ao seu baixo
custo computacional. Ela é realizada no espaço de cores
YCbCr para evitar o processo de conversão da imagem para
outros espaços de cores, o que acarretaria em
processamento adicional.
Os limiares utilizados para a segmentação da pele são
propostos por Chai e Ngan (1999) [4], em que são
classificados como pele os pixels da imagem cujas
intensidades se encontrem na faixa de valores 77 a 127 para
o canal Cb e na faixa de valores 133 a 173 para o canal Cr.
O restante dos pixels da imagem é classificado como sendo
fundo da imagem. O processo de limiarização de pele
utilizado pode ser representado pela seguinte expressão:
, =
1, 77 45 127 8 133 4, 173
0, :;= :=),á, =
(7)
onde g(x,y) é a imagem segmentada e Cb e Cr são os
valores nos canais Cb e Cr, respectivamente, dos pixels
(x,y) da imagem filtrada.

Figura 10. (a) Imagem filtrada na etapa anterior de pré-
processamento. (b) Imagem segmentada de acordo com a
equação 7.
Na Figura 10 é representado o processo de limiarização. Na
Figura 10(a) é mostrada a imagem filtrada obtida na etapa
anterior, composta da mão do usuário, um objeto circular de
cor semelhante à da pele e um fundo cinza. Na Figura 10(b)
é mostrado o resultado da limiarização, com a mão e o
objeto circular tendo sido segmentados.
Para a representação dos dados da imagem segmentada na
etapa anterior, utiliza-se a representação através do
algoritmo de código em cadeia, a qual é uma representação
baseada no contorno do objeto, visto que se deseja obter
informações sobre as inflexões deste contorno para
identificar as pontas dos dedos da mão usuário.
O primeiro passo é a extração do contorno. Um ponto P é
definido como um ponto de contorno (c(x,y) = 1) quando
este é um ponto de fundo (g(x,y) = 0) e pelo menos um
ponto do objeto de interesse pertence à sua vizinhança
g(x,y) = 1. Na Figura 11(a) é mostrada a imagem
segmentada obtida na etapa anterior e na Figura 11(b) é
mostrada o resultado da extração do contorno da imagem.
O algoritmo de código em cadeia é então aplicado sobre a
imagem do contorno. Descarta-se os menores contornos da
imagem e preserva-se apenas o maior contorno encontrado
pelo código em cadeia, armazenando-se as suas
coordenadas x e y.
Na Figura 12(a) é mostrado a imagem de contorno obtida
na etapa anterior e na Figura 12(b) é mostrado o resultado
da aplicação do algoritmo de código em cadeia na imagem
do contorno, em que restou apenas o maior contorno (o
contorno da mão) e foi descartado o menor contorno (o
contorno do objeto circular).
Figura 11. (a) Imagem segmentada na etapa anterior do
sistema. (b) Imagem com o contorno extraído das regiões
segmentadas da imagem.
Figura 12. (a) Imagem do contorno obtida anteriormente. (b)
Imagem com o maior contorno armazenado na lista encadeada
gerada pelo algoritmo de código em cadeia.
Para a descrição dos dados representados, utiliza-se como
atributos a curvatura e os pontos críticos do contorno da
mão do usuário, os quais podem ser utilizados para localizar
as pontas dos dedos da mão, como proposto no trabalho de
Leal et al. (2009) [19]. O cálculo da curvatura é realizado
sobre o contorno da região da mão seguindo a abordagem
mostrada na seção de Fundamentação Teórica.
Na Figura 13(a) é mostrado o contorno representado pela
lista do algoritmo de código em cadeia. Na Figura 13(b) são
mostradas em cor cinza escuro as regiões de alta curvatura
encontradas, que correspondem às regiões ao redor das
pontas dos dedos e dos vales entre os dedos da mão.
Dentro de cada uma dessas regiões de alta curvatura,
seleciona-se o ponto central de cada uma delas como sendo
o ponto crítico representado a ponta dos dedos e dos vales.
Apenas as pontas dos dedos são interessantes para o
método, por isso deve-se eliminar os pontos críticos que
representam os vales. Isso é feito identificando o ponto
médio do segmento de reta formado pelos dois pontos
extremos da região de alta curvatura.
Caso esse ponto se encontre sobre uma região de pele, o
ponto crítico corresponde a uma ponta de dedo. Caso
contrário, o ponto crítico corresponde a um vale e é
descartado do processamento.
O resultado dessa etapa de descrição é representado na
Figura 14. Na Figura 14(a) são mostradas as regiões de alta
curvatura encontradas e na Figura 14(b) os pontos críticos
definidos a partir dessas regiões de alta curvatura, os quais
correspondem às pontas dos dedos da mão do usuário.
Figura 13. (a) Imagem com o maior contorno da imagem. (b)
Imagem com as regiões de alta curvatura do contorno em
cinza escuro.

Figura 14. (a) Imagem com as regiões de alta curvatura do
contorno em cinza escuro. (b) Imagem com os pontos críticos
(pontas dos dedos) do contorno localizados.
A etapa de reconhecimento consiste em
que o usuário está realizando para a câmera. O sistema
desenvolvido reconhece gestos para seis ações pré
definidas: Apontamento (Figura 15(a)),
15(b)), Zoom-out (Figura 15(c)), Rotação Horária (Figura
15(d)), Rotação Anti-Horária (Figura
(Figura 15(f)). O fluxograma do processo de
reconhecimento é mostrado na Figura 16
Primeiramente o sistema verifica a quantidade de pontas de
dedos identificados na etapa anterior de descrição. Caso o
número de dedos reconhecidos seja igual a 1, o sistema
identifica o gesto do usuário como sendo de apontamento e
armazena a posição x-y da ponta de dedo encontrada.
Caso o número de dedos reconhecidos seja igual a 2, o
sistema pode identificar dois tipos de gestos: gesto p
ação de zoom ou de rotação. Para diferenciar entre os dois,
verifica-se o ângulo da reta formada pelas pontas dos dois
dedos reconhecidos.
Caso o ângulo da reta formada pelas pontas dos dedos seja
de aproximadamente 90°, o sistema identifica o gesto
realizado como sendo de zoom. Caso o ângulo seja de
aproximadamente 45° ou 125°, o sistema identifica o gesto
realizado como sendo de rotação. Caso o ângulo assuma
quaisquer outros valores, o sistema identifica o gesto como
sendo inválido.
Caso o gesto realizado seja de zoom, deve
referente a zoom in ou zoom out. Isso é feito calculando
o tamanho do segmento de reta formado pelas pontas dos
dois dedos do usuário. Se essa distância for maior que um
certo limiar, o gesto é de zoom in; se essa distância for
menor que um certo limiar, o gesto é de
Caso o gesto realizado seja de rotação, deve
se ele é referente à rotação horária ou anti
feito verificando-se o ângulo da reta formada pelas pontas
dos dois dedos do usuário. Caso o ângulo seja de
aproximadamente 45°, o gesto é de rotação horária; caso o
ângulo seja de aproximadamente 125°, o gesto é de
anti-horária.
sistema identifica o gesto como sendo de Arrastar e
armazena a coordenada da ponta do dedo central.
(a) Imagem com as regiões de alta curvatura do
contorno em cinza escuro. (b) Imagem com os pontos críticos
(pontas dos dedos) do contorno localizados.
em identificar o gesto
que o usuário está realizando para a câmera. O sistema
desenvolvido reconhece gestos para seis ações pré-
), Zoom-in (Figura
), Rotação Horária (Figura
Horária (Figura 15(e)) e Arrastar
). O fluxograma do processo de
6.
Primeiramente o sistema verifica a quantidade de pontas de
dedos identificados na etapa anterior de descrição. Caso o
econhecidos seja igual a 1, o sistema
identifica o gesto do usuário como sendo de apontamento e
y da ponta de dedo encontrada.
sistema pode identificar dois tipos de gestos: gesto para a
ou de rotação. Para diferenciar entre os dois,
se o ângulo da reta formada pelas pontas dos dois
Caso o ângulo da reta formada pelas pontas dos dedos seja
de aproximadamente 90°, o sistema identifica o gesto
. Caso o ângulo seja de
aproximadamente 45° ou 125°, o sistema identifica o gesto
realizado como sendo de rotação. Caso o ângulo assuma
quaisquer outros valores, o sistema identifica o gesto como
, deve-se identificar se é
. Isso é feito calculando-se
o tamanho do segmento de reta formado pelas pontas dos
dois dedos do usuário. Se essa distância for maior que um
se essa distância for
menor que um certo limiar, o gesto é de zoom out.
Caso o gesto realizado seja de rotação, deve-se identificar
rotação horária ou anti-horária. Isso é
se o ângulo da reta formada pelas pontas
dos dois dedos do usuário. Caso o ângulo seja de
aproximadamente 45°, o gesto é de rotação horária; caso o
ângulo seja de aproximadamente 125°, o gesto é de rotação
sistema identifica o gesto como sendo de Arrastar e
armazena a coordenada da ponta do dedo central. Caso o
Figura 15. Gestos suportados pelo sistema. (a) Gesto de ação
de apontamento. (b) Gesto de ação de
ação de zoom out. (d) Gesto de ação de rotação horária. (e)
Gesto de ação de rotação anti
arrastar.
Figura 16. Fluxograma do processo de reconhecimento dos
gestos.
número de dedos reconhecidos seja algum outro que não
1,2 ou 3, o sistema não reconhece nenhum gesto válido.
O método de interação para dispositivos portáteis baseado
em rastreamento da mão descrito
no sistema proposto no trabalho
Formas de Avaliação
O algoritmo proposto neste trabalho será avaliado em três
critérios distintos: custo computacional, quantidade de
Gestos suportados pelo sistema. (a) Gesto de ação
apontamento. (b) Gesto de ação de zoom in. (c) Gesto de
. (d) Gesto de ação de rotação horária. (e)
Gesto de ação de rotação anti-horária. (f) Gesto de ação de
arrastar.
Fluxograma do processo de reconhecimento dos
gestos.
número de dedos reconhecidos seja algum outro que não
1,2 ou 3, o sistema não reconhece nenhum gesto válido.
para dispositivos portáteis baseado
em rastreamento da mão descrito neste trabalho é baseado
no sistema proposto no trabalho de Cortez et al. (2008) [5].
O algoritmo proposto neste trabalho será avaliado em três
: custo computacional, quantidade de

gestos reconhecidos e invariância à rotação no gesto de
apontamento.
RESULTADOS
Nesta seção são descritos os resultados e as avaliações da
realização deste trabalho de acordo com as formas de
avaliação descritas na seção anterior.
Resultados da Implementação do Método Proposto
O resultado do reconhecimento realizado pelo sistema
proposto dos gestos é mostrado na Figura 17. Para cada
item da Figura, tem-se à direita a imagem obtida pela
câmera do dispositivo móvel e tem-se à esquerda a imagem
segmentada com o contorno rastreado em vermelho, as
regiões de alta curvatura encontradas em amarelo e as
pontas de dedo localizadas em verde.
Pequenos ícones também são mostrados no canto inferior
esquerdo de cada imagem segmentada indicando o gesto
que foi reconhecido: o desenho de uma seta surge quando o
gesto reconhecido é de Apontamento; o desenho de setas se
expandindo surge quando o gesto reconhecido é de Zoom
In; o desenho de setas se retraindo surge quando o gesto
reconhecido é de Zoom Out; o desenho de setas em rotação
horária surge quando o gesto reconhecido é de Rotação
Horária; o desenho de setas em rotação anti-horária surge
quando o gesto reconhecido é de Rotação Anti-Horária; e,
Figura 17. Resultado do reconhecimento dos gestos suportados
pelo sistema. (a) Resultado do reconhecimento do gesto de
apontamento. (b) Resultado do reconhecimento do gesto de
zoom in. (c) Resultado do reconhecimento do gesto de zoom
out. (d) Resultado do reconhecimento do gesto de rotação
horária. (e) Resultado do reconhecimento do gesto de rotação
anti-horária. (f) Resultado do reconhecimento do gesto de
arrastar.
Método Proposto
Tempo Médio 14,60 ms
Tempo Máximo 19 ms
Tempo Mínimo 13 ms
Variância 2,513
Tabela 2. Tempo de processamento médio, máximo e mínimo,
em milisegundos, e a variância para o método proposto.
Método Quantidade de Gestos
Método Proposto 6
Tabela 3. Quantidade de gestos reconhecidos pelo método
proposto.
finalmente, o desenho de um quadrado sendo arrastado
surge quando o gesto reconhecido é de Arrastar.
Custo Computacional
Os tempos de processamento, em milissegundos, médio,
máximo, mínimo e a variância dos tempos de
processamento do método proposto são apresentados na
Tabela 2.
Quantidade de Gestos Reconhecidos
A quantidade de gestos reconhecidos pelo método é
mostrada na Tabela 3.
O método proposto consegue reconhecer até seis gestos
diferentes (apontamento, zoom in, zoom out, rotação
horária, rotação anti-horária e arrastar). Com um maior
número de gestos reconhecidos, mais ações podem ser
associadas a ele.
Invariância à Rotação para o Gesto de Apontamento
O reconhecimento do gesto de apontamento é mostrado na
Figura 18 sob diferentes ângulos de rotação da mão em
relação à câmera. Um marcador verde em forma de cruz
indica a localização da ponta do dedo reconhecida.
Figura 18. Rastreamento da ponta do dedo sob diferentes
ângulos re rotação da mão em relação à câmera.

Percebe-se pelas imagens que, independente do ângulo de
rotação da mão em relação à câmera, o método consegue
localizar a ponta do dedo da mão do usuário (em todas as
imagens, o marcador aparece na ponta do dedo do usuário).
Isso se deve ao fato da escolha dos pontos críticos do
contorno como descritores da mão, visto que eles são
descritores invariantes à rotação.
CONCLUSÕES
Neste trabalho foi apresentado um sistema de interação com
dispositivos portáteis baseado em técnicas de Visão
Computacional para rastreamento da mão humana.
Nos testes realizados até o momento o sistema apresentou
um comportamento dentro da expectativa, tendo
conseguido identificar os gestos propostos com um tempo
de processamento relativamente baixo. Foi mostrado
também que o rastreamento da ponta do dedo para o gesto
de apontamento é invariante à rotação da mão em relação à
câmera.
Como perspectivas futuras, têm-se a comparação do método
proposto com outros algoritmos de rastreamento da mão
para dispositivos portáteis existentes na literatura de modo a
validar seus resultados, bem como a definição de outras
formas de avaliação do seu desempenho.
AGRADECIMENTOS
Os autores gostariam de agradecer ao LESC - Laboratório
de Engenharia de Sistemas de Computação -, ao DETI -
Departamento de Engenharia de Teleinformática - e à
CAPES - Coordenação de Aperfeiçoamento de Pessoal de
Nível Superior - pelo apoio financeiro e pelo fornecimento
das condições materiais necessárias para o desenvolvimento
deste trabalho.
REFERÊNCIAS
1. Banard, M., Hannuksela, J., Sangi, P., Heikkilä, J. A
vision based motion interface for mobile phones. In The
5th
International Conference on Computer Vision
Systems, v. 108, p. 188-195, 2007.
2. Campo, C., Navarrete, C., Garcia-Rubio, C.
Performance evaluation of J2ME and Symbian
applications in smart camera phones. In International
Conference on Consumer Electronics, 1-2, 2007.
3. Capin, T., Haro, A., Wilkson, S. Camera-based virtual
environment interaction on mobile devices. In Lecture
Notes in Computer Science, 4263, 765-773, Germany,
2006.
4. Chai, D., Ngan, K. N. Face segmentation using skin-
color map in videophone applications. In IEEE
Transactions on Circuits and Systems for Video
Technology, 9(4), 1999.
5. Cortez, P. C., Costa, R. C. S., Soares, J. M., Siqueira, R.
da S., Leite Neto, C. F., Freitas, R. F., Barros, A. C. da
S., Ribeiro, F. C. Sistema de Reconhecimento de Gestos
da Mão Utilizando Visão Artificial Aplicado à Interação
com Dispositivos Portáteis. Patente PI 0805755-9,
depositada em 18/02/2008.
6. Costa, L. da F., César, R. M. Shape Analysis and
Classification: Theory and Practice, CRC Press, 2001.
7. Davies, E. R. Machine Vision: Theory, Algorithms,
Practicalities, 3rd edition, Morgan Kauffman Publishers
Inc, San Francisco, CA, USA, 2004.
8. Dorfmuller-Ulhaas, K., Schmalstieg, D. Finger tracking
for interaction in augmented environments. In Proc.
IEEE and ACM International Symposium on Augmented
Reality, p. 55, 2001.
9. Freitas, R. F., Costa, R. C. S., Barros, A. C. da S.,
Siqueira, R. da S., Cortez, P. C., Soares, J. M.
Algoritmos para segmentação da pele utilizando
modelos de cores RGB em ambiente Matlab/Simulink,
Conexões: Ciência e Tecnologia, 1, 65-71, 2007.
10.Gallo, O., Arteaga, S. M., Davis, J. E. A camera-based
poiting interface for móbile devices. In 15th
IEEE
International Conference on Image Processing, 1420-
1423, 2008.
11.Gonzalez, R. C., Woods, R. E. Digital Image
Processing. Pearson Prentice Hall, New Jersey, USA,
2008.
12.Hannuksela, J., Sangi, P., Heikkilä, J. Motion-based
finger tracking for user interaction with mobile devices.
In Proc. 4th
European Conference on Visual Media
Production, 2007.
13.Hannuksela, J., Sangi, P., Heikkilä, J. Vision-based
motion estimation for interaction with mobile devices.
In Computer Vision and Image Understanding, 108,
188-195, 2007.
14.Higashimo, W. A. Estudo comparativo de algoritmos de
subtração de fundo em sequência de imagens.
Dissertação, Universidade Estadual de Campinas,
Campinas, 2006.
15.Hinckley, K., Pierce, J., Sinclair, M., Horvitz, E.
Sensing techniques for mobile interaction. In Proc. 13th
Annual ACM Symposium on User Interface, Software
and Technology, 91-100, 2000.
16.Intel. Open source computer vision library: reference
manual. Estados Unidos, 2000.
17.Johnston, E., Rosenfeld, A. Angle detection on digital
curves, In IEEE Trans, 875-878, 1973.
18.Koike, H., Sato, Y., Kobayashi, Y. Integration paper and
digital information on enhanced desk: a method for real
time finger tracking on an augmented desk system. In
ACM Transactions on Computer-Human Interaction,
8(4), 307-322, 2001.
19.Leal, F. R. M., Barros, A. C. da S., Freitas, R. F., Costa,
R. C. S., Cortez, P. C., Soares, J. M., Espinosa, M. G. L.
Estudo comparativo de formas de representação da mão
humana para o reconhecimento de gestos baseado em
redes neurais artificiais, momentos de Hu e atributos de
forma. In XVIII Seminário de Computação, 18, 2009.

20.Masood, A., Sarfraz, M. Corner detection by sliding
rectangles along planar curves. In Computer Graphic-
UK, 31, 440-448, 2007.
21.Moeslund, T., Granum, E. A survey of computer vision
based human motion capture. In Computer Vision and
Image Understanding, 81(3), 231-268, 2001.
22.Nixon, M., Aguado, A. Feature Extraction Image
Processing, 1st
edition, Elsevier, UK, 2002.
23.Paula Junior, I. C. de. Abordagem wavelet para detecção
de cantos em formas. Dissertação (Mestrado) –
Universidade Federal do Ceará, Fortaleza, 2007.
24.Pitas, I. Digital Image Processing: Algorithms and
Applications, 1st
edition, John Wiley Sons, Inc., New
York, NY, USA, 2000.
25.Pressman, R. S. Engenharia de Software, 6th edition,
McGraw-Hill, 2006.
26.Truyenque, M. A. Q. Uma aplicação de visão
computacional que utiliza gestos da mão para interagir
com o computador. Dissertação (Mestrado) – Pontifícia
Universidade Católica do Rio de Janeiro, Rio de Janeiro,
2005.
27.Tsang, W. M., Pun, K. A finger-tracking virtual mouse
realized in an embedded system. In Proc. International
Symposium on Intelligent Signal Processing and
Communication Systems, 781-7784, 2005.
28.Wang, J., Zhai, S., Canny, J. Camera phone based
motion sensing: Interaction techniques, applications and
performance study. In Proc. UIST ’06, ACM, 101-110,
2006.

Virtual Wheel: Proposta de Um Método de Interação
Gestual para Jogos de Corrida
Rodrigo Fernandes Freitas, Paulo César Cortez, Rodrigo C. S. Costa, Antônio C. da S. Barros
Laboratório de Engenharia de Sistemas de Computação, Universidade Federal do Ceará - UFC
Campus do Pici S/N, Bloco 723, Cx. Postal 6015, CEP 60455-970 – Fortaleza - CE
rodrigo@gihm.info, cortez@gihm.info, rodcosta@gimh.info, carlos@gimh.info
RESUMO
A indústria de jogos eletrônicos ou video games é hoje uma
das maiores indústrias do mundo, com lucros anuais da
ordem de dezoito bilhões de dólares. Tradicionalmente, a
forma de interação do ser humano com os video games é
realizada através de dispositivos físicos como joysticks,
mouse e teclado. Contudo, existe uma tendência de
mercado em criar formas mais intuitivas para realizar esta
interação, como por exemplo através de métodos de visão
computacional. Este artigo apresenta o Virtual Wheel, um
método de reconhecimento de gestos para interação com
jogos de corrida. O método proposto consiste na localização
e reconhecimento das mãos do usuário, o qual simula o uso
de um volante real e realiza movimentos para a esquerda e a
direita, além de poder acionar comandos especiais erguendo
os polegares. Os resultados mostram que o sistema é
possível de ser utilizado em conjunto com jogos de corrida.
Author Keywords
Interação por gestos, Segmentação de pele,
Reconhecimento de gestos.
I.4.9. Image processing and computer vision: Applications.
INTRODUÇÃO
Atualmente, a indústria de jogos eletrônicos (games) é uma
das maiores do ramo de entretenimento, com lucros anuais
entre 18 e 25 bilhões de dólares, e também é uma das que
mais crescem, com uma taxa de crescimento de 15 a 25%
por ano [7, 16]. A indústria de games também possui uma
presença crescente no Brasil, com uma arrecadação de 80
milhões de reais em 2008 no país [1].
A maior parte dos jogos para computador é controlada por
dispositivos de entrada convencionais como joystick,
teclado e mouse. Tais jogos não permitem que o jogador
faça uso de seus movimentos naturais para interagir com os
mesmos, o que implica que ele deve aprender a controlá-
los, ou seja, associar sequências de apertos de botões e
movimentos de eixos a ações dentro do jogo [15].
Existem vários motivos para um jogador desejar mudar a
forma de interação com um jogo. Usar um dispositivo de
entrada diferente ou uma nova forma de interação (por
exemplo, através de sons captados por um microfone ou por
reconhecimento de gestos) pode tornar a experiência de
jogar mais realista e divertida. Além disto, o
reconhecimento de gestos é uma forma de interação mais
intuitiva, podendo tornar o jogo acessível a usuários com
necessidades físicas especiais [14].
Um exemplo de método de interação a partir do
reconhecimento de gestos é o Kinect, produzido pela
Microsoft. O Kinect consiste em uma nova tecnologia para
o console Xbox 360, sem fios ou controles físicos,
reconhecendo o movimento do usuário através de uma
câmera especial, a ZCam. Através do processamento de
vídeo é realizado o mapeamento completo do corpo, além
do reconhecimento comandos de voz [12]. Sua utilização é
mostrada na Figura 1.
Figura 1. Kinect sendo utilizado em conjunto com um jogo de
corrida.
personal or classroom use is granted without fee provided that copies are
or republish, to post on servers or to redistribute to lists, requires prior
specific permission and/or a fee.
CHI 2009, April 4–9, 2009, Boston, Massachusetts, USA.
Copyright 2009 ACM 978-1-60558-246-7/09/04...$5.00.

Figura 2. Playstation Move da Sony em funcionamento.
A Sony realiza o desenvolvimento um controle sensível a
movimento, o Playstation Move, que conta com o auxílio
de esferas coloridas para que seu movimento possa ser
rastreado pelo Playstation Eye, a câmera do console
Playstation 3 [13], como mostrado na Figura 2.
No trabalho de Paula et al. (2006) [11] é proposto o
Camera Kombat, jogo de luta que, através do emprego de
Visão Computacional, possibilita aos usuários jogarem
utilizando o próprio corpo nos combates. Através de
técnicas de subtração de fundo, os jogadores são
identificados, possibilitando o reconhecimento das ações
realizadas por eles, como soco, chute ou esquiva, como
mostrado na Figura 3.
Figura 3. Camera Kombat em funcionamento,
detectando os jogadores e os movimentos realizados por
estes.
Figura 4. Demonstração do GeFighters, com a utilização de
marcadores para indicar a localização das mãos direita e
esquerda.
Teixeira et al. (2006) [15] propõem o GeFighters, outro
jogo de luta em que o usuário utiliza seus próprios
movimentos, mas diferente do Camera Kombat, o sistema é
baseado em marcadores para a identificação das mãos
esquerda e direita, como mostrado na Figura 4.
Estes trabalhos descritos na literatura são capazes de
reconhecer os movimentos do jogador e permitem a
interação com os jogos de maneira bastante efetiva. Porém,
eles sofrem de algumas limitações. O Kinect e o Playstation
Move são dependentes da utilização de câmeras especials, a
ZCam e o PlaystationEye respectivamente, restringindo seu
uso aos usuários que possuam tal dispositivo de hardware,
além de só poderem ser utilizados nos consoles para os
quais foram desenvolvidos, o XBox 360 e o Playstation 3,
respectivamente. O Camera Konbat e o GeFigthers podem
ser utilizados com câmeras de vídeos comuns, no entanto o
primeiro exige que o fundo permaneça estático e qualquer
variação de luminosidade causará falhas na detecção dos
movimentos. Já o segundo requer a existência de objetos
padronizados, no caso os marcadores que indicam a mão
esquerda e direita, para o reconhecimento dos movimentos.
Este trabalho tem como objetivo apresentar um sistema de
Visão Computacional (VC) que captura imagens através de
uma webcam comum e permite ao usuário controlar um
jogo de corrida qualquer através de gestos manuais. O
sistema dá a impressão ao usuário de estar segurando um
volante de automóvel, podendo girá-lo para a esquerda ou
para a direita, similarmente ao movimento feito ao dirigir
um veículo. Além disto, o sistema proposto permite o
acionamento de comandos especiais através do
reconhecimento dos dedos polegares, possibilitando o envio
de informações, similar ao realizado pelos botões de um
controle de video game.
O trabalho está organizado em 5 seções. A próxima seção
descreve os métodos que compõem o sistema de VC, em
seguida, a metodologia proposta é descrita. Na seção 4 são
descritos os resultados obtidos a partir da metodologia

Figura 5. Diagrama de blocos das etapas de um Sistema de
Visão Artificial.
proposta e, por fim, a seção 5 descreve as conclusões e as
perspectivas de trabalhos futuros.
FUNDAMENTAÇÃO TEÓRICA
Um sistema de Visão Artificial é composto das etapas
mostradas na Figura 5, as quais são detalhadas a seguir.
Aquisição da Imagem
A etapa de aquisição consiste da captura das imagens por
um elemento sensor, gerando uma matriz com valores
discretos à qual podem ser aplicadas diversas operações. A
imagem adquirida pode ser representada em diversos
espaços de cores, tais como YCbCr, RGB e HSV [4].
Pré-Processamento
A etapa de pré-processamento consiste no processo de
manipular uma imagem de modo que a imagem resultante
seja mais apropriada do que a imagem original para uma
aplicação específica. Ou seja, a principal meta é melhorar
uma imagem em algum sentido pré-definido, de modo a
recuperar uma imagem dos danos sofridos na etapa de
aquisição [4].
Há uma infinidade de técnicas de pré-processamento na
literatura. Uma técnica muito utilizada é a aplicação do
filtro da média, o qual consiste em uma janela deslizante de
tamanho 2N+1 x 2N+1, em que o pixel (x,y) da imagem (I)
em que a janela está centrada é substituído na imagem
filtrada (J) através de:
, = ∑ ∑ + , +

(1)
Segmentação de Imagens Digitais
O processo de segmentação de uma imagem digital consiste
em subdividir uma dada imagem em regiões ou objetos com
base em características destas regiões, as quais são
compostas por um conjunto de pixels satisfazendo um dado
critério [4].
Existem diversas técnicas capazes de segmentar um objeto
em uma imagem digital. Uma das técnicas muito utilizadas
é a segmentação por limiarização. Este tipo de segmentação
é baseado na distribuição dos níveis de cinza da imagem e
possui um baixo custo computacional [8].
A limiarização funciona através do estabelecimento de um
limiar T que separa a imagem em duas regiões. Os pixels da
imagem f(x,y) cujos valores são maiores que T são
classificados como pontos do objeto e os pontos da imagem
f(x,y) cujos valores são menores que T são classificados
como fundo. Dessa forma, pode-se criar uma imagem
segmentada g(x,y) em que, por exemplo, os pixels
referentes ao objeto recebam um valor 1 (branco) e os
pixels referentes ao fundo recebam um valor 0 (preto) [3].
O processo de limiarização pode ser então representado
pela seguinte expressão:
, =
1, , ≥
0, ,
(2)
Representação e Descrição
Após a segmentação de uma imagem, o conjunto resultante
de pixels deve ser representado e descrito de forma
adequada para o processamento computacional
subseqüente. A representação pode se dar na forma de
contornos ou de regiões completas [4].
Feita a representação, vem o processo de descrição ou
seleção de atributos, de forma a extrair atributos dos dados
representados que resultem em alguma informação
quantitativa de interesse ou que sejam básicos para
diferenciar uma classe de objetos de outra [5].
Um dos algoritmos existentes para a representação é o
algoritmo de elementos ou componentes conectados.
Elementos conectados são um conjunto de pixels agrupados
cujos valores de intensidade satisfazem um certo critério de
similaridade (no caso de imagens binárias, se seus valores
de intensidade são iguais). Esse algoritmo tem o objetivo de
identificar e rotular todos os agrupamentos de pixels
conectados presentes na imagem [4]. A Figura 6 mostra
uma região com três elementos conectados.
A partir da representação por elementos conectados, um
atributo importante de descrição que se pode extrair é o
centro de massa de um objeto. Uma das técnicas existentes
para o cálculo do centro de massa de um objeto é baseada
na Transformada da Distância, descrito no trabalho de
Morris e Elshehry (2002) [10]. Neste trabalho, a
Transformada da Distância é utilizada para calcular a
posição do centro de massa da região da mão por apresentar
maior robustez à presença do antebraço na imagem do que
as outras técnicas de cálculo do centro de massa.
Figura 6. Região com três elementos conectados.

No trabalho de Leal et al. (2009)
algoritmo de representação e descrição para a detecção de
pontos críticos da mão humana. O algoritmo consiste, na
fase de representação, da aplicação de um algoritmo de
código em cadeia, o qual armazena em uma lista uma
sequência de segmentos conectados de modo a representar
o contorno da mão. Na fase de descrição, utiliza
informação do valor da curvatura dos pontos do contorno
para a identificação dos pontos críticos da mão, os quais
correspondem às pontas dos dedos e aos vales entre os
dedos.
Os pontos correspondentes aos vales entre os dedos são
descartados, restando somente os pontos correspondentes às
pontas dos dedos.
Reconhecimento e Decisão
Reconhecimento é o processo de atribuir um rótulo a um
determinado objeto baseado nos seus descritores, indicando
o seu significado. Já decisão é o processo de verificar qual
ação o sistema deve efetuar com base nos objetos que foram
reconhecidos [4].
METODOLOGIA
Esta seção apresenta o sistema de Visão
proposto, bem como detalha a metodologia utilizada para
desenvolvê-lo. O algoritmo proposto segue o mesmo
processo de um sistema de Visão Artificial mostrado na
Figura 5, na seção de Fundamentação Teórica
Aquisição
A etapa de aquisição da imagem é feita utilizando uma
webcam, fornecendo uma imagem representada no espaço
cores YCbCr. Para a captura da imagem da
utilizada a biblioteca OpenCV [6], que contém uma série d
funções na área de processamento de imagem. Com a
imagem adquirida, realiza-se todo o processo de
segmentação, extração do contorno e localização dos
centros de massa.
Pré-Processamento
Para a realização da etapa de pré-
escolhida aplicação do Filtro da Média sobre a imagem
adquirida pela câmera. Vários testes foram realizados e foi
observado que a utilização de uma janela 5x5 para o Filtro
da Média apresenta o melhor equilíbrio entre custo
computacional e desempenho de filtragem.
Segmentação
Neste trabalho, é segmentada a região da pele formada
pelos braços do usuário. Para isso, utiliza
limiarização descrita na seção anterior
YCbCr. Uma vantagem de realizar a segmentação neste
formato de cores consiste em evitar o esforço
computacional de converter a imagem para outro espaço de
cores, como RGB ou HSV.
Os limiares utilizados foram propostos por
(1999) [2]. Os pixels que estiverem nas faixas de valores do
canais Cb = [77,127] e Cr = [133,173] s
como pele.
(2009) [8] é descrito um
algoritmo de representação e descrição para a detecção de
pontos críticos da mão humana. O algoritmo consiste, na
, da aplicação de um algoritmo de
código em cadeia, o qual armazena em uma lista uma
sequência de segmentos conectados de modo a representar
o contorno da mão. Na fase de descrição, utiliza-se a
informação do valor da curvatura dos pontos do contorno
a identificação dos pontos críticos da mão, os quais
correspondem às pontas dos dedos e aos vales entre os
correspondentes aos vales entre os dedos são
descartados, restando somente os pontos correspondentes às
Reconhecimento é o processo de atribuir um rótulo a um
determinado objeto baseado nos seus descritores, indicando
o seu significado. Já decisão é o processo de verificar qual
ação o sistema deve efetuar com base nos objetos que foram
isão Computacional
proposto, bem como detalha a metodologia utilizada para
lo. O algoritmo proposto segue o mesmo
processo de um sistema de Visão Artificial mostrado na
seção de Fundamentação Teórica.
A etapa de aquisição da imagem é feita utilizando uma
, fornecendo uma imagem representada no espaço
cores YCbCr. Para a captura da imagem da webcam é
, que contém uma série de
funções na área de processamento de imagem. Com a
se todo o processo de
segmentação, extração do contorno e localização dos
-processamento foi
ção do Filtro da Média sobre a imagem
adquirida pela câmera. Vários testes foram realizados e foi
observado que a utilização de uma janela 5x5 para o Filtro
da Média apresenta o melhor equilíbrio entre custo
computacional e desempenho de filtragem.
a região da pele formada
pelos braços do usuário. Para isso, utiliza-se a técnica de
no espaço de cores
YCbCr. Uma vantagem de realizar a segmentação neste
em evitar o esforço
computacional de converter a imagem para outro espaço de
Os limiares utilizados foram propostos por Chai e Ngan
. Os pixels que estiverem nas faixas de valores do
canais Cb = [77,127] e Cr = [133,173] são considerados
Uma das vantagens da utilização dos limiares propostos por
Chai e Ngan (1999) é a sua capacidade de segmentar
corretamente os mais variados tons de pele
ser visto na Figura 7.
Neste trabalho é desenvolvido um método capaz de
reconhecer os gestos mostrados na Figura
Figura 7. Os limiares propostos por Chai e Ngan (1999)
conseguem segmentar corretamente os mais variados tons de
pele
Figura 8. (a) Gesto com as mãos
câmera. (b) Gesto com as mãos fechadas apontadas para a
câmera rotacionadas para a esquerda. (c) Gesto com as mãos
fechadas apontadas para a câmera rotacionadas para a
direita. (d) Gesto com as mãos fechadas e com o polegar
esquerdo erguido. (e) Gesto com as mãos fechadas e com o
polegar direito erguido.
Uma das vantagens da utilização dos limiares propostos por
Chai e Ngan (1999) é a sua capacidade de segmentar
corretamente os mais variados tons de pele, conforme pode
Neste trabalho é desenvolvido um método capaz de
reconhecer os gestos mostrados na Figura 8.
Os limiares propostos por Chai e Ngan (1999)
conseguem segmentar corretamente os mais variados tons de
pele.
. (a) Gesto com as mãos fechadas apontadas para a
câmera. (b) Gesto com as mãos fechadas apontadas para a
câmera rotacionadas para a esquerda. (c) Gesto com as mãos
fechadas apontadas para a câmera rotacionadas para a
direita. (d) Gesto com as mãos fechadas e com o polegar
do erguido. (e) Gesto com as mãos fechadas e com o
polegar direito erguido.

Na Figura 8(a) é mostrado o gesto com as mãos do usuário
fechadas e apontadas para a câmera. Na Figura 8(b) é
mostrado o gesto com as mãos fechadas apontadas para a
câmera rotacionadas para a esquerda. Na Figura 8(c) é
mostrado o gesto com as mãos fechadas apontadas para a
câmera rotacionadas para a direita. Na Figura 8(d) é
mostrado o gesto com as mãos apontadas para a câmera e o
dedo polegar esquerdo erguido. Na Figura 8(e) é mostrado
o gesto com as mãos fechadas apontadas para a câmera e o
dedo polegar direito erguido.
Para o reconhecimento destes gestos, aplica-se sobre a
imagem segmentada através do método de limiarização o
algoritmo de elementos conectados descrito na seção
anterior a fim de localizar os dois objetos com tom de pele
de maior área na imagem, correspondendo às regiões dos
braços do usuário. O objeto segmentado localizado mais à
direita é considerado o braço direito, e o objeto localizado
mais à esquerda é considerado o braço esquerdo.
Em cada uma dessas regiões são calculadas as coordenadas
do centro de massa (xd e yd para o braço direito e xe e ye
para o braço esquerdo), bem como as coordenadas das
pontas dos dedos polegares, caso eles estejam erguidos,
através do método descrito em [8].
Na próxima seção é descrito o método para o
reconhecimento dos gestos apresentados na Figura 8.
Reconhecimento dos Gestos
Para a utilização do sistema proposto, o usuário deve
simular estar segurando um volante e apontar as mãos para
a câmera, como representado na Figura 8(a). Com base nas
coordenadas dos centros de massa das duas mãos,
calculadas a partir do método descrito na sub-seção anterior
e os quais são mostrados como círculos verdes na Figura
9(a), é possível definir um eixo de rotação do volante
virtual, formado pela reta que une os centros de massa das
duas mãos, conforme mostrado na Figura 9(a). Com base
nesse eixo, define-se o ângulo de rotação do volante que o
usuário simula estar segurando, como mostrado na Figura
9(b).
Para reconhecer os gestos de rotação à direita e à esquerda
utiliza-se o ângulo θ do eixo com a horizontal, o qual é
dado por:
= tan!

#$#%
$%
' (3)
Figura 9. (a) Identificação dos centros de massa de cada uma
das mãos e construção do eixo de rotação. (b) Giro do volante
definido a partir do ângulo do eixo de rotação.
A partir do valor deste ângulo, o movimento do volante
virtual para a esquerda ou para a direita é realizado
utilizando a seguinte expressão:
()* +,-.) = /
0,-.1), −20° 20°
5678,19:, ≥ 20°
; 1, .:, ≤ −20°
(4)
Acionamento de Comandos Especiais
Além dos movimentos para esquerda e direita, o sistema
desenvolvido é capaz também de identificar dois comandos
especiais (A e B) que simulam dois botões de um controle
de um video game.
Para acionar o comando especial botão A e o comando
especial botão B, o usuário deve erguer o polegar esquerdo
e direito, respectivamente, conforme mostrado nas Figuras
8(d) e 8(e).
Envio de Comandos doTeclado
Neste trabalho, utiliza-se o movimento do Volante Virtual
reconhecido para fazer a interação com um jogo de corrida.
Para isto, os movimentos reconhecidos acionam teclas
específicas e que são importantes para o jogo.
Isto é feito através da função nativa do Windows
keybd_event, a qual sintetiza o pressionar de um botão do
teclado. A função recebe como parâmetros o código ASCII
da tecla desejada e o estado dela (pressionada ou liberada)
[9]. Há cinco comandos que podem ser enviados pelo
sistema desenvolvido:
• Aceleração: comando enviado ininterruptamente
ao computador, exceto quando acionado o
comando Desacelera visto a seguir, codificado pela
tecla 'X';
• Esquerda: comando enviado quando o usuário
gira o volante para a esquerda, codificado pela
tecla 'L';
• Direita: comando enviado quando o usuário gira o
volante para a direita, codificado pela tecla 'R';
• Desaceleração: comando enviado quando o
usuário ergue o polegar esquerdo, acionando o
comando Botão A, fazendo com que o veículo
do jogo pare de acelerar.
• Item: comando enviado quando o usuário ergue o
polegar direito, acionando o comando Botão B,
indicando o uso de um item especial, codificado
pela tecla 'Z'.
RESULTADOS
Esta seção apresenta os resultados alcançados na
implementação do sistema proposto. Primeiramente são
descritos os resultados do reconhecimento dos gestos
propostos. Em seguida, são descritos os resultados da
utilização do sistema proposto em conjunto com um game
comercial. Por fim são descritas algumas limitações
presentes no método proposto.

Figura 10. (a) Direção de movimento Centro. (b) Direção de
movimento Esquerda. (c) Direção de movimento Direita.
Figura 11. (a) Usuário habilitando o comando Botão A com
o polegar esquerdo. (b) Usuário habilitando o comando
Botão B com o polegar esquerdo.
Reconhecimento dos Gestos
Na Figura 10(a) é mostrado o usuário segurando o
“volante” na posição de direção “Centro”. Na Figura 10(b)
é mostrado o usuário segurando o volante na posição de
direção “Esquerda”. Na Figura 10(c) é mostrado o usuário
segurando o “volante” na posição de direção “Direita.
O resultado do reconhecimento dos comandos especiais é
mostrado na Figura 11: na Figura 11(a) aparece o resultado
do reconhecimento do comando Botão A e o desenho de um
quadrado verde no canto superior esquerdo do frame
indicando o reconhecimento do comando; e na Figura 11(b)
aparece o resultado do reconhecimento do comando Botão
B e o desenho de um quadrado verde no canto superior
direito do frame indicando o reconhecimento do comando.
Integração com Jogos
Na Figura 12 é mostrado o usuário realizando o movimento
para esquerda e o personagem no jogo seguindo o comando
recebido. Na Figura 13 é mostrado o usuário realizando o
movimento para a direita e o personagem no jogo seguindo
o comando recebido.
Figura 12. Usuário realizando comando Esquerda e
comando sendo realizado no jogo com o carro girando para a
esquerda.
Figura 13. Usuário realizando comando Direita e comando
sendo realizado no jogo com o carro girando para a direita.

Artigos Interaction South America 2010

Artigos Interaction South America 2010

Recommended

Recommended

More Related Content

Similar to Artigos Interaction South America 2010

Similar to Artigos Interaction South America 2010 (20)

More from Erico Fileno

More from Erico Fileno (20)

Artigos Interaction South America 2010