Tecnología y soluciones


FAQ

top

P. ¿Qué se entiende por Reconocimiento "continuo" y "discreto" del habla?

R. El proceso de hablar o dictar continuamente o de corrido a un ordenador, sin hacer pausas entre las palabras y como si se tratara de una conversación, con el fin de conseguir la inmediata ejecución de determinados comandos del sistema operativo o del programa que se utilice o bien una transcripción textual del dictado con gran precisión. La meta consiste en sustituir por completo al teclado y al ratón, principales "interfaces" del ordenador hasta ahora, incrementando al máximo el confort y el rendimiento profesional del usuario. De hecho, varios estudios han confirmado que cualquier persona puede generar texto dictando a un ordenador a una velocidad dieciséis veces más rápido que la mejor mecanógrafa del mundo. En cambio, el Reconocimiento "discreto" del habla requiere que el usuario se detenga brevemente tras pronunciar cada una de las palabras que emite, lo cual exige un cierto grado de práctica y disciplina mental. El Reconocimiento continuo exige bastante más capacidad de procesamiento del ordenador y es mucho más gratificante para el usuario. Las aplicaciones actuales para el Reconocimiento continuo del habla son "Speaker-dependant" o "Dependientes del usuario". Por tanto, requieren que cada cual "entrene" a la aplicación para que reconozca su propia voz mediante la pronunciación de un cierto número de frases y palabras modelo. Este entrenamiento requiere de 15 a 20 minutos por término medio, aunque los nuevos programas que han sido optimizados para el Pentium III y IV --como por ejemplo Dragon NaturallySpeaking Professional--, sólo necesitan de 3 a 5 minutos.

top

P. ¿Cuándo y cómo apareció esta nueva tecnología en el mercado informático?

P. El Reconocimiento continuo del habla ha constituido siempre una meta a largo plazo de la industria informática. Quizás antes de lo que se esperaba, con la introducción de ordenadores Pentium y avances sustanciales en el procesamiento de la señal acústica y del lenguaje humano, el Reconocimiento continuo del habla se ha convertido en realidad. En junio de 1997, Dragon Systems introdujo el primer programa comercial y genérico para el Reconocimiento continuo del habla en un ordenador, bajo la marca registrada Dragon NaturallySpeaking. No pasó mucho tiempo hasta que IBM Corp. secundase la iniciativa con su ViaVoice. Otros dos fabricantes, Lernout & Hauspie Speech Products (VoiceXpress) y Philips Electronics (FreeSpeech), han penetrado este nuevo mercado desde entonces, aunque ninguno de los dos productos existe actualmente.

top

P. ¿Quién puede beneficiarse del Reconocimiento continuo del habla? ¿Es adecuado para mis necesidades profesionales?...

A. Los colectivos más beneficiados por estas nuevas aplicaciones son:

Vendedores profesionales y comerciales ambulantes Cualquiera que tome notas durante o después de múltiples reuniones y curse pedidos de clientes con frecuencia, encontrará que sus ideas pueden plasmarse mucho más rápida y eficazmente con el Reconocimiento continuo del habla, incluso cuando se encuentren fuera de la oficina.

Ejecutivos y otras personas que no saben o no desean mecanografiar Bastantes ejecutivos no disponen por más tiempo de un equipo administrativo de apoyo. Muchos de ellos no aprendieron nunca a mecanografiar o se sienten incómodos ante el teclado. Estas aplicaciones permiten ahora dictar texto al ordenador con gran rapidez, precisión y una ortografía siempre impecable.

Pequeñas empresas y tele-trabajadores desde el hogar Cualquiera que no disponga de una secretaria encontrará que resulta mucho más fácil generar texto escrito en un gran número de aplicaciones informáticas, con el consiguiente ahorro de tiempo e incremento de productividad, mediante el Reconocimiento del habla.

Médicos y juristas Ambos necesitan redactar un gran número de textos en el ejercicio cotidiano de la profesión. Algunos fabricantes ofrecen versiones especiales de sus productos, como por ejemplo, Dragon NaturallySpeaking Medical Suite y Dragon NaturallySpeaking Legal Suite, que proporcionan vocabularios específicos y otras ventajas a dichos profesionales, aunque sólo en inglés americano y alemán por el momento. Versiones especiales en otros idiomas están en desarrollo o se proporcionan por terceros.

Escritores y traductores Quienes crean una cantidad significativa de textos pueden dictar a un ordenador, en lugar de mecanografiar, para contemplar cómo sus ideas fluyen rápidamente en la pantalla. Incentiva la creatividad y resulta bastante más divertido...

Ciegos, minusválidos y otros usuarios con riesgo de "Síndrome carpiano" Dado que las versiones profesionales de la mayoría de estos programas incorporan una función de reproducción o "Play Back", los ciegos pueden escuchar el texto que dictan al ordenador mientras la aplicación realiza su reconocimiento. Además, cualquiera que dedique un tiempo considerable a mecanografiar documentos encontrará que el Reconocimiento del habla puede reducir el riesgo de "Síndrome carpiano" derivado del uso repetitivo del teclado y el ratón.

Por cierto, que la Directiva Europea 2000/78/CE, obligará a empresas e instituciones públicas a garantizar la estricta "igualdad de tratamiento" a cuantos de sus trabajadores sufran de estas dolencias a finales del 2003.

top

P. ¿Existe alguna aplicación de Reconocimiento continuo del habla para el sistema operativo Macintosh?

R. Tanto Dragon Systems como IBM Corp. anunciaron el lanzamiento de versiones especiales de sus respectivos programas, Dragon NaturallySpeaking y ViaVoice, para el iMac a finales de 1999. Sin embargo, sólo algunas versiones de ViaVoice para el MacIntosh están disponible actualmente. No obstante, con la última generación de ordenadores Mac-Intel y las aplicaciones Parallels o Bootemps, es posible correr Windows XP y Dragon NaturallySpeaking, aunque no soportamos oficialmente este entorno de trabajo.

top

P. ¿Cuál es el mejor programa para el Reconocimiento continuo del habla en un ordenador?

A. De acuerdo con uno de los reportajes más completos y autorizados publicados hasta la fecha ("Speech Recognition: Finding Its Voice", PC Magazine):

""De los cuatro existentes, NaturallySpeaking proporciona consistentemente la máxima precisión en el reconocimiento. Voice Xpress causa impresión en su estreno con una buena integración en Microsoft Word y un segundo lugar en cuanto a precisión se refiere. ViaVoice brinda posibilidades de comando y control vocal sin paralelo, aunque su precisión deja que desear. Finalmente, FreeSpeech cuesta más barato que la competencia, pero también ofrece bastante menos"." Sin embargo, observe que precisión y velocidad en el reconocimiento no son los únicos criterios a tener en cuenta. Dado que la mayoría de las versiones profesionales de estos programas ofrecen un rendimiento cada vez más parecido, un "interface" sencillo de utilizar, que facilite al máximo la corrección y edición del texto que se dicta, constituye la mayor diferencia o ventaja para un usuario profesional.

top

P. ¿Cuál es la precisión y velocidad del Reconocimiento?

R. Evaluadores independientes y muchos usuarios consiguen dictar hasta 160 palabras por minuto con una precisión del 95-98%, es decir con tan sólo un 2-5% de errores de transcripción, utilizando las versiones profesionales de estos productos para su trabajo cotidiano. Por ejemplo, Dragon NaturallySpeaking "consiguió una precisión de hasta el 99%" en las pruebas objetivas realizadas por PC Magazine ("Speech Recognition: Finding Its Voice"). Aunque tan impresionantes resultados impliquen a veces unas ciertas dosis de entrenamiento del usuario y configuración a medida del programa (desarrollo de diccionarios especializados que faciliten el proceso del reconocimiento e incluso macro-comandos vocales para la inserción de textos repetitivos complejos y otras funciones), se pueden conseguir más de 100 palabras por minuto con una precisión del 90-92% sin preparativos de ningún tipo y tras el entrenamiento inicial de 3 a 5 minutos, con las versiones profesionales de estos productos. Tal y como ocurría con el Reconocimiento Óptico de Caracteres (OCR) hace unos pocos años, tasas inferiores de precisión no son realmente admisibles en tareas profesionales, puesto que el usuario tendría que invertir la mayor parte del tiempo que ahorra dictando al ordenador, corrigiendo errores de transcripción. Por tal razón, SpeechWare sólo trabaja con las mejores versiones, normalmente las profesionales, de estos productos.

top

P. ¿Para qué idiomas existen actualmente aplicaciones de Reconocimiento continuo del habla? ¿Existe alguna versión multilingüe para los políglotas?

A. Hay paquetes de "software" disponibles para:

  • alemán
  • español
  • francés
  • chino mandarín
  • holandés
  • inglés (americano, británico, hindú y del Sudeste asiático)
  • y el italiano.

Otros idiomas, incluyendo el japonés, están en desarrollo y se lanzarán próximamente. Por otra parte, las versiones profesionales de estos productos soportan ya el multilingüismo. Los usuarios políglotas abren o cierran los correspondientes módulos lingüísticos de una misma aplicación, según cambien de idioma. Por cierto que, algunas aplicaciones multilingües como por ejemplo Dragon NaturallySpeaking, incluyen un par de módulos lingüísticos, lo que reduce significativamente el coste total de adquisición.

top

P. ¿Es fácil dictar a un ordenador e importar eventualmente el texto transcrito en otras aplicaciones?

R. Los usuarios pueden dictar directamente en la ventana del procesador de textos simplificado que proporcionan estas aplicaciones, o bien en cualquier otro programa de Windows, como por ejemplo los principales tratamientos de texto del mercado (Microsoft Word, WordPerfect y Lotus WordPro), o programas de correo electrónico. La primera solución es más efectiva, especialmente en ordenadores lentos, porque dichos procesadores están optimizados para conseguir el máximo rendimiento. Cuando el usuario procede de esta forma, puede exportar el texto transcrito a cualquier otra aplicación con el método clásico "cortar/pegar" de Windows. Asimismo, puede guardar su archivo en formatos Ascii, RTF, Documento de Word, etc. compatibles con cualquiera de los antedichos tratamientos de texto. NaturallySpeaking, ViaVoice y VoiceXpress soportan también la denominada "modeless operation", es decir, permiten al usuario combinar indistintamente el dictado con otras tareas (corrección y edición del texto, ejecución de comandos de la propia aplicación o de Windows, uso del teclado en todo momento, etc.) de forma espontánea y natural. Los tres reconocen también comandos de Microsoft Word en lenguaje "coloquial", es decir, sin obligar al usuario a recordar el nombre exacto de los mismos.

top

P. Es posible dictar y corregir o editar la transcripción con posterioridad, o es preciso acometer todas estas tareas sucesivamente durante una misma sesión? ¿Cómo?.

R. Todas las versiones profesionales de estos programas permiten dictar y corregir o editar el texto transcrito con posterioridad. Además, algunas de ellas incluyen una función muy útil: la reproducción o "Play back" de la voz del usuario cuando se subrayan las correspondientes palabras o frases y se emite el comando adecuado. Esto permite incluso encargar a un asistente la corrección y la edición del texto dictado más tarde, y actualizar los archivos del Perfil del Usuario, una tarea imprescindible para mejorar la precisión del reconocimiento de quien genera el fichero, al corregir los errores de transcripción generados durante el reconocimiento. ¡Muchísimos ejecutivos están actualmente iniciándose en el Reconocimiento vocal, gracias a esta impresionante función!...

top

P. ¿Es posible dictar en un ambiente ruidoso con buenos resultados?

R. R. Tras la reciente introducción de micrófonos con dispositivos de supresión del ruido ambiental "Active Noise Canceling" muy eficaces, es posible dictar prácticamente en cualquier lugar con excelentes resultados: una oficina ruidosa, una estación de tren, un avión....

top

P. ¿Pueden varios usuarios utilizar la misma aplicación?

R. Sí, varios compañeros de oficina pueden compartir el mismo programa en diferentes momentos del día, con tal de que instalen la versión profesional del mismo en un ordenador de uso conjunto y cada uno de ellos cree su respectivo Perfil de Usuario, entrenando al programa a reconocer su propia voz durante unos minutos.

top

P. ¿Pueden utilizarse estas aplicaciones en red?

R. Algunos sistemas profesionales, como por ejemplo Dragon NaturallySpeaking Enterprise Edition sólo disponible en Inglés de momento, ofrecen una versión especial que permite su uso simultáneo por múltiples usuarios conectados en red. Cada uno de ellos guarda los archivos de su Perfil de voz en su propio ordenador; mientras que el motor del Reconocimiento y otros archivos del programa se comparten en el servidor. Esta solución es ideal para grandes organizaciones, al ser mucho más eficaz y disminuir considerablemente los costes de adquisición y mantenimiento de la aplicación.


P. Necesito movilidad por encima de todo: ¿Puedo utilizar un ordenador "laptop", "notebook", "sub-notebook", o incluso una grabadora digital con estas aplicaciones?

P. Todos los programas profesionales para el Reconocimiento continuo del habla pueden utilizarse con éxito en un buen "laptop", "notebook", "sub-notebook", funcionando a base de baterías. Sin embargo, un grave problema genérico de estos equipos es que no siempre cumplen con las estrictas especificaciones de sonido de estas aplicaciones, al generar mucho más "ruido interno" que los ordenadores de sobremesa debido al alto nivel de integración física de sus componentes. Sin embargo, SpeechWare le recomienda varios modelos de excepcional calidad acústica, que funcionan impecablemente, en la sección Computers de esta página web. Si ya tiene un "notebook" con baja calidad de sonido, puede utilizar un micrófono y tarjeta de sonido integrados con conexión USB, optimizados para el Reconocimiento del habla. Este singular producto ofrece tres ventajas claves: - uso del interface USB digital, que está exento de "ruido interno" o interferencias - perfecta compatibilidad entre el casco, micrófono y tarjeta de sonido integrados, lo cual garantiza la mejor relación señal/ruido posible - máxima movilidad para el usuario, que puede ahora cambiar fácilmente de ordenador sin necesidad de "re-entrenar" o adaptar de nuevo su voz al programa, dado que introduce siempre una señal acústica de la misma calidad al transportar consigo tanto el micrófono como la tarjeta de sonido. Respecto a las grabadoras digitales, existen un cierto número de modelos en el mercado fabricados por Olympus, Sony, Norcom, etc. que pueden utilizarse eventualmente con las versiones profesionales de estos programas, como puede consultar en la sección "Hand-held Recorders" de esta página web. Estas proporcionan la transcripción "en diferido" o con posterioridad de los archivos grabados al conectarla prácticamente a cualquie rordenador, incluso un antiguo Pentium 266MHz MMX. La tasa de reconocimiento es muy elevada (hasta el 96%), especialmente cuando se utilizan con un micrófono profesional para el Reconocimiento vocal conectado al puerto Mic-In.

top