Hola de nuevo, hoy continuaremos con una entrada de Python, si recordamos ya hemos trabajado anteriormente con los Tokens. Hoy toca el turno de algo que viene directamente relacionado con el procesamiento de texto, las “StopWords“, que como su traducción en español son las palabras que digamoslo de ésta manera no funcionan para nada (que si esto lo ve un lingüista seguro me asesina 😛 ), pero son palabras que literalmente no tienen un significado.
En nuestros textos ¿se imaginan cuantas palabras vacias podriamos encontrar?, demasiadas y de ellas regularmente no se pueden obtener muchas cosas, aunque no son del todo inútules. NLTK tiene integrado las stopwords comunes para cada lenguaje, no son todos los lenguajes pero si son bastantes donde por supuesto esta el inglés y el español.
Instalación
Si estamos utilizando Anaconda podemos saber si están instaladas las stopwords si ejecutamos el siguiente codigo y obtenemos un error.
from nltk.corpus import stopwords stopwords.fileids()
Si al ejecutar el codigo anterior obtenemos una pantalla como la siguiente donde nos dice que la parte de las stopwords no esta descargada y que la podemos descargar, entonces aún no están instaladas.
Para instalar debemos de ejcutar el siguiente codigo desde la consola de Anaconda o el CMD de Python.
import nltk nltk.download()
Al ejecutarlo se abirá una ventana similar a la siguiente pantalla en donde encontraremos los paquetes que componen NLTK.
Para descargar el paquete de Stopwords lo que debemos hacer es ir a la pestaña de “Corpora” y buscar la opcion de “StopWords”.
Presionar el botón de “Download” y esperar a que se descarge nuestro paquete, al término de la descarga vemos la fila de color verde, lo cual indica que ya lo tenemos instalado y listo para utilizar.
Ahora podemos volver a ejecutar el código de arriba y vemos los lenguajes que soporta el paquete de las stopwords.
Ahora en el próximo post vamos a utilizar las Stopwords para obtener infomación más concisa del texto.
Hasta el próximo post y si tienen alguna duda en los comentarios o por mis redes sociales.
José Antonio Mora