Semi-supervised subspace clustering and applications to neuroscience

Open AccessDissertation

Semi-supervised subspace clustering and applications to neuroscience

Chats0

TLDR

In this paper, a semi-supervised clustering approach is proposed to validate the validation of data relevance by using either known indices or expert opinions, which can be used to assess the quality of clustering solutions.

Abstract:

Machine learning techniques are used for extracting valuable knowledge from data. Nowa¬days, these techniques are becoming even more important due to the evolution in data ac¬quisition and storage, which is leading to data with different characteristics that must be exploited. Therefore, advances in data collection must be accompanied with advances in machine learning techniques to solve new challenges that might arise, on both academic and real applications. There are several machine learning techniques depending on both data characteristics and purpose. Unsupervised classification or clustering is one of the most known techniques when data lack of supervision (unlabeled data) and the aim is to discover data groups (clusters) according to their similarity. On the other hand, supervised classification needs data with supervision (labeled data) and its aim is to make predictions about labels of new data. The presence of data labels is a very important characteristic that guides not only the learning task but also other related tasks such as validation. When only some of the available data are labeled whereas the others remain unlabeled (partially labeled data), neither clustering nor supervised classification can be used. This scenario, which is becoming common nowadays because of labeling process ignorance or cost, is tackled with semi-supervised learning techniques. This thesis focuses on the branch of semi-supervised learning closest to clustering, i.e., to discover clusters using available labels as support to guide and improve the clustering process. Another important data characteristic, different from the presence of data labels, is the relevance or not of data features. Data are characterized by features, but it is possible that not all of them are relevant, or equally relevant, for the learning process. A recent clustering tendency, related to data relevance and called subspace clustering, claims that different clusters might be described by different feature subsets. This differs from traditional solutions to data relevance problem, where a single feature subset (usually the complete set of original features) is found and used to perform the clustering process. The proximity of this work to clustering leads to the first goal of this thesis. As commented above, clustering validation is a difficult task due to the absence of data labels. Although there are many indices that can be used to assess the quality of clustering solutions, these validations depend on clustering algorithms and data characteristics. Hence, in the first goal three known clustering algorithms are used to cluster data with outliers and noise, to critically study how some of the most known validation indices behave. The main goal of this work is however to combine semi-supervised clustering with subspace clustering to obtain clustering solutions that can be correctly validated by using either known indices or expert opinions. Two different algorithms are proposed from different points of view to discover clusters characterized by different subspaces. For the first algorithm, available data labels are used for searching for subspaces firstly, before searching for clusters. This algorithm assigns each instance to only one cluster (hard clustering) and is based on mapping known labels to subspaces using supervised classification techniques. Subspaces are then used to find clusters using traditional clustering techniques. The second algorithm uses available data labels to search for subspaces and clusters at the same time in an iterative process. This algorithm assigns each instance to each cluster based on a membership probability (soft clustering) and is based on integrating known labels and the search for subspaces into a model-based clustering approach. The different proposals are tested using different real and synthetic databases, and comparisons to other methods are also included when appropriate. Finally, as an example of real and current application, different machine learning tech¬niques, including one of the proposals of this work (the most sophisticated one) are applied to a task of one of the most challenging biological problems nowadays, the human brain model¬ing. Specifically, expert neuroscientists do not agree with a neuron classification for the brain cortex, which makes impossible not only any modeling attempt but also the day-to-day work without a common way to name neurons. Therefore, machine learning techniques may help to get an accepted solution to this problem, which can be an important milestone for future research in neuroscience. Resumen Las tecnicas de aprendizaje automatico se usan para extraer informacion valiosa de datos. Hoy en dia, la importancia de estas tecnicas esta siendo incluso mayor, debido a que la evolucion en la adquisicion y almacenamiento de datos esta llevando a datos con diferentes caracteristicas que deben ser explotadas. Por lo tanto, los avances en la recoleccion de datos deben ir ligados a avances en las tecnicas de aprendizaje automatico para resolver nuevos retos que pueden aparecer, tanto en aplicaciones academicas como reales. Existen varias tecnicas de aprendizaje automatico dependiendo de las caracteristicas de los datos y del proposito. La clasificacion no supervisada o clustering es una de las tecnicas mas conocidas cuando los datos carecen de supervision (datos sin etiqueta), siendo el objetivo descubrir nuevos grupos (agrupaciones) dependiendo de la similitud de los datos. Por otra parte, la clasificacion supervisada necesita datos con supervision (datos etiquetados) y su objetivo es realizar predicciones sobre las etiquetas de nuevos datos. La presencia de las etiquetas es una caracteristica muy importante que guia no solo el aprendizaje sino tambien otras tareas relacionadas como la validacion. Cuando solo algunos de los datos disponibles estan etiquetados, mientras que el resto permanece sin etiqueta (datos parcialmente etiquetados), ni el clustering ni la clasificacion supervisada se pueden utilizar. Este escenario, que esta llegando a ser comun hoy en dia debido a la ignorancia o el coste del proceso de etiquetado, es abordado utilizando tecnicas de aprendizaje semi-supervisadas. Esta tesis trata la rama del aprendizaje semi-supervisado mas cercana al clustering, es decir, descubrir agrupaciones utilizando las etiquetas disponibles como apoyo para guiar y mejorar el proceso de clustering. Otra caracteristica importante de los datos, distinta de la presencia de etiquetas, es la relevancia o no de los atributos de los datos. Los datos se caracterizan por atributos, pero es posible que no todos ellos sean relevantes, o igualmente relevantes, para el proceso de aprendizaje. Una tendencia reciente en clustering, relacionada con la relevancia de los datos y llamada clustering en subespacios, afirma que agrupaciones diferentes pueden estar descritas por subconjuntos de atributos diferentes. Esto difiere de las soluciones tradicionales para el problema de la relevancia de los datos, en las que se busca un unico subconjunto de atributos (normalmente el conjunto original de atributos) y se utiliza para realizar el proceso de clustering. La cercania de este trabajo con el clustering lleva al primer objetivo de la tesis. Como se ha comentado previamente, la validacion en clustering es una tarea dificil debido a la ausencia de etiquetas. Aunque existen muchos indices que pueden usarse para evaluar la calidad de las soluciones de clustering, estas validaciones dependen de los algoritmos de clustering utilizados y de las caracteristicas de los datos. Por lo tanto, en el primer objetivo tres conocidos algoritmos se usan para agrupar datos con valores atipicos y ruido para estudiar de forma critica como se comportan algunos de los indices de validacion mas conocidos. El objetivo principal de este trabajo sin embargo es combinar clustering semi-supervisado con clustering en subespacios para obtener soluciones de clustering que puedan ser validadas de forma correcta utilizando indices conocidos u opiniones expertas. Se proponen dos algoritmos desde dos puntos de vista diferentes para descubrir agrupaciones caracterizadas por diferentes subespacios. Para el primer algoritmo, las etiquetas disponibles se usan para bus¬car en primer lugar los subespacios antes de buscar las agrupaciones. Este algoritmo asigna cada instancia a un unico cluster (hard clustering) y se basa en mapear las etiquetas cono-cidas a subespacios utilizando tecnicas de clasificacion supervisada. El segundo algoritmo utiliza las etiquetas disponibles para buscar de forma simultanea los subespacios y las agru¬paciones en un proceso iterativo. Este algoritmo asigna cada instancia a cada cluster con una probabilidad de pertenencia (soft clustering) y se basa en integrar las etiquetas conocidas y la busqueda en subespacios dentro de clustering basado en modelos. Las propuestas son probadas utilizando diferentes bases de datos reales y sinteticas, incluyendo comparaciones con otros metodos cuando resulten apropiadas. Finalmente, a modo de ejemplo de una aplicacion real y actual, se aplican diferentes tecnicas de aprendizaje automatico, incluyendo una de las propuestas de este trabajo (la mas sofisticada) a una tarea de uno de los problemas biologicos mas desafiantes hoy en dia, el modelado del cerebro humano. Especificamente, expertos neurocientificos no se ponen de acuerdo en una clasificacion de neuronas para la corteza cerebral, lo que imposibilita no solo cualquier intento de modelado sino tambien el trabajo del dia a dia al no tener una forma estandar de llamar a las neuronas. Por lo tanto, las tecnicas de aprendizaje automatico pueden ayudar a conseguir una solucion aceptada para este problema, lo cual puede ser un importante hito para investigaciones futuras en neurociencia.

Semi-supervised subspace clustering and applications to neuroscience

Citations

Machine learning

Data Mining Practical Machine Learning Tools and Techniques

Information retrieval

Pattern recognition

Recuerdos de mi vida

References

Genetic algorithms in search, optimization, and machine learning

Maximum likelihood from incomplete data via the EM algorithm

Elements of information theory

Reinforcement Learning: An Introduction

Applied Logistic Regression.