Interviews
A Conversation on AI and Data Science: Semantics to Machine Learning
Interviews
Börteçin Ege, Januar 22, 2018
An Interview with Dr. Riza Berkan and Dr. Mehmet Süzen
Dr. Riza Berkan is founder and president of exClone Inc. He is a nuclear scientist with a specialization in semantics, fuzzy logic
and artificial intelligence (AI). He is the author of the book Fuzzy Systems Designs Principles published by IEEE and over 100 scientific
articles on semantics, neural networks, fuzzy logic and AI. Dr. Berkan is also an expert on semantic search technologies.
Before he started exClone Inc. in 2014 he founded hakia Inc., which was an Internet semantic search engine (2004-2011).
Dr. Mehmet Süzen, originally from the island of Cyprus, completed his doctoral work at the Frankfurt Institute for Advanced Studies (FIAS)
specializing in fundamentals of statistical physics. He worked at the Institute for Photonic Sciences (ICFO) in Barcelona as a postdoctoral scientist
employing modern sparse signal recovery techniques i.e. compressed sensing to optics. He has been working in various academic institutions
and industries in Europe since then as a data scientist and he is active in machine learning research.
BE: Dear Riza, Dear Mehmet you have been involved for a long time also with machine learning, neural networks and AI. Riza,
you are also an expert on Semantic Web and semantic technologies. What do you think today about semantic technologies and other
emerging technologies like machine learning?
RB: We are still at infancy in many fronts scientifically speaking. Creating cognitive and sentient computers is a very challenging problem
suffering from vast unknowns in biological intelligence. It also suffers from the lack of defining the problem properly like, what is intelligence,
awareness, or learning? When the words we use to define scientific problems are vague, it becomes a nightmare to work on them. Today,
there is so much interest in these disciplines, which is a good thing, yet with the increased participation there is a chaos of terminology.
In addition, large tech companies have started to exaggerate these technologies for their own agenda, sometimes creating hype around particular methods
that suit them better. In conclusion, the state of AI technologies today (all included) is not farther than the 2nd mile in a 1,000 mile journey.
Assuming that we are in the 3rd mile would be a gross optimism.
MS: We have seen an emergence of a new field, so called data science last years, which covers machine learning and semantic products.
Originating from Industry 4.0 initiative by the German government. Technologies and products heavily based on machine learning are used daily by billions
of people around the world. The impact is high. But such an incremental success was possible because of simultaneous progress in scalable computing,
mass collection of data and interest from industrial investment. The core data science techniques have been actually existed many decades,
such as parallel processing, neural networks and statistical learning. Read more...
BE: How will machine learning influence semantic technologies and other fields like financial industries?
RB: Machine learning is a logical step when examining biological intelligence, especially how human brain learns. The current machine learning methods are
mainly data-driven, and their success depends on availability, completeness, suitability, and reliability of data. The core concept is having a computer
to figure out information without explicitly coding for it. Therefore, methods implementing this core concept are quite forward looking and promising.
However, the current approaches are rudimentary and ill-suited for a class of problems involving natural languages. Industrial (or commercial) success
depends of the type of application and the nature of the problem. Can machine learning (ML) crack the code of stock markets? No. Because stock market data
is incomplete in describing the entire dynamics of markets. But ML can learn the spending patterns of people in certain demographics,
and produce a commercially viable outcome.
MS: I think machine learning could help in advancing semantic technologies further. One of the main issues in building semantic systems,
that they require high level human intervention i.e., building ontologies or human produced data. For example, German company DeepL,
which is providing high performing translation platform uses human translated data in mass scale with machine learning.
Semantic processing with machine learning has definitely transformed the way companies interact with customers and how they operate in their core business.
BE: Do you think, that semantic technologies have reached a certain degree of maturity?
RB: No. By no means. If the term “semantic technologies” referring to natural language processing (NLP) and knowledge representation (KR),
there is a quite a large body of work that has already been done in academics. Unfortunately, the background required to understand these
advancements are much higher than the knowledge of today’s technology engineers, most of whom have no training in linguistics and related
fields. Therefore, technology seriously lags even to bring the current scientific advances to the surface of end usage.
BE: What is for you learning in the context of machine learning?
MS: I don’t think foundations of quantification of learning is studied enough or questioned enough in machine learning.
As Pedro Domingo puts machine learning contains lots of ‘folklore’, and what is learning in machine learning is one of them.
In research, I found amazing that actually quantification of ‘learning’ and ‘learning curves’ in machine learning originates
from Hermann Ebbinghaus’s work from early 1900s. He defined ‘forgetting curves’ over time and associates learning with
memory and experience over time. In my opinion, this is a toy model of human learning experience.
A learning algorithm should be able to show an increased performance over experience, i.e., using more data.
Unfortunately, many people think a simple regression or clustering data count as learning, which is obviously not true in naive form.
BE: Do you think that the most of databased machine learning methods and neuronal networks are black-boxes and
we need knowledge-based systems instead of them?
RB: Black-box often refers to the notion of associated memory in neural networks (NN) where information is not stored in a single neuron
(or location), instead it is distributed throughout a network. As a result, when you examine a trained NN, you cannot recognize
any information other than the connection weights. It is a black box in the sense that you could not just reach in and correct some
information quickly, it has to be retrained with corrected data. Knowledge-based machine learning, depending on the architecture,
can be more transparent.
MS: Explainable machine learning is one of the important goals we should have, otherwise, using black boxes blindly is really
a bad practice. On the other hand, if they are giving us practically good results, we must use them as engineering tools,
such as in computer vision to assist human decision maker. I think amalgamation of knowledge-based systems and data-driven approaches
should be utilized together, not exclusively.
BE: Can machine learning use knowledge more efficient than data? If you think it does, how can we turn data into knowledge?
RB: First of all, data-based machine learning is effective for perception, but not necessarily for learning knowledge.
For example, making sense of an image is a perception process (pattern recognition), and imagery data is suitable for NN application.
You can apply NN using sound, temperature, velocity, or price data. All you will accomplish is the perception/recognition step.
However, learning the knowledge of what an image means, and how it is related to all other concepts in the world requires knowledge-based
machine learning. Knowledge is already available to us in many forms, and making use of it to generate new knowledge is a different
animal. There is a simple description I made years ago, which goes like this: Data is the fundamental unit. Recognizing difference
in data is information, recognizing difference in information is knowledge, and recognizing difference in knowledge is logic.
With this simplistic view, one can say that data-driven machine learning serves the first chain in the link,
whereas knowledge-based machine learning serves the second chain. The third chain has not yet been explored very well.
MS: This question goes in to heart of neuroscience question of how human brain processes data and produce
a knowledge based on experience. Without understanding that we can speculate how can we build a machine learning system
that even can understand what is knowledge. For instance, machine learning approaches can really produce statistical inferences
using data, but we don’t know whether resulting inferences can be categorized as knowledge. In this direction,
I would agree with Yann LeCun’s vision of understanding what is “unsupervised learning” fundamentally may answer this question.
BE: Do you think that the human brain learns mostly from knowledge and not from data?
RB: The human brain uses data for perception, and uses perception for knowledge. If some knowledge has already been documented,
it can be reused to generate new knowledge. That’s what we do when we read books. Most of our learning is reading the existing
knowledge. Most of our creativity or judgment is to make new knowledge from what we learned.
MS: Biological system as complex as human brain is a product of millions of years of evolutionary process.
For this reason, it is well be true that it posses biologically encoded learning mechanisms that actually triggered by new knowledge
rather than purely data centric way.
BE: What are the advantages and challenges of knowledge-based learning?
RB: This is the science of knowledge representation, and creating models (ontologies) of how concepts are related to each other.
Once this majestic fountain of knowledge can be understood and used by a computer, then you have two fundamental cognitive skills
embedded in that computer: (1) understanding language at a conceptual level, and (2) making associations to generate new knowledge.
Knowledge-based learning is quite a new concept and not much done in this area so far, but it is coming.
MS: One of the main challenge is manually-building a knowledge base. They are very rigid and cannot be generalized easily.
Advantage would be they could produce highly accurate results in very specialized domain.
BE: What do you think about deep learning? Some people think it is a silver bullet…
MS: Deep learning has made of course a good progress in terms of enabling us to produce highly accurate models,
especially in computer vision. Unfortunately, it isn’t a silver bullet. But, understanding how they produce such
a highly accurate model that violates complexity measures, such as Vapnik–Chervonenkis dimension,
may lead to an advancement in theoretical understand of what is learning really is, if it is studied in the context
of biological brain together. I think it has stimulate a lot of research and it is a very good thing.
We should be very sceptical about creating an attachment to a single technique emotionally.
Notice that, now deep learning loses its original meaning, and used as an umbrella term for modern machine learning research.
BE: You think, that deep learning is immature for NLP and it doesn’t good fit for chatbots?
RB: Deep learning is not immature. The problem is that some people using language as their data set do not understand the nature of this
data set. Very simple analogy is stock market data (easier to grasp). We all know stock market (price) data is incomplete to describe
the entire process. Natural language is very similar. If you take millions of pages of text as your data to train a neural network,
you are not doing anything different that taking millions of price data of stock market. Neither will result in a complete solution.
NLP encompasses all levels of “data-information-knowledge-logic” chain. Therefore, a deep learning approach has to address all levels
during training. I have not yet seen this level of approach so far, but I am sure it will come soon.
BE: Riza, you think, websites will turn soon into talk sites. What does a chatbot do that a search engine doesn’t?
RB: Search engine is a single step process of retrieving information. Chatbot is a multi-step process of retrieving information.
Multiple steps, very similar to what we do during a conversation, is obviously much more powerful technique.
However, it has many challenges. In a multi-step approach, chatbot must be able to ask questions relevant to the topic of conversation,
hence a short-term memory model is needed, and high level of pronoun tracking. Then, based on the given answers step-by-step,
chatbot should converge to an answer. Once this level of interaction is mastered by chatbots, search engines will lose their role
significantly. Most long-tail queries going into Google will start to find better responses in multi-step chatbots.
BE: In one of your papers you tell, that most of chatbots don’t use AI, but they are misrepresenting AI, how?
RB: Yes, that was referring to some chatbot platforms which require to script every single conversation one-by-one
in a hard coded manner. Devoid of any NLP detection capability, devoid of any flexible dialogue flow, devoid of any knowledge model,
these chatbots do not deserve to call themselves an AI product. I would say 90% of all platforms are serving this type of architecture.
It looks easy to create a chatbot without any AI background. Some of them will find commercial success, such as in simple banking
transactions.
BE: Riza, could you tell us your exClone project shortly and the idea behind of it?
RB: exClone is a knowledge-based machine learning technology for conversational AI, which attacks the chatbot problem in a
3 - dimensional way: (1) NLP, (2) Machine Learning, (3) Human dialogue theory. The 3rd dimension is our proprietary approach.
We are not done yet with our journey, but we have some promising light at the end of the tunnel. We called it exClone,
referring to “cloning expertise”, which is a fancy name for knowledge-based machine learning.
BE: Do you think that IBM Watson is really a success story?
RB: IBM Watson is now an empty shell, nothing but an API farm, collected from 3rd party technology vendors who agreed to highly predatory
commercial terms with IBM. We rejected their commercial terms, otherwise exClone would be in the farm. There is really nothing to talk
about Watson any more, and I quit following them for sometime.
BE: Do you think that AI will threaten human jobs, or quite the opposite so that it will create more jobs than it destroys?
MS: I think we first need to define what do we mean by AI. I think what you are referring to is “super” automation.
The better question might be, whether exponential increase in automation of many jobs and processes would lead to less or more jobs.
I think this is a policy question to our governments and policy makers, how to keep humans busy. But I think the danger of AI taking over
all jobs is exaggerated. One good example is that, since 60s, automated piloting systems are in place, but we still have pilots flying
the planes. Automation is good but human intervention may not be easily removed from the loop. We do have good advances in algorithms
and robotics, but we might be decades away to reach certain maturity in AI systems, if not at all to beat humans in general intelligence
and biological dexterity. I think we won’t see any mass unemployment just because of AI. It would be because of social issues not because
of AI.
BE: Finally, a simple question about the two hottest discussion topics nowadays: Would you buy yourself a self-driving car or Bitcoin?
MS: Yes, I would use Bitcoin. If Audi releases an affordable version of their cars from ‘I, robot’ the movie, I want one of those.
RB: Commercialization of the self-driving cars begs this question: “Will you sign a disclaimer when paying thousands of dollars to buy
a car to ensure that you would not sue the company if its self-driving malfunctioned?” I will not sign it. From the legal nightmare
point of view, especially here in the US, it will never happen, same as drones. I think self-driving technology is for the military.
Bitcoin is an interesting war against the current monetary control of central banks. I am not sure how this will pan out.
I will use whatever buys me my pipe tobacco :-)
BE: Thank you all for the very interesting interview!
Anmerkungen zur jetzigen und künftigen Rolle von Semantik
Interviews
Börteçin Ege, Juli 27, 2017
Ein Interview mit Prof. Dr. Ulrich Schade
BE: Sehr geehrter Herr Prof. Schade. Sie sind Mathematiker und Linguist. Sie beschäftigen sich intensiv auch mit semantischen Technologien.
Sehen Sie die Zukunft in den semantischen Technologien, wenn es darum geht, nicht nur für Menschen, sondern auch für Maschinen ein verständliches und sicheres Web,
also das „Semantic Web“, aufzubauen?
US: Sehr geehrter Herr Ege, semantische Technologien können dazu beitragen, dass das Web leistungsfähiger wird.
Damit meine ich, dass für uns Menschen der Umgang mit dem Web einfacher wird und wir schneller gewünschte Ergebnisse erzielen können,
also etwa bei einer Suche die Antwort erhalten, die wir benötigen. Das ist zunächst einmal unabhängig von „Verstehen“ und von Sicherheit.
BE: Sie glauben also nicht, dass die Maschinen uns irgendwann tadellos verstehen werden? Ich meine einen Supercomputer wie der HAL 9000 im Stanley Kubricks legendären Film
2001: A Space Odyssey.
US: Das kommt darauf an, wie wir „Verstehen“ definieren wollen. Wenn wir mit Menschen kommunizieren, können wir ja eigentlich auch nicht sicher sein,
dass sie uns „verstehen“. Wir leiten das lediglich aus den Handlungen des anderen ab. Wenn wir „Verstehen“ so definieren, dass die Maschine in der
Kommunikation und als Folge der Kommunikation „pragmatisch“ so handelt, wie wir es von einem Menschen erwarten, ist „Verstehen“ erreichbar.
Natürlich erwarten wir von der Maschine andere Ergebnisse auf eine Frage, die, wenn es um Faktenwissen geht, genauer und ausführlicher sein sollten.
Das korrekte „pragmatische Handeln“ bezieht sich also nicht auf die Ergebnisse, sondern darauf, dass die Frage im Sinne des Fragenden beantwortet wird.
Wenn ich Ihnen beispielsweise die Frage stelle „Können Sie mir sagen, wie bei Ihnen das Wetter ist?“, erwarte ich nicht die Antwort „Ja, das kann ich.“,
sondern eine Auskunft über das Wetter in Wien. Entsprechende Reaktionen und Antworten erwarte ich von einem Computer, der mich „versteht“.
Das können wir erreichen, auch bzw. insbesondere mit der Hilfe semantischer Technologien. Will man mehr unter „Verstehen“ verstehen, ist die Diskussion
eine andere, und man müsste sich dann darüber einigen, was „mehr“ bedeutet.
BE: Sie werden sich sicher an den Sieg von IBM Watson erinnern, das sich im Jahr 2011 bei der Quizshow Jeopardy! gegenüber seinen menschlichen
Konkurrenten durchsetzen konnte. Watson ist ja in der Lage, in nur 15 Sekunden die Akten von einer Million Krebspatienten miteinander zu vergleichen,
10 Millionen Wirtschaftsberichte und 100 Millionen Benutzeranleitungen einzulesen und zu bewerten, um anschließend diesbezügliche Fragen sofort zu
beantworten. Was halten Sie von diesem Sieg und im Allgemeinen von IBMs Projekt Watson? Sehen Sie in Watson eine hochwertige Semantische Suchmaschine?
Weiterlesen...
US: Korrekt, „Watson“ gelang ein überzeugender Sieg gegen die früheren Rekord-Sieger Ken Jennings und Bratt Rutter. Da in der Show in natürlicher Sprache
gestellte, zum Teil recht komplexe Fragen beantwortet werden mussten, und „Watson“ dies gelang, agierte das System in dem genannten Sinn pragmatisch
sinnvoll. Ich kann Ihnen zu diesem „Watson“ leider wenig sagen, aber meine Mitarbeiter haben ein IBM-System mit der Bezeichnung „Watson Content Analytics“
(WCA) in Bezug auf dessen linguistische Fähigkeiten hin untersucht. Das Ergebnis war sehr enttäuschend. Das darf ich vielleicht an folgendem Beispiel erläutern.
Ein grundlegender Baustein der linguistischen Analyse ist das sogenannte POS-Tagging, bei dem Wörtern ihre syntaktische Kategorie zugeordnet wird.
Wir haben die Güte des in WCA integrierten POS-Tagger durch deren Anwendung auf das sogenannte TIGERKorpus
(Brants, et al., 2004) getestet. Dieses Korpus wurde durch das Institut für Maschinelle
Sprachverarbeitung der Universität Stuttgart erstellt und wird dort auch gewartet, vgl. dazu auch
http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.html. Das Korpus besteht aus
etwa 50.000 Sätzen (900.000 Token), die Zeitungsberichten der Frankfurter Rundschau aus den
Jahren 1990 bis 1994 entnommen sind. Das Korpus enthält Annotationen zu den syntaktischen
Kategorien, zur Morphologie und zu den Lemmata. Es ist semi-automatisch annotiert und kann damit
als „Goldstandard“ für POS-Tagger genutzt werden. Von den bekannten „Open Source“-POS-Taggern
erreichte der OpenNLP-Tagger (Apache OpenNLP library, http://opennlp.apache.org/) 97,5937%, der
TreeTagger (Schmid, 1994) 94,9597% und der allerdings auf dem TIGER-Korpus trainierte Tagger aus
dem MateTool (Bohnet & Nivre, 2012) 99,6123%. Die Fehler dieser Tagger betreffen im Wesentlichen
Eigennamen, die nicht als Eigennamen, sondern als Nomen annotiert werden. WCA erreichte 91,8%.
Die Fehler sind zum Teil unverständlich. Im Satz „Nach einer Umfrage des Wirtschaftsmagazins
Fortune unter den Bossen von 500 Großunternehmen wünschten im Mai nur elf Prozent „Ross for
President“, während 78 Prozent sich für Bush und vier Prozent für Clinton aussprachen.“ annotiert der
WCA-POS-Tagger beispielsweise „elf Prozent“ als „adjective noun“, „78 Prozent“ korrekt als
„numeral noun“ und „vier Prozent“ als „determiner noun“. Da das POS-Tagging die Grundlage für die
syntaktische Analyse darstellt und diese wiederum die Grundlage der semantischen Analyse, gibt es
ein Problem. Die einfachste Erklärung für das schlechte Abschneiden von WCA besteht natürlich
darin, dass WCA Algorithmen nutzt, die für das Englische entwickelt bzw. trainiert wurden und dass
diese nicht auf das Deutsche angepasst sind. Insgesamt kann ich damit leider Ihre Frage nicht durch
Rückgriff auf eigene Untersuchungen beantworten.
BE: Glauben Sie an die Lernfähigkeit der Maschinen, auch wenn es sich wie eine Zukunftsmusik
anhört? Was wäre der Schlüssel des Erfolges Ihrer Meinung nach; Ontologien, Maschinelles Lernen
oder sogar die Kombination der beiden? Wo liegen die möglichen Schwierigkeiten?
US: „Deep Learning“ ist, wie Sie wissen, sehr erfolgreich, etwa beim GO oder sogar beim Pokern. Der
Unterschied zwischen GO und Poker liegt dabei darin, dass beim GO alle verfügbare Information
offen ersichtlich ist, was für das Pokern nicht gilt. Um erfolgreich Poker spielen zu lernen, musste das
entsprechende System auch lernen, Bluffs der menschlichen Gegenspieler einzuschätzen, was
gelungen ist. Trotzdem bieten Spiele wie GO und auch Poker den wichtigen Vorteil, dass es am Ende
immer klar feststeht, wer gewonnen hat. Daraus ergibt sich ein objektives Kriterium, das die
Verfahren nutzen können. Bei der Verarbeitung von Sprache ist dieses Kriterium, also die
Information, ob die Kommunikation gelungen ist oder nicht, nicht immer verfügbar bzw. ableitbar.
Eine natürliche Sprache zu verarbeiten kann daher nicht so leicht erlernt werden. Für ein Kind ist es
einfacher. Wenn es versucht, andere mit einer Äußerung zu einer bestimmten Handlung zu bewegen,
erkennt es zumeist, ob das erfolgreich war. Wenn aber im Gegensatz dazu ein System lernen soll,
sprachliche Äußerungen zu verarbeiten, und wenn es immer nur mit Anfragen nach Informationen
konfrontiert ist, erkennt nur die Person, die die Frage gestellt hat, ob ihr die Antwort genügt, nicht
aber unbedingt das System. Die Verarbeitung von einer natürlichen Sprache ist auch aus weiteren
Gründen recht tückisch. In jeder Kommunikation können beispielsweise Wörter auftreten, die sehr
selten sind, so dass sie im antrainierten Sprachmodell nicht oder nur unzureichend abgebildet sind.
Als Menschen verfügen wir über Techniken, die wir dann anwenden können. Systeme wie Siri, Alexa
etc. verfügen noch nicht über diese Techniken. Vielleicht stellt die Entwicklung und Bereitstellung
solcher Techniken aber den von Ihnen genannten Schlüssel dar. Wenn die kommunikative
Verständigung jedoch nicht (nur) an einer lexikalischen Lücke im Sprachmodell scheitert, sondern an
fehlendem Weltwissen, könnte auch die Nutzung von Ontologien einen Schritt in Richtung einer
erfolgreichen Kommunikation darstellen. Ich denke, die Lernfähigkeit der Systeme ist noch nicht
ausgereizt, und ich denke auch, dass die Kombination von Methoden sinnvoll ist.
BE: D.h. können wir immer noch nicht über mögliche Fortschritte in den klassischen formalen Logiken
sprechen, die mit unscharfem Wissen wirklich selbstständig umgehen und selber richtige
Schlussfolgerungen ziehen können. Sehen Sie in Maschinellem Lernen und Deep Learning in dieser
Form nur eine verbesserte Version von Neuronalen Netzen?
US: Es gibt Verfahren, die auch mit unscharfem Wissen arbeiten, etwa in der Sensordatenfusion.
Dort werden unscharfe Sensordaten sehr erfolgreich aggregiert. Für diese Verfahren müssen aber die
Unschärfen in Form von Zahlen vorliegen. Wenn Sie aber Unsicherheit in der sprachlichen
Kommunikation erfahren, müsste zur Anwendung dieser Verfahren diese Unschärfe quantifiziert
werden. Wenn ich zum Beispiel sage: „Der Schlüssel hängt wohl an seinem Haken“, für wie hoch
würden Sie die Wahrscheinlichkeit einschätzen, dass der Schlüssel tatsächlich dort hängt?
BE: Eigentlich nicht wirklich hoch, allein deswegen, weil dabei das Adverb wohl verwendet und damit
hier eine gewisse Unsicherheit vom Anfang an doch nicht ausgeschlossen wird. Ich würde sogar
intuitiv sagen, die Wahrscheinlichkeit, dass der Schlüssel an seinem Haken liegt, beträgt in diesem
Fall höchstens 50%. Diese Wahrscheinlichkeit kann sich aus meiner Sicht jedoch erhöhen oder
vielleicht doch verringern, je mehr ich diese Person, ihre Arbeitsweise/Gewohnheiten und das
entsprechende Umfeld kenne. Ich kann mir aber vorstellen, diese Sicherheit/Unsicherheit, die ich als
Mensch intuitiv erfassen und bis zu einem gewissen Grad sogar in Zahlen leicht ausdrücken kann, für
die Maschinen sicherlich nicht so leicht quantifizierbar wäre.
US: Dem kann ich nur zustimmen, evtl. mit der Abweichung, dass ich die Wahrscheinlichkeit höher,
etwa mit 60% einschätzen würde. Aber wie Sie richtig ausgeführt haben, kann sich die Einschätzung
ändern, wenn man mehr über den situativen Kontext weiß. In jedem Fall stimme ich zu, dass für ein
System das Problem darin liegt, dass es ein Wissen über die Welt und über den situativen Kontext,
welches wir für unsere Einschätzungen ausgewertet haben, wenigsten zum Teil nicht repräsentiert
hat. Die Beantwortung der Frage nach dem möglichen Fortschritt hängt somit auch damit zusammen,
ob es gelingen kann, solches Wissen über den menschlichen Alltag in einem System so zu
repräsentieren, dass es nutzbar wird. Dies ist vielleicht mit einer Art „Deep Learning“ möglich. Zu
„Deep Learning“ würde ich, an Ihre vorherige Frage anschließend gerne noch sagen, dass es aus
meiner Sicht natürlich auf den Erkenntnissen beruht, die wir ausgehend von Frank Rosenblatts
Perceptron – Rosenblatt, Frank (1958): The perceptron: a probabilistic model for information
storage and organization in the brain. Psychological Reviews 65 (1958) 386-408 – über die
sogenannten Neuronalen Netze angehäuft haben. Im Vergleich zu den 1980er-Jahren (Error
Backpropagation und RNNs) haben wir schnellere Rechner, sehr viel mehr Daten, auf denen die
Lernverfahren aufsetzen können, aber mit den neueren Arbeiten, etwa von Geoffrey Hinton, auch
algorithmische Fortschritte.
BE: Sie hatten gesagt, dass man unterschiedliche Verfahren kombinieren sollte, um zu weiteren
Fortschritten zu gelangen. Wir haben dann über „Deep Learning“ gesprochen, die man zu den
statistik-basierten Verfahren zählen kann. Ich würde nun gern noch kurz auf die andere Seite der
Kombination eingehen, auf die regel-basierten Verfahren und auf Ontologien, in denen Wissen
formal repräsentiert wird. Man hört in letzter Zeit öfters neben Triple-Stores für diese
Repräsentation auch von Quadrupelstores, in dem nicht nur Triples, sondern für jedes Tripel
zusätzliche Metadaten wie Zeitbereichsinformationen etc. gespeichert werden können. Was halten
Sie von Quadrupeln anstatt von Tripeln? Finden Sie die Quadrupel möglicherweise noch flexibler und
ausdrucksstärker? Glauben Sie, dass Triple Stores langfristig durch Quadrupelstores doch obsolet
werden?
US: Ein Tripel ist letztlich eine Kombination aus einem „Subjekt“, einer „Relation“ und einem
„Objekt“. Solche Relationen sind für die Repräsentationen von Wissen außerordentlich nützlich.
Nehmen wir einmal die Aussage „Berlin ist die Hauptstadt von Deutschland“, so wird klar, dass wir als
Menschen unbewusst ein „jetzt“ hinzufügen. In manchen Kontexten kann aber eine explizite zeitliche
Verortung nützlich sein, welche man, wie Sie ja andeuten, über Quadrupel realisieren könnte. Ich
möchte hier aus sprachlicher Sicht argumentieren, dass eine flexiblere Repräsentation
möglicherweise sinnvoll ist. Aus einer formalen linguistischen Sicht heraus, kann man die meisten
sprachlichen Aussagen (Sätze) mit einer kontextfreien Grammatik generieren. Kontextfreie
Grammatiken lassen sich auf die Chomsky-Normalform bringen, die neben Regeln zur Ersetzung
eines nichtterminalen Symbols durch ein terminales Symbol Produktionsregeln der Form „A-->BC“
enthalten. Diese Regelform entspricht der Repräsentation durch Tripel. Die Frage ist nun, ob die
Repräsentation durch Tripel nicht nur theoretisch immer möglich, sondern für eine spezifische
Anwendung auch angemessen ist. Ich kann versuchen, auch das an sprachliche Aussagen zu
erläutern. Sprachliche Aussagen enthalten Relationen, aber unterschiedliche Anzahlen von
Argumenten. „Es schneit“ kann nicht einfach so als Standardtripel dargestellt werden. Bei „Maria
lacht“ kann man „Maria“ als Subjekt repräsentieren, wobei dann aber das Objekt fehlt. Als Sprecher
der samoanischen Sprache jedoch würden Sie in „Maria“ das Objekt von „lacht“ sehen, wobei dann
das Subjekt fehlt. Bei komplexeren Sätzen, etwa treten zahlreiche Konstituenten, nicht nur
Zeitangaben, auf, die Sie dann auch irgendwie repräsentieren müssen. In dem Satz „The company
advanced from Wilderness Church via Dowdall’s Tavern towards Chancellorsville” gibt es etwa drei
Konstituenten, über die die durchgeführte Bewegung geographisch und nicht zeitlich präzisiert wird.
Es wäre zu diskutieren, wie das geeignet repräsentiert werden kann bzw. für welche Anwendungen
Tripel bzw. Quadrupel eine geeignete und angemessene Repräsentationsform darstellen und für
welche sie unpraktisch und irreführend sind.
BE: Stellen die Ontologien Ihrer Meinung nach eine der elegantesten Lösungen für die
Suchmaschinen dar? Können viele Probleme der Suche durch die Verwendung von Ontologien
tatsächlich viel einfacher und effizienter gelöst werden? Glauben Sie, dass die Zukunft der Suche in
der semantischen Suche mit Ontologien liegt?
US: Auch dies ist eine Frage der Anwendung. Man muss sich zunächst die Frage stellen, wofür die
Suche genutzt werden soll. Sollen etwa bei einem vorgegebenen Begriff Webseiten gefunden
werden, die sich auf das beziehen, was der Begriff denotiert, so kann es genügen, wenn auch die
Vorkommen von Synonymen und Hyponymen (Unterbegriffe) zu dem vorgegebenen Begriff
gefunden werden. In dem Fall benötigt man keine vollständige Ontologie des betreffenden
Gegenstandsbereichs, sondern „nur“ eine Taxonomie dazu, deren Erstellung weniger Aufwand
erfordert.
BE: Im Kapitel 16 „Ontologien als Schlüsseltechnologie für die automatische Erzeugung
natürlichsprachlicher Texte“ des Buchs
Corporate Semantic Web stellen Sie auch dar, wie semantische Technologien in den Bereichen SEO und
automatische Textgenerierung angewendet werden können. Glauben Sie, dass man gerade in diesen
Bereichen in den nächsten Jahren mit steigendem Einsatz der semantischen Technologien rechnen
kann?
US: Ja. Mein Kollege und Freund Hermann Bense zeigt mit seiner Firma textOmatic, wie gut die
automatisierte Textgenerierung schon gelingen kann, selbst für eine Sprache wie Deutsch ☺, wenn
es darum geht, strukturiert vorliegende Informationen sprachlich auszudrücken. Sie können dies
jederzeit ansehen, da textOmatic die Online-Seite von Focus automatisiert erstellte und stets sehr
aktuelle Wetterberichte und der Online-Seite des Handelsblatts ebenso aktuelle Börsenberichte zur
Verfügung stellt. Um die Qualität dieser Berichte noch zu verbessern, benötigt man semantische
Technologien. Aber das im Detail zu erläutern würde wohl ein weiteres Interview ergeben.
BE: Also können wir zusammenfassend sagen, dass die semantische Interpretation der natürlichen
Sprachen für die Maschinen auch zukünftig eine echte Herausforderung ist und bleibt, ganz zu
schweigen von der Interpretation von menschlichen Emotionen, welche spätestens mit Internet of
Things (IoT) sicherlich noch mehr an Bedeutung gewinnen wird. Außerdem haben wir uns hier
nochmals klargemacht, neben Technologien wie „Maschinelles Lernen“ und „Deep Learning“ wie
aktuell immer noch „Ontologien“ sind und zwar für die Zukunft unserer Gesellschaft und das
zukünftige Web nämlich Semantic Web. Sehr geehrter Herr Prof. Schade, ich bedanke mich bei Ihnen
im Namen unserer Arbeitsgruppe Semantic Web vielmals für dieses ausführliche und nette Gespräch.
ÜBER
Apl. Prof. Dr. Ulrich Schade studierte Mathematik (Diplom, 1986) und Linguistik (Promotion, 1990.
Habilitation für Computerlinguistik und Psycholinguistik, 1996). Nach Lehrstuhlvertretungen in
Bielefeld und Stuttgart arbeitet er seit 2002 als Forschungsgruppenleiter für Informationsanalyse am
Fraunhofer-Institut für Kommunikation, Informationsverarbeitung und Ergonomie. Daneben lehrt er
an der Rheinischen Friedrich-Wilhelms-Universität im Bereich „Applied Linguistics“. Er ist Autor von
zahlreichen wissenschaftlichen Artikeln. Auch im Buch
Corporate Semantic Web veröffentlichte er zwei hochinteressante Beiträge direkt aus der Praxis:
Semantische Suche im Bereich der Energieforschungsförderung (U. Schade, H. Bense, M. Dembach, L.
Sikorski) und Ontologien als Schlüsseltechnologie für die automatische Erzeugung
natürlichsprachlicher Texte (U. Schade, H. Bense).
Copyright © 2012-2020 Dipl.-Ing. Börteçin Ege - Alle Rechte vorbehalten