Wednesday 12 July 2017

Trading Strategien To Exploit News Gefühl


Kategorie Archive: Trading Papers Ich bin gerade auf dieses Papier gestoßen und wollte es hier dokumentieren für etwas, um wieder zu kommen und für mich selbst zu testen, hoffentlich findest du es so interessant wie ich. Die Methode hat vier Parameter: Sentiment Analysis Period 8211 Wie viele Tage der vorherigen Stimmungsdaten zu verwenden Holding Periode 8211 Wie lange ein Handel für Marktkapitalisierung zu halten 8211 Machen kleine Kappe und große Mütze reagieren die gleiche Diversifikation 8211 Wie viele Aktien haben in der Portfolio Jedes der Handelsmodellparameter wird ebenfalls analysiert und deren Effekte erklärt. Das Papier skizziert einen marktneutralen Stimmungs-basierten Trading-Algorithmus, der über einen Zeitraum von fünf Jahren (2005-2009) wieder getestet wird und produziert einige außergewöhnlich beeindruckende Renditen fast 40 in bestimmten Jahren je nach Konfiguration. Was ich am meisten an dem Papier mag, ist, dass der Asset zum Handel auf der Grundlage eines festen Kriteriums ausgewählt wird (dh es ist in den Top-n-Extrem-Sentimenten), dies stoppt positive Bias-Effekte, wodurch der Autor nur profitable Szenarien präsentieren kann . Das Gefühl basiert auf der Analyse von Nachrichtenposten, Blogposts und Tweets. Da twitter erst im Jahr 2009 entstanden ist, hatten die Autoren nur noch ein halbes Jahr Wert von twitter Daten zu analysieren. Die großartigen Ergebnisse in diesem Papier wurden ohne Twitter-Daten mit normalen Nachrichten und Blog-Quellen erreicht. Das Papier zeigt, dass Corpus Größe zählt, mit Blogs könnte eine billigere Methode, um ein Korpus (scrape viele RSS-Feeds) zu sammeln, während mit Twitter gibt es Einschränkungen, welche Daten können Sie kostenlos (volle Datafeeds beginnen bei 3500 pro Monat. ). Eine Standardidee in der Verhaltensökonomie ist, dass Emotionen eine große Rolle bei der Entscheidungsfindung spielen und das Agentenverhalten tief beeinflussen. Diese Linie der Logik kann auf die Börse angewendet werden, Preisbewegungen sind eine Funktion der Emotionen der Agenten auf dem Markt. Im Jahr 2011 ein Papier von Johan Bollen, Huina Mao, Xiaojun Zeng genannt 8220Twitter Stimmung prognostiziert die Börse8221. Es wird gezeigt, dass es durch die Anwendung der Stimmungsanalyse auf Twitterposten (Tweets) möglich ist, den aktuellen emotionalen Zustand der Agenten zu messen. Das Papier fährt dann fort zu argumentieren, dass die Emotion von Twitter mit Marktbewegungen korreliert und möglicherweise sogar die Bewegungen vorherzusagen ist. Nachdem dieses Landmark Papier erstmals veröffentlicht wurde, hat eine Reihe von Hedgefonds die Idee genommen und produzierte twitter Fonds, der öffentlich bekannteste Twitter-Fonds wird von Derwent Capital geführt. Ich plane, diese Idee weiter in diesem Blog zu untersuchen, aber wenn du vor mir anfangen willst, dann sollte folgendes nützlich sein: Trading Strategies zur Nutzung von Blog und News Sentiment. Zitate Zitate Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Zitat Darüber hinaus werden verschiedene praktische Anwendungen des Meinungsabbaus, wie z. B. Produktpreisgestaltung 3, wettbewerbsfähige Intelligenz 4, Marktvorhersage 5, 6, Wahlvorhersage 7, 8. Nationenbeziehungsanalyse 9 und Risikodeklärung in Bankensystemen 10, Industriegemeinschaften. Auf der anderen Seite das Wachstum der sozialen Medien. E-Commerce und Online-Rezension Websites wie Twitter, Amazon und Yelp, bietet eine große Menge an Corpora, die entscheidende Ressourcen für die akademische Forschung sind. Abstrakt Auszug ausblenden ABSTRAKT: Als die Prävalenz von Social Media im Internet ist die Meinungsabteilung ein wesentlicher Ansatz zur Analyse so vieler Daten geworden. Verschiedene Anwendungen erscheinen in einer Vielzahl von industriellen Bereichen. Mittlerweile haben die Meinungen vielfältige Ausdrücke, die Forschungsprobleme mit sich bringen. Sowohl die praktischen Anforderungen als auch die Forschungsprobleme machen in den letzten Jahren die Meinungsforschung zu einem aktiven Forschungsgebiet. In diesem Papier präsentieren wir eine Überprüfung der Natural Language Processing (NLP) Techniken für den Meinungsabbau. Zuerst führen wir allgemeine NLP-Techniken ein, die für die Textvorverarbeitung erforderlich sind. Zweitens untersuchen wir die Ansätze des Meinungsabbaus für unterschiedliche Ebenen und Situationen. Dann führen wir vergleichende Meinungsminen und tiefgreifende Ansätze für den Meinungsbergbau ein. Gutachten und fortgeschrittene Themen werden später eingeführt. Schließlich diskutieren wir einige Herausforderungen und offene Probleme im Zusammenhang mit dem Meinungsbergbau. Volltext Artikel Nov 2016 International Journal of Advanced Informatik und Anwendungen Shiliang Sun Chen Luo Junyu Chen quotOur Ergebnisse entsprechen denen von 14, wo es gezeigt wurde, dass die Stimmung Polarität nicht in der Lage ist, die Kausalität Beziehung aller Indizes zu erfassen. Unsere Ergebnisse entsprechen auch denen von 15, 16, wo sich gezeigt hat, dass sich die Tweets Stimmung und das Volumen auf die Aktienkurse auswirken. Das gleiche gilt für 3, 4, auch wenn sie verschiedene Stimmungsverhalten verwendet haben, die auf der Emotion basieren, die in Tweets Inhalt präsentiert wird. Abstract Zeigen Sie abstrakt Ausblenden ABSTRAKT: Social Media Benutzer heutzutage äußern ihre Meinungen und Gefühle über viele Ereignisse, die in ihrem Leben auftreten. Für bestimmte Benutzer sind einige der wichtigsten Ereignisse diejenigen, die mit den Finanzmärkten zusammenhängen. Ein interessantes Forschungsfeld entstand im vergangenen Jahrzehnt, um die mögliche Beziehung zwischen den Fluktuationen an den Finanzmärkten und den Online-Social Media zu untersuchen. In dieser Forschung präsentieren wir eine umfassende Studie, um die Beziehung zwischen arabischen finanzbezogenen Tweets und dem Wechsel der Aktienmärkte anhand eines Satzes der aktivsten arabischen Aktienindizes zu identifizieren. Die Ergebnisse zeigen, dass es eine Granger Causality Beziehung zwischen dem Volumen und der Stimmung der arabischen Tweets und die Veränderung in einigen der Aktienmärkte gibt. Volltext Artikel Jun 2016 Khalid Alkhatib Abdullateef Rababah Mahmoud Al-Ayyoub Yaser Jararweh quotPast Stimmung Analyse Studien wurden durchgeführt, um Umsatz zu erzielen 4, vorherzusagen, die Börse, 5, Studie Trading-Strategien 6, korrelieren öffentlichen Meinungsumfragen zu Twitter Stimmung 7, Und prognostizieren Stimmungsergebnisse 8. Während einige Untersuchungen durchgeführt wurden, um politische Standpunkte zu studieren 9 und soziale Beziehungen zu charakterisieren 10, wurden wenige Stimmungsanalyse-Studien mit dem expliziten Ziel der Konfliktverhütung oder strategischen Friedensförderung durchgeführt. Auszug Auszug ausblenden ABSTRAKT: Wir suchen eine webbasierte Anwendung, um auftauchende Konflikte an bestimmten geografischen Orten zu erkennen. Die Anwendung wird auf eine kontinuierliche Informations-Feed aus einer Datenquelle wie Twitter verlassen. Aus den gesammelten Daten werden wir Aktivitäts-Bursts identifizieren und eine Stimmungsanalyse über die Sammlung von Text in jedem Aktivitäts-Burst ausführen. Basierend auf den Ergebnissen der Stimmungsanalyse werden wir das Stimmungsthema oder - ereignis, die Reihenfolge der Ereignisse, die Beziehung zwischen den Ereignissen und die Beziehung zwischen den beteiligten Akteuren identifizieren. Wir werden auch identifizieren, wie die Akteure und Ereignisse miteinander verwandt sind. Angesichts eines bestehenden Twitter-Datensatzes identifizieren wir verwandte Themen oder Ereignisse, die spezifische Stimmungskriterien erfüllen, messen, wie Menschen über die Probleme fühlen und die Beziehung zwischen den Ereignissen z. B. Wenn ein Ereignis ein anderes verursacht oder wenn ein Ereignis von einem Schauspieler verursacht wurde. Volltext Technischer Bericht Mai 2016 Internationale Zeitschrift für fortgeschrittene Informatik und Anwendungen Henry Dambanemuya Christopher RaySentimentanalyse in der Finanzierung Die Teilnehmer an den Finanzmärkten, nämlich Dealerbrokern, Market Maker, Prop Trading Schreibtische von Investmentbanken, Analysten in Hedgefonds und Investmentfonds als Sowie Einzelhändler, alle in den Markt, um es aus verschiedenen Perspektiven zu nutzen. Für die Händler und Fondsmanager besteht die Herausforderung darin, Marktinformationen in eine Erhöhung des Wertes ihrer Vermögensbestände umzuwandeln, dh das allmähliche Alpha zu erfassen. Wo und wie können die Unternehmen innovativ sein, um eine solche Alpha-Sentiment-Analyse zu erhalten, ist ein aufstrebender Bereich, in dem strukturierte und unstrukturierte Daten analysiert werden, um nützliche Einsichten zu erzielen, die zu einer verbesserten Leistung führen. Durch Text-Mining von Nachrichten, Microblogs und Online-Suchergebnissen (Google, Wikipedia) werden massive Datenmengen in Informationen abgebaut. Diese Informationen werden dann verwendet, um umsetzbare Strategien für (i) Handel, (ii) Fondsmanagement und (iii) Risikokontrolle zu konstruieren. In dieser Konferenz präsentieren die Führungskräfte und Fachleute aus Europa, Großbritannien, USA und AsienPac (einschließlich Indien und China) ihre Erkenntnisse, ihr Wissen und den aktuellen Stand der Technik in diesem schnell aufkommenden Bereich der Sentiment Analysis Applied to Finance . Das Programm konzentriert sich auf die Anwendung der Sentiment Analysis auf die jeweiligen Modelle des Handels, Fondsmanagement und Risikokontrolle. Marktführer und Anbieter von ereignisgesteuerten Inhalten und Analysen, nämlich Thomson Reuters und Bloomberg, und ihre Senior-Domain-Experten präsentieren und erklären ihre Produkte und Dienstleistungen in diesem Bereich der Stimmungsanalyse für die Finanzierung. Themenbereiche: Grundlagen 038 Technologien der Sentimentanalyse für die Finanzierung Mehrdimensionale Sentimentanalyse News Sentiment - und Börsenreaktionen Ausnutzung der Sentimentanalyse in den Finanzmärkten Wer sollte teilnehmen Die Konferenz richtet sich an folgende Gruppen: Profis im FinTech-Bereich Quant-Teams aus Investition Und Hedge-Fonds Hochfrequenz-Trader Prop Trading-Tische von Investment-Banken Consumermarketing Analytics-Unternehmen Einführung und Begrüßung durch Professor Gautam Mitra, Optirisk UCL Prof. Gautam Mitra Gautam Mitra Messung und Vorhersage des menschlichen Verhaltens mit Online-Daten Tobias Preis, Warwick Business School In diesem Vortrag I Werden einige neuere Highlights unserer Forschung skizzieren und zwei Fragen behandeln. Erstens können große Datenressourcen Einblicke in Krisen auf den Finanzmärkten geben. Durch die Analyse von Google-Abfragevolumina für Suchbegriffe im Zusammenhang mit Finanzen und Ansichten von Wikipedia-Artikeln finden wir Muster, die als Frühwarnzeichen von Börsenbewegungen interpretiert werden können. Zweitens können wir einen Einblick in internationale Unterschiede im wirtschaftlichen Wohlbefinden geben, indem wir die Interaktionsmuster mit dem Internet vergleichen. Um diese Frage zu beantworten, führen wir einen Zukunftsorientierungsindex ein, um den Grad zu bestimmen, in dem die Internetnutzer in Zukunft mehr Informationen über Jahre suchen Vergangenheit. Wir analysieren Google-Logs und finden einen auffälligen Zusammenhang zwischen dem BIP des Landes und der Prädisposition seiner Bewohner, um sich zu freuen. Unsere Ergebnisse verdeutlichen das Potenzial, das die Kombination von umfangreichen Verhaltensdatensätzen für ein besseres Verständnis von großem menschlichem Wirtschaftsverhalten bietet. Tobias Preis TEA KAFFEE BREAK Das eine Ding jedes Quant muss über asiatische Sprachen wissen Elijah DePalma, Thomson Reuters Opportunity ist reich an asiatischen Märkten - vom Einzelhandel bis zum globalen Banken. Der Zugriff auf die richtigen Werkzeuge zur Analyse von Gefühlen und Trends ist besonders wertvoll, da wir weiterhin Verschiebungen, Fragmentierungen und Veränderungen in der Landschaft sehen. Von Australien bis hin zu ASEAN nach Japan kann Thomson Reuters Ihnen dabei helfen, den Vorteil zu erlangen, denn einer der ersten, der eine breite asiatische Sprachanalytik bietet, die der Markt verlangt. Um Ihnen zu helfen, die Herausforderungen und Chancen mit den richtigen Datenanalyse-Tools zu durchsuchen, wird dieses Webinar diskutieren: Stier New Asia Region Analytics: Intelligenz rund um Intraday-Marktreaktionen und breite Marktstimmungsdaten Stier Breite von Thomson Reuters Daten: Einzigartige Content-Sets, Stimmungsindizes und Sicherheitsabdeckung Über eine Vielzahl von regionalen Unternehmen, darunter Firmen in Japan, Australien und Neuseeland Stier Investment Style Use Cases: Robuste Inhalte bietet Zugang und Intelligenz, die Sie für die komplexesten Investment Styles und Typen benötigen. Elijah DePalma Einblicke in Marktsentiments und Handelsstrategien Gautam Mitra, OptiRisk Systems Die Sentiment Analysis ist ein wichtiges Soft-Technologie-Tool, das die Business Intelligence - und Performance-Evaluation beeinflusst, da diese heute in der Industrie und im Handel praktiziert werden. In diesem Vortrag stellen wir zunächst die vielfältigen Informationsquellen vor, nämlich News-Drähte, makroökonomische Ankündigungen, Social Media, MicroblogsTwitter, Online (Suche) Informationen wie Google Trends und Wiki. Wir beschreiben dann ein Modell, mit dem wir die Auswirkungen dieser Maßnahmen messen und schließlich, wie diese Einflussmaßnahme zur Verbesserung der prädiktiven Modelle des Vermögensverhaltens verwendet wird. Unser Ziel ist es, die ALPHA unserer Handelsbestände zu verbessern, beschreiben wir Strategien, mit denen wir Entscheidungen treffen Für Asset Allocation Insbesondere beschreiben wir, wie man Second Order Stochastic Dominance für Asset Allocation anwendet und diese mit Kellys Strategie für Geldmanagement kombiniert. Gautam Mitra LUNCH BREAK Sentiment-basierte Commodity Trading Svetlana Borovkova, Vrije Universiteit Amsterdam In dieser Präsentation behandeln wir die Frage der Handelsware auf der Basis von News-Stimmung. Zuerst skizzieren wir die Auswirkungen der News-Stimmung auf die Preise der verschiedenen Rohstoff-Futures. Für einzelne Rohstoffe werden dann profitable stimmungsbasierte Handelsstrategien konstruiert, mit dem Ziel, eine profitable Multi-Commodity-diversifizierte Handelsstrategie aufzubauen. Die News-Stimmung wird aus der Thomson Reuters News Analytics Engine (TRNAE) extrahiert und die gehandelten Rohstoffe sind die Bestandteile des Dow Jones Commodity Index (DJCI). Wir zeigen, dass profitable Stimmungsstrategien konstruiert werden können, die eine gleichbleibend gute Performance für verschiedene Rohstoffe sowie für Rohstoffportfolios aufweisen. Wir analysieren die Strategien auch in Bezug auf Risikoprofile und zeigen, wie der Nachteil begrenzt werden kann. Svetlana Borovkova Text - und Netzwerkanalyse für Stimmungsabbau Enza Messina, Universität Milano-Bicocca In diesem Vortrag zeigen wir, wie soziale Beziehungen dazu veranlasst werden können, die Stimmungsanalyse von Microblogs auf der Ebene der Benutzer zu verbessern und die Begrenzung des State-of-the-Art zu überwinden Methoden, die in der Regel Beiträge als unabhängige Daten betrachten. Wir zeigen, wie die Kombination von Postinhalten und Netzwerkstrukturinformationen zu signifikanten Verbesserungen der Polaritätsklassifikation der Stimmung sowohl auf post - als auch auf Benutzerebene führen kann. Enza Messina TEE KAFFEE BREAK Sentiment in Währungen Changjie Liu, Analytics at MarketPsych Sentiment Studien an den Finanzmärkten haben sich in der Regel auf Aktien konzentriert. Hier konzentrieren wir uns auf Währungen, indem wir ihre Stimmungsmerkmale, Beispiele historischer Ereignisse betrachten und die Anwendung von Stimmungsstrategien auf diese Assetklasse ausprobieren. Changjie Liu Soziale hörende finanzielle Crowd-Intelligenz Fast alle Online-Nachrichtenquellen, die die traditionellen Quellen sind, die wir in den Blättern von Bloomberg und Reuters kennen, sind ein Bruchteil der Inhalte, die im World Wide Web verfügbar sind. Der verbleibende Inhalt stammt aus neuen Medienquellen, darunter Twitter, YouTube und Facebook, die von Einzelpersonen generiert werden, die über Ereignisse sprechen, wie sie geschehen. Diese Millionen von Stimmen können, wenn sie strukturiert sind, Einsichten erzeugen, die Investoren helfen können, Investitionsentscheidungen zu treffen. Diese Präsentation wird sich berühren, wie Sentifi diese Erkenntnisse strukturiert und liefert und einen Informationsvorteil für Medienplattformen weltweit bietet. Huyen Tran Panel Session 2- Neue Paradigmen für die Sentiment-Analyse angewendet auf FinanceTrading-Strategien zur Nutzung von News Sentiment Transkription 1 Trading-Strategien zur Nutzung von News Sentiment Wenbin Zhang und Steven Skiena und Department of Informatik Stony Brook University Stony Brook, NY USA Zusammenfassung Wir verwenden quantitative Nachrichten Daten, die durch eine umfangreiche natürliche Sprachverarbeitung (NLP) Nachrichtenanalyse-System, um eine umfassende Studie, wie ein Unternehmen berichtet Nachrichten Häufigkeit, Stimmung Polarität und Subjektivität antizipiert oder reflektiert seine Aktienhandel Volumen und finanzielle Erträge. Unsere Analyse liefert konkrete Hinweise darauf, dass die Nachrichtendaten in hohem Maße informativ sind, wie es in der Literatur bisher vorgeschlagen wurde, aber in unserem Umfang von über 500 Zeitungen täglich mehr als vier Jahre lang studiert wurde. Auf der Grundlage unserer Erkenntnisse geben wir eine marktneutrale Handelsstrategie an, die über einen Zeitraum von vier Jahren mit einer konstanten positiven Rendite mit geringer Volatilität führt. Unsere Ergebnisse sind signifikant in der Bestätigung der Leistung der allgemeinen Stimmungsanalyse Methoden über weite Domänen und Quellen. 1 Einleitung Die effiziente Markthypothese behauptet, dass die Finanzmärkte informativ effizient sind, was bedeutet, dass die aktuellen Aktienkurse bereits alle bekannten Informationen und alle aufgetretenen Fakten widerspiegeln. Darüber hinaus sind die Preise in den Finanzmärkten unvoreingenommen und enthalten alle Weisheiten oder zukünftige Prognosen von Investoren. Daher können die Anleger nicht übertriebene Gewinne aus dem Markt machen, wenn ihre Handelsstrategien auf bekannten Informationen basieren, weil die Marktpreise effizient sammeln und aggregieren verschiedene Informationen und halten sich unverzüglich zu ändern. Eine große und wachsende Literatur dokumentiert jedoch, dass die Bewegungen der Finanzindikatoren nicht immer mit den quantitativen Maßnahmen der Unternehmensgrundlagen übereinstimmen (z. B. 5, 18, 20, 21). Dies erfordert ein Umdenken der Schwankung der Aktienkurse, um andere Beweise zu finden, um es zu erklären. Einige ermutigende Ergebnisse belegen die bedingte Nutzung der effizienten Markthypothese. Besonders 3 zeigt, dass die Aktienkurse nach wichtigen Unternehmensveranstaltungen bis zu mehreren Monaten zu treiben drohen. Dies deutet darauf hin, dass einige der Drift durch den Preis s Unterreaktion auf Informationen verursacht wird. Die Nachrichtendaten könnten somit eine machbare und nützliche Möglichkeit zur Analyse der Finanzmärkte darstellen. Unser primäres Ziel ist es, die Beziehung zwischen Börsen - und Nachrichtendaten zu untersuchen und zu veranschaulichen, inwieweit sie zur Gestaltung von Anlagestrategien beitragen können. Unsere Hauptbeiträge in diesem Beitrag sind: Large-Scale News Analysis Wir geben umfassende Ergebnisse der Analyse der Börse mit rund einem Terabyte News-Daten und Tausende von verschiedenen Unternehmen. Diese Skala der Analyse wurde bisher in der Literatur bisher nicht versucht und ermöglicht es uns, kurzfristige, aber statistisch signifikante Korrelationen zwischen Nachrichtenvolumenstimmung und finanziellen Renditen zu identifizieren. Corpus Size Matters Bisherige Arbeiten zur sentimentbasierten Finanzanalyse (z. B. 21) konzentrieren sich explizit auf nationale Finanzzeitungen, nämlich den Dow Jones News Service und das Wall Street Journal. Allerdings zeigen wir, dass ein signifikanteres, zuverlässigeres Gefühlssignal aus der Analyse eines vollständigen Korpus von 500 U. S. Tageszeitungen stammt, als nur die New York Times zu lesen. Sentiment-orientierte Equity Trading Wir schlagen eine marktneutrale Aktienhandelsstrategie vor, die vollständig auf Stimmungsdaten aus veröffentlichten Nachrichtenquellen basiert. Durch sorgfältiges Experimentieren über vier volle Jahre von newsprice () - Daten zeigen wir, dass unsere Strategie faszinierende Renditen mit geringer Varianz bietet (wobei sowohl die Transaktionskosten als auch die in Abschnitt 3.3 diskutierte zeitliche Auflösung berücksichtigt werden). Validierung von Sentiment Analysis Methoden Vielleicht ist der wichtigste Beitrag unserer Arbeit die bisher stärkste Validierung der Genauigkeit der Methodik der Lydia Stimmungsanalyse. Eine ordnungsgemäße Validierung ist in Abwesenheit eines vereinbarten Goldstandards für die Entity-Level-Stimmungsanalyse nicht möglich. 1 2 Aber unsere Fähigkeit, ein hinreichend zuverlässiges Stimmungssignal für den erfolgreichen Handel zu gewinnen (unabhängig von der zeitlichen Auflösung), liefert einen rigorosen Beweis dafür, dass unsere Stimmungsmethoden Exakt reflektieren echte Veränderungen in Reaktion auf Nachrichten Veranstaltungen. Die veröffentlichte Validierung ist entscheidend für die Festlegung unserer Analyse als legitime Ressource für die sozialwissenschaftliche Forschung. Projekte mit Lydia-Analyse sind bereits in Politikwissenschaft, Soziologie und internationalen Beziehungen im Gange. Dieses Papier ist wie folgt organisiert. Wir berichten über die Arbeit in Abschnitt 2. Wir beschreiben dann den Ursprung und die Merkmale der Nachrichten und Finanzdaten, mit denen wir arbeiten. In Abschnitt 4 geben wir eine vollständige Analyse der Korrelation zwischen den wichtigsten Börsenvariablen und den wichtigsten Nachrichtenvariablen, die der wichtigste Teil dieser Arbeit ist. Schließlich schlagen und bewerten wir in Abschnitt 5 eine marktneutrale Handelsstrategie auf Basis von Nachrichtendaten. Wir schließen daraus, dass die Finanzpreise mit quantitativen Nachrichtendaten signifikant korreliert sind und dazu genutzt werden können, interessante Handelsstrategien zu formulieren. 2 Verwandte Arbeiten Bisherige Arbeit ist zwischen den Finanz - und Informatik-Akademischen Gemeinschaften geteilt. Zuerst untersuchen wir die Forschung aus dem Finanzbereich. Tetlock 21 untersucht, ob das Auftreten von negativen Wörtern in firmenspezifischen Nachrichtenartikel uns helfen kann, Firmen-Cashflows vorherzusagen und ob die Börsenpreise der Unternehmen sprachliche Informationen effizient einbeziehen. Sie behaupten, dass Unternehmen Aktienkurse unter-reagieren auf die zugrunde liegenden negativen Informationen von Nachrichtenartikeln. Genauer gesagt, negative Informationen in Nachrichtenartikeln spiegeln sich in Börsenkursen mit etwa eintägiger Verzögerung wider. Chan 3 untersucht monatliche Renditen zu einer Teilmenge von Aktien nach öffentlichen Nachrichten über sie freigegeben wird und findet, dass Investoren reagieren langsam auf Informationen, vor allem nach schlechten Nachrichten. Ein weiterer wichtiger Befund ist, dass die Bestände im darauffolgenden Monat nach extremen Kursbewegungen, die nicht von öffentlichen Nachrichten begleitet werden, umgekehrt werden. Diese Muster sind statistisch signifikant, auch nach Ausschluss von Gewinnansagen, Controlling für Größe, Book-to-Market, Risikoexposition und andere Effekte. Eine Einschränkung dieser Studie ist die grobe, monatliche Granularität der Analyse. In unserer Arbeit bieten wir eine Analyse der täglichen Nachrichten und Preisbewegungen an. Antweiler und Frank 1 Studie mehr als 1,5 Millionen Nachrichten von Yahoo Finance und Raging Bull, die die beiden beliebtesten Internet Stock Message Boards sind. Sie beschäftigten Naive Bayes und unterstützen Vector Machine Klassifikatoren zu beurteilen bullishness Inhalt dieser Aktien-Nachrichten. Sie zeigen, dass diese Message Boards sehr informativ sind, und weiter, dass Bullishness positiv und signifikant mit Rückkehr verbunden ist. In Bezug auf das Handelsvolumen, die Papier zeigt umstrittenen Meinungen sind mit mehr Trades verbunden sind. Das Papier zeigt auch die Meldungsbuchungen helfen, Volatilität für den täglichen und intraday Handel vorherzusagen. Von der Informatik-Seite aus werden intensive Forschungen von Text-Mining - oder Maschinen-Lerngemeinschaften geliefert. Ihre Grundidee ist es, sprachliche Informationen mit Text-Mining-Techniken zu quantifizieren, die vordefinierten Satz von Merkmalen der Trainingsdaten zu erhalten und dann verschiedene Modelle mit klassischen statistischen Ansätzen oder statistischen Lernalgorithmen zu erstellen. Eine detaillierte Übersicht über den Textbergbau für Marktreaktionen auf Nachrichten findet sich in 14. Insbesondere ist das 3-Klassenmodell weit verbreitet, um Dokumente oder Wörter zu etikettieren. Die erste Kategorie (positive Stimmung) besteht aus Nachrichtenartikeln oder Wörtern, die die dazugehörigen finanziellen Variablen in einem bestimmten Zeitraum zu einem gewissen Grad erhöhen, zum Beispiel eine Nachrichtenveranstaltung macht den Preis der einzelnen Aktien IBM im nächsten Tag um 0,5 . Die zweite Kategorie (negative Stimmung) besteht aus Nachrichtenartikeln oder Wörtern, die die damit verbundenen finanziellen Variablen in einem bestimmten Zeitraum bis zu einem gewissen Grad verringern. Die dritte Kategorie besteht aus neutralen Nachrichten oder Wörtern. Die drei Kategorien könnten als Zunahme (mindestens 0,5) markiert werden, verringern (mindestens 0,5) und bleiben stetig oder Daumen hoch, Daumen nach unten und keine Empfehlung. Die Forschung, die unter diesem Modell charakterisiert werden kann, umfasst 7, 8, 11, 12, 15, 19, 22, 23. Es gab auch erhebliches Interesse an der Meinungsabteilung und der NLP-Gemeinschaft bei der Verwendung von Finanztextströmen als Domäne zur Prüfung von Stimmungsanalyseverfahren , Darunter 4, 10, 16. Im Großen und Ganzen wenden sie Informationen zur Abfrage oder maschinelle Lerntechniken an, um Textströme in einige Kategorien zu klassifizieren und hoffen, eine bessere Klassifizierungsgenauigkeit als den Menschen zu erzielen, und so könnte die zugrunde liegende Meinung entdeckt werden. Pang und Lee 17 gaben eine Detailrezension in diesem Bereich. 3 Stock - und News-Daten Hier beschreiben wir die Bestands - und News-Datenquellen, die die Grundlage für die Analyse in diesem Papier bilden. 3.1 Bestandsdaten Unsere Aktienkurs - und Volumendaten erhalten Sie bei Thomson Datastream Services 6, einer umfangreichen Datenbank mit Zeitreihen auf mehr als zwei Millionen Instrumenten. Hier betrachten wir nur die in der New Yorker Börse notierten Aktien, da diese Aktien eine intensivere Medienberichterstattung haben als Aktien in anderen Märkten. Wir haben die Daten aller 3238 Aktien im Zeitraum vom 1. Januar bis 31. Oktober 2008 für ihre täglichen offenen, nahen, hohen, niedrigen Preise, Umsatzvolumina und monatlichen Marktkapitale heruntergeladen. 3.2 News-Daten Mit dem Lydia (13, einem Hochgeschwindigkeits-Textverarbeitungssystem, das große Textströme auf Zeitreihen-Daten über die Häufigkeit der Stimmung der zugrunde liegenden Nachrichtenentitäten reduzieren) wurde in diesem Papier zwei verglichen Verschiedene Sammlungen von neuen Quellen. Der Dailies Depot umfasst die Abdeckung von über 500 bundesweiten und lokalen Zeitungen zwischen 1. November 2004 und 30. Oktober 2008, während die New York Times Depot besteht aus einer einzigen nationalen Zeitung über längere Zeit (von 1981 bis 2008) 3.3 News Timing Issues Die korrekte Interpretation unserer Ergebnisse erfordert eine sorgfältige Aufmerksamkeit auf das Timing unserer News Spidering (Text Retrieval) Agenten. Für die Dailies News Corpus wir beschäftigen, beginnt das Spidering-Programm, um News um 11 Uhr EST jeden Tag, a herunterzuladen Prozess, der fast 12 Stunden dauern kann, alle diese Artikel werden an den Tag gutgeschrieben, an dem das Spinnenprogramm anfing zu laufen, während der Großteil unserer Nachrichten sicher vor der 9.30 Uhr Eröffnung der NYSE jeden Tag abgerufen wurde, können wir das nicht garantieren Es ist unverschmutzt durch Nachrichtenreporting-Ereignisse nach der Marktöffnung. Verschiedene Timing-Probleme sind mit dem New York Times-Korpus verbunden, wo das Veröffentlichungsdatum von der Nachrichtenquelle bereitgestellt wird. Als Morgenzeitung geht es vor der Eröffnung der Märkte auf die Veröffentlichung, aber auch das zeitgenössische Online-Publishing verwischt den Rhythmus des News-Zyklus. Die allgemeine Konsequenz unserer Ergebnisse über beide Corpora (unter verschiedenen Timing-Modellen) unterstützt unsere Schlussfolgerungen, aber das Ausmaß, in dem wir folgen, anstatt Preisbewegungen zu antizipieren, lässt sich in dieser Studie nicht schlüssig beantworten. 3.4 Lydia-Sentiment-Analyse Die in diesem Papier analysierten Stimmungsdaten wurden heruntergeladen und bestehen aus Zeitreihen von günstigen (positiven) und ungünstigen (negativen) Wörtern, die mit dem Auftreten jedes benannten Unternehmens (hier bezeichneten Unternehmen) zusammenhängen. Das Lexikon von fast 5.000 Stimmungs-beladenen Wörtern wurde durch den Ausbau von Synonymsantonymen aus kleinen Sätzen von Samen Worten mit Business, Verbrechen, Gesundheit, Politik, Sport und Medien-Domains verbunden konstruiert. Ein allgemeiner Stimmungsindex aggregiert die Lexika aus all diesen Domänen. Weitere Details zu den Variablen ArtCounts GenPola GenDiffPer GenSubj Correlations Tabelle 1: Korrelationskoeffizienten von vier Nachrichtenvariablen zwischen den New York Times und Dailies News Corpuses. Hier untersuchen wir Normalisierte Artikelzählungen, allgemeine Polarität, allgemeine Differenz pro Referenz und allgemeine Subjektivität über eine monatliche Zeitskala. Lydia Stimmungsanalyse Methoden und ihre Validierung sind in 2, 9 gemeldet. Für die Finanzmarktanalyse waren wir am meisten interessiert in General, Business und Medien Kategorien. Nach der anfänglichen Korrelationsanalyse haben wir die Kategorie "Allgemein" identifiziert, ist die wichtigste, und so verwenden wir nur die allgemeine Stimmung in der anschließenden Analyse. Sei p und n die Anzahl der rohen positiven und negativen Verweise auf eine gegebene Entität, die insgesamt N-mal im Korpus (einschließlich neutraler Referenzen) auftritt. Dann leiten wir aus diesen Rohzahlen folgende natürliche Sentimentsubjektivitätsmaße ab: Polarität (pn) (pn) Subjektivität (np) n pos refs pro ref pn neg refs pro ref nn senti diffs pro ref (pn) n Diese Maßnahmen sind nicht stark korreliert mit Rohe Stimmung zählt und sie können zusätzliche Informationen liefern, die Rohdaten nicht können. Daher können wir bei ihnen die Multikollinearität bei der linearen Analyse vermeiden. 3.5 Matching Stock News Entities Ein wichtiges technisches Problem betrifft die Anpassung der Aktien - und News-Entity-Namen. Zum Beispiel ist die NYSElisted First Commonwealth Financial mit drei Entitäten in unserer Nachrichtendatenbank verbunden: First Commonwealth Financial, First Commonwealth Financial Corporation und First Commonwealth Financial Corp. Wir aggregieren die Zeitreihen aller drei Nachrichtenentitäten, um die News-Zeitreihen zu definieren Für dieses spezifische Unternehmen. Unser Matching Algorithmus liefert News-Daten über 1113 Aktien für Dailies News und 867 Aktien für die New York Times. 3.6 New York Times vs. Dailies Hier untersuchen wir die Beziehung zwischen den beiden Nachrichtenkorpusen, die wir studieren. Ist die nationale oder lokale Berichterstattung für die Finanzanalyse wertvoller: Tabelle 1 listet die Korrelationskoeffizienten für einige Nachrichtenvariablen zwischen New York Times und Dailies auf. Die wichtigsten Beobachtungen sind: 3 4 Referenzfrequenz Die Korrelation zwischen dem monatlichen (jährlichen) normalisierten Artikel zählt die Nachrichten York Times vs. Dailies ist (0.6651). Die Korpusen teilen sich eine höhere Korrelation mit der Häufigkeit als bei den Stimmungsvariablen, was sowohl die größere Abweichung der redaktionellen Aussichten als auch die Schwierigkeit der Erkennung der Stimmung präzise mit algorithmischen Methoden widerspiegelt. Sentiment Polarität Die monatliche Stimmung Polarität Korrelation über die beiden Korpusen ist. Und ist statistisch signifikant. Allerdings führt das kleinere Nachrichtenvolumen der New York Times zu häufigeren Extrempolaritätswerten (1, 0 oder -1). Dieses Problem wird mit Stimmungsunterschieden pro Referenz reduziert (GenDiffPer), für die New York Times und Dailies positiv und signifikant korreliert bleiben. Tabelle 1 zeigt an, dass GenDiffPer ein besseres Maß als die Polarität ist. Subjektivität Der Korrelationskoeffizient der Subjektivität zwischen den Corpusen ist. Wie in Tabelle 1 berichtet. Eine Beobachtung ist, dass die durchschnittliche Subjektivität der New York Times größer ist als die von Dailies. Diese substantiellen Korrelationen erklären, warum wir für beide Korpusen qualitativ ähnliche Ergebnisse erzielen. Allerdings bietet die Dailies bessere Ergebnisse als New York Times aufgrund seiner höheren Entity Volumen. Wegen der Platzbeschränkungen beschränken wir die nachträglichen Diskussionen auf den Tageszeitungskorpus, sofern nicht ausdrücklich anders angegeben. 4 Korrelation der News-Preisdaten In diesem Abschnitt analysieren wir die Korrelationen zwischen News - und Bestandsvariablen in großem Maßstab. Hier bedeutet großformatige Analyse für alle Nachrichten gegen NYSE übereinstimmende Namenspaare. 4.1 News Frequency vs. Trading Volume Das erste Problem, das wir studieren, ist die Beziehung zwischen News Referenzen und Handelsvolumen. Intuitiv sollten mehr Nachrichtenreferenzen zu einem höheren Handelsvolumen führen. Um technische Schwankungen in der Spidering-Wirksamkeit zu kompensieren, verwenden wir normalisierte Artikelzählungen anstelle von Rohartikelzählungen, um Schwankungen in der Gesamtmenge der Nachrichten, die jeden Tag gespuckt werden, zu korrigieren. Insbesondere werden wir immer die gemeldeten normalisierten Artikelzählungen als unser Standardmaß der Entity-News-Häufigkeit verwenden, die einer Gaußschen Verteilung folgt. Some significant observations on news frequency are: Strength of correlation For both Dailies and New York Times depositories, the correlation coefficient between logged normalized article counts and logged stock trading volume are more than 0.4. Figure 2: Logged Monthly Normalized Article Counts vs. Logged Stock Trading Volume for Dailies news, broken down by market capitalization. Article counts vs. other frequencies We compared three distinct measures of news reference frequency: entity frequencies, sentence counts, and article counts. Our experiments shows article counts correlated with stock trading volumes the best, therefore all our following analysis use article counts instead the other two measures. Daily, monthly, and yearly analysis The correlation coefficient of logged normalized article counts versus logged normalized stock trading volume for daily, monthly, and yearly analysis are. and respectively. Therefore, monthly analysis is a proper time scale for analysis. Persistence over time How well does today s article counts correlate with yesterday s or tomorrow s trading volumes A one day lag generates the highest correlation (0.74), but the correlation coefficients persist (between 0.64 and 0.68) for periods up to ten days in the future. This is due to the high auto-correlation for both article counts and stock trading volumes. Indeed, the auto-correlation stock trading volumes was above 0.9 for lags of up to ten days. Influence of Market Sectors Figure 1 shows the analysis for different sectors. We find that for sectors Pharmaceuticals amp Biotechnolog, Aerospace amp Defense, and Automobiles amp Parts, intensive news references are more likely to cause more trades. By contrast, the trading volumes for sectors Electronic amp Electrical Equipments and Software amp Computer Services are less sensitive to media exposure. Breakdown by Market Capitalization Figure 2 shows 4 5 Figure 1: Logged Monthly Normalized Article Counts vs. Logged Stock Trading Volume for Dailies news, broken down by market sectors. the breaking down analysis for different market capitals. This figure indicates that the correlation coefficients between article counts and stock trading volume become stronger and stronger with the increasing of market capitalization. For large enough companies, their news coverage reflects relative importance more than distinctive newsworthiness. 4.2 Frequency vs. Capitalization The second problem we studied is the relationship between firms news references and their corresponding market capitals. Usually bigger firms receive more news coverage. Indeed, our monthly analysis shows the correlation coefficient between firms market capitals and trading volumes is as high as 0.8. In fact, the logged monthly normalized article count is also positively correlated with the logged market capitals with a correlation coefficient of 0.42, and it is statistically significant. 4.3 News Polarity vs. Stock Returns A more interesting question is the return of stocks. We believe the return of stocks are relevant to the public opinion of corresponding firms, say, how good or how bad people think about these firms. If people think a firm is good, more likely its stock price will raise, and thus we will get a positive return, and vice versa. In our analysis, polarity is a quantitative term to describe how good a firm is Variable Selections First we will identify the best measure of news polarity. In Section 3.4, we define two relevant variables, polarity and positive-negative differences per reference (DiffPer). Our experiments showed DiffPer to be a more robust measure of sentiment polarity, so we use DiffPer measure of polarity in what follows. We consider three different performance measures for a given stock s stock returns (R(s)), the first order difference of stock prices, and abnormal returns. The first order difference is the absolute change of two contiguous days stock prices. The abnormal return R (s) is calculated by R (s) R(s) R(NY SE) In our correlation analysis we compare each news variable from polarity, change of polarity, percentage change of polarity, to each stock variable from stock return, stock abnormal return, first order difference of stock prices. This gives six combination pairs for testing. Our experiments show (polarity, stock return) pair has the most significant correlations among all the combinations, so (due to space limitations) we only give the analysis results for polarity versus stock returns in the following sections. The (polarity, stock abnormal return) pair achieves very similar performance with (polarity, stock return) Correlation Analysis with Shifting of Time Figure 3 examines how much today s polarity is correlated with stock returns on proximate days. We see that (1) the correlation coefficient of today s polarity versus previous return decrease gradually, and (2) for days 1 and later, all the correlation coefficients are almost zero, and all those correlations are not statistically significant. This proves that today s news almost have no predictive power for the return of tomorrow or later days. We also notice that the return of day 0 has the best correlation with 5 6 Figure 5: GenPolarity vs. Monthly Stock Close Return for Dailies news. The analysis is broken down by market sectors. Figure 3: GenPolarity vs. Daily Return. The correlation coefficients are calculated with time lags of from -5 to 5 days. polarity. In fact, most of our daily news are published in the early morning each day, and thus it is reasonable to infer they have some predictive power for current day s return. In the other word, today s news has significant relationship with the current day s return, has some relationship with yesterday s return, but almost has no relationship with tomorrow s return. The efficient market hypothesis states that the market reflects public information in the stock price within a very short time. Therefore, Figure 3 illustrated this theory perfectly, i. e. the correlation between news polarity and stock returns disappear after 1 day Strengthening the Correlation The sentiment-return correlation can be improved by removing companies with the weakest detected polarity to fo - Figure 4: GenPolarity vs. Monthly Return for Dailies news for companies with a market capitalization over 50 billion. The correlation coefficients are calculated with eliminating certain percentage of the most neutral sentiment data points. cus on those showing significant sentiment signal. Figure 4 shows the impact to correlation coefficients if alpha neutral data are removed. Once 80 of the neutral sentiment are removed, the correlation coefficients become quite strong. Figure 5 presents the correlation between polarity and stock returns by market sector. In particular, the Household Goods amp Home Constructions, Life Insurance, and Financial Services sectors are most strongly affected by news sentiment all of which are strongly associated with the subprime mortgage crisis. By contrast, returns from the staid Fixed Line Telecommunications, Industrial Transportation, and Beverages sectors have near zero correlation with news sentiment. 6 7 Figure 6: GenPolarity vs. Monthly Stock Close Return for Dailies news. The analysis are broken down by the scale of market capitals. Figure 7: Yearly return vs. number of selected top and bottom stocks. We tune n from 1 to 20, and fix parameters: s 1, h 2, C l 10 billions, C u 600 billions. From Figure 6, we can see that correlation coefficient for bigger firms is much stronger than those for smaller firms, especially, for firms who have more than 50-billion market capitalization. The result makes sense, because large firms generate more intensive news coverage and thus the collective information can better indicate the firms situation. 4.4 Subjectivity vs. Trading Volume Now we consider the relationship between news subjectivity and stock trading volume. Subjectivity means the amount of sentiment references among total references. Within the sentiment analysis community, subjectivity is considered a more robust measure than polarity 17. In all cases, subjectivity is positively and significantly correlated with stock trading volume. This conclusion coincides with the result from Antweiler and Frank 1 that controversial opinions are associated with more trades. 5 A News-Based Trading Agent We have demonstrated significant correlations between news data and financial market indicators. In this section, we design a market-neutral trading agent to demonstrate the predictive power of news data. A market-neutral strategy seeks to profit from both increasing and decreasing prices in a single or numerous markets by taking matching long and short positions in different stocks. We propose our market-neutral algorithm and backtest it using real market data from 2004 to The results suggest that news analysis should be employed as an informative component of trading agents. 5.1 The Market-neutral Strategy Our market-neutral strategy first ranks companies by their reported sentiment each day, then goes long (short) on equal amounts of positive (negative) sentiment stocks. Sentiment here is taken to mean the polarity of firms. The monthly returns generated by such a trading agent will be used for performance evaluation. Our initial investment is M and backtesting period is from start date D s to end date D e. We identify four key tunable parameters in this strategy: n: The number of stocks selected from the top and bottom of the firm list (sorted by sentiment). s: The number of historical days used for sentiment calculation. If s 1, we only consider the sentiment of current day. h: Holding days, which means how many days we will hold for the current portfolio. C l and C u. The lower bound and upper bound of firms market capital. We only consider the stocks whose market capitals are in range C l, C u . The four parameters impact our stock returns substantially, and the details will be given in the following sections. The detailed algorithm is described in Algorithm 1. Because we always long stocks with the best sentiment, and short stocks with the worst sentiment, this algorithm is also called the best-sentiment strategy. 5.2 Performance Evaluation In this section, we backtest our market-neutral strategy with real news data and stock data. In our simulation, all the 7 8 Algorithm 1 A news-based market-neutral strategy Require: 1) Consider top n and bottom n stocks of sentiment. 2) Only whose market capital in range C l, C u are considered. 3) Consider historical s days for sentiment computation. 4) Stocks are hold for h business days. 5) Initial investment M gt 0. 6) Simulation period D s, D e. 1: Get a list of matched pairs of NYSE stocks and company entities in news. 2: For each matched pairs, get the stock open price time series, news time series, including the news polarity time series with considering the previous s days for sentiment computation. 3: for each day D i from D s to D e do 4: if D i is one of the first h trading days in D s, D e then 5: Sort all stocks based on their polarity of day D i. 6: Filter out stocks if their corresponding market capital is not in C l, C u. 7: Get top n and bottom n stocks based on their polarity. 8: For each stock in the top and bottom list, invest M(2nh) amount of money with their opening price of day D i. 9: else if D i is one of the final h trading days in D s, D e then 10: Redeem stocks bought at trading day (D i h) with their opening price of day D i. 11: else 12: Sort all stocks based on their polarity of day D i. 13: Filter out stocks if their corresponding market capital is not in C l, C u. 14: Get top n and bottom n stocks based on their polarity. 15: Redeem stocks bought at trading day (D i h) with their opening price of day D i, get bank roll M Di. 16: For each stock in the top and bottom list, invest M Di (2n) amount of money with their opening price of day D i. 17: end if 18: end for 19: return Total number of transactions N, final bank roll M, and yearly return R y. top and bottom stocks are selected from the 1113 dailiesmentioned stocks. For all simulations, the backtesting period are from November 2004 to October 2008, with each year running from November to October. There are four key parameters (n, s, h, C l and C u ) that contribute to the final returns. We performed experiments to isolate one parameter while fixing the other three: Diversification Figure 7 shows the impact of the number of selected stocks. As we can see, with the increasing of the number of selected stocks, the yearly return decreases. The reason is straightforward the stocks with the highest (lowest) sentiment should have the biggest price movement. If we select fewer stocks, the average sentiment of selected stocks will be higher, and the expected return will be higher as well. Sentiment Analysis Period For three of the four years studied (except 2008), yearly returns decrease with the increasing of sentiment analysis period s. This is consistent with the efficient market hypothesis, since longer periods dilute the freshness of the news. Holding Period Another tunable parameter is length of time we hold the stock. For all the four years, longer Figure 8: Portfolio Landscape of Monthly Return vs. Volatility analysis for experiments shown in Figure 7. holding time leads to lower returns. Again, the market will quickly reflect all the news information, and thus we will not benefit from extra holding days. Moreover, quickly redeeming the investment frees up capital to invest in more recently reported-on stocks. Market Capitalization Our experiments showed an interesting influence of market capitals on returns. Both large and small firms showed greater returns than medium-capitalization firms. The return for small firms is enhanced because their price is more affected by news eventssentiment. For large firms, we more accurately measure sentiment due to the greater volume of news coverage. From these experiments, we conclude that our agent should hold small numbers of selected stocks, use short sentiment-calculation and stock holding periods, and avoid holding medium-sized firms. 5.3 Returns and Volatility Returns only capture part of investment performance. The degree of risk (volatility) taken on to achieve these returns determines to amount of leverage which can safely be employed to exploit the agent, and the overall desirability of a given portfolio in the risk-return horizon. Here we analyze the monthly returns and volatility. The monthly return is taken to be the mean value of returns for all 48 months the volatility is the standard deviation of these monthly returns. Space does not permit a complete recapitulation of these experiments, which largely mirror those of Section 5.2. The greatest difference is that increasing the stock holding period decreases the volatility, by decreasing our exposure to reversals in news periods of rapid change. 8 9 Figure 9: 95 confidence internal of monthly return for experiments shown in Figure 7. Figure 11: Four-year Monthly Return Volatility comparison of bestsentiment, worst-sentiment, random-selection strategies. Figure 8 demonstrates the tradeoff between risk and return, with a scatter plot of performance vs. volatility for strategies differing only in the number of stocks held in each period. Increased diversification reduces risk. The result is consistent with modern portfolio theory regarding risk and return. If we assume monthly return follows standard Gaussian distribution, two standard deviations from the mean will account for about 95 coverage of all possible monthly returns. Figure 9 shows the 95 confidence interval of monthly return for experiments shown in Figure 7. We can see that smaller n may contribute to either huge positive or huge negative returns, while bigger n will make the investment less risky, but simultaneously it will reduce return. 5.4 Investment Performance Comparison Worst-sentiment Strategy Previously, we sort firms polarity from the lowest to the highest, long top stocks and short bottom stocks. By contrast, here we can do the opposite, i. e. long bottom stocks and short top stocks, and expect to gain negative returns. Note that compounding effects mean the performance of this strategy is not equivalent to the reflection of the bestfirst results. Random-selection Strategy Here, we do not care firms polarity, but just randomly select stocks to be long and short. Figure 10 shows the four-year monthly return for the three strategies. We see that best-sentiment strategy always returns positive gains, worst-sentiment strategy always produces negative returns, while random-selection strategy oscillates about zero return. With the increasing of n, the absolute return of former two strategies decrease, but the return of random-selection strategy continues steady around zero. Figure 11 shows the four-year monthly volatility decreases with diversification for the three strategies, from 4.5 down to about 1. Indeed all show similar volatility, reflecting the market-neutral nature of all three trading agents. By contrast, the volatilities of the long and short portfolios (discussed below) remained around 40 even when diversified over twenty holdings. 5.5 Long vs. Short Figure 10: Four-year Monthly Return comparison of best-sentiment, worst-sentiment, random-selection strategies. We compare our market-neutral best sentiment strategy against two other agents: An interesting question in any market-neutral strategy is the relative contribution of returns going long vs. going short. To answer this, we partition the experiments in Figure 7 into long and short components in Figure 12. Figure 12(a) shows long returns positive in 2005 to 2007, turning negative in By contrast, Figure 12(b) shows 9 10 near zero short returns in 2005 to 2007, but very high short returns in This difference results from the collapse of the broad market in 2008 after three years of growth, and validates the market-neutrality of our strategy. Figure 12: Returns for long vs. short in the experiments of Figure 7. 6 Conclusions We have shown that raw news variables or derived news variables are significantly correlated with some indicators in stock markets, e. g. news references versus stock trading volume, news references versus market capital, news polarity versus stock returns, news subjectivity versus stock trading volume, and the opinions from one news depository can reflect those from another news depository. Our market-neural strategy based on news data is able to generate consistent returns for investors. There are four tunable parameters in our strategy, number of selected stocks, number of historical days for sentiment calculation, number of holding days, and lower and upper bounds of market capitals. These parameters impact return and volatility significantly, and thus investors need to carefully tune them to balance risk and return. References 1 W. Antweiler and M. Z. Frank. Is all that talk just noise the information content of internet stock message boards. Journal of Finance, 3. June 2 M. Bautin, L. Vijayarenu, and S. Skiena. International sentiment analysis for news and blogs. In Second Int. Conf. on Weblogs and Social Media (ICWSM 2008), 3 W. S. Chan. Stock price reaction to news and no-news: Drift and reversal after headlines. Journal of Financial Economics, 70. 4 P. Chaovalit and L. Zhou. Movie review mining: a comparison between supervised and unsupervised classification approaches. In Proceedings of the Hawaii International Conference on System Sciences (HICSS), 5 D. M. Cutler, J. M. Poterba, and L. H. Summers. What moves stock prices Journal of Portfolio Management, 15:4 12, 6 T. Datastream. 7 G. Fung, J. Yu, and W. Lam. News sensitive stock trend prediction. Proceedings 6th Pacific-Asia Conference on Knowledge Discovery and Data Mining, pages. 8 G. Gidoacutefalvi and C. Elkan. Using news articles to predict stock price movements. Technical Report, Department of Computer Science and Engineering. University of California, San Diego, 9 N. Godbole, M. Srinivasaiah, and S. Skiena. Large-scale sentiment analysis for news and blogs. In Proceedings of the First International Conference on Weblogs and Social Media, pages. March 10 S. Kogan, D. Levin, B. Routledge, J. Sagi, and N. Smith. Predicting risk from financial reports with regression. In Proc. NAACL Human Language Technologies Conf. 11 V. Lavrenko, M. Schmill, D. Lawrie, P. Ogilvie, D. Jensen, and J. Allan. Language models for financial news recommendation. In Proceedings of 9th Int. Conference on Information and Knowledge Management, pages. 12 V. Lavrenko, M. Schmill, D. Lawrie, P. Ogilvie, D. Jensen, and J. Allan. Mining of concurrent text and time series. In Proceedings of 6th ACM SIGKDD Int. Conference on Knowledge Discovery and Data Mining, pages 37 44, 13 L. Lloyd, D. Kechagias, and S. Skiena. Lydia: A system for large-scale news analysis. In Proc. 12th String Processing and Information Retrieval (SPIRE 2005), volume LNCS 3772, pages. 14 M. Mittermayer and G. F. Knolmayer. Text mining system for market response to news: A survey. Working Paper No 184, August 15 M.-A. Mittermayer and G. Knolmayer. Newscats: A news categorization and trading system. In Proceedings of the International Conference in Data Mining (ICDM06), 16 B. Pang and L. Lee. Thumbs up sentiment classification using machine learning techniques. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 79 86, Philadelphia, July 17 B. Pang and L. Lee. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, Vol. 2, No 1-2:1 135, 18 R. W. Roll. R-quadratisch Journal of Finance, pages. 19 Y. Seo, J. Giampapa, and K. Sycara. Text classification for intelligent portfolio management. Technical Report CMU - RI-TR-02-14, Robotics Institute, Carnegie Mellon University, Pittsburgh, May 20 R. J. Shiller. Do stock prices move too much to be justified by subsequent changes in dividends American Economic Review, 71. 11 21 P. C. Tetlock, M. Saar-Tsechansky, and S. Macskassy. More than words: Quantifying language to measure firms fundamentals. In Proceedings of 9th Annual Texas Finance Festival, May 22 J. Thomas. News and trading rules. Dissertation of Carnegie Mellon University, Pittsburgh, 23 B. Wuthrich, V. Cho, and etc. Daily prediction of major stock indices from textual www data. In Proceedings of 4th ACM SIGKDD Int. Conference on Knowledge Discovery and Data Mining, pages ,

No comments:

Post a Comment