Statistically improbable phrase

Statistically improbable phrase (SIP) literalmente "Frases estatisticamente improváveis" (em inglês), são uma ferramenta estatística lançado em 2005 pelo site de e-commerce Amazon.com para o seu programa de indexação de conteúdo "busca dentro dos livros", é comparar o texto de todos os livros indexados a fim de encontrar para cada um deles um conjunto de frases que aparecem mais frequentemente do que em outros livros.

Explicação

O interesse para identificar essas passagens é que eles são considerados o representante mais significativo da maior parte do livro, constituindo o equivalente a resumos ou palavras-chave, tendo a vantagem de ser determinada de maneira automatizada.^[1]

Estes metadados são apresentados ao usuário sobre os cartões para cada livro. Cada SIP é acompanhada por uma hiperligação que permite ao visitante, encontrar os outros livros com a mesma expressão entre os seus SIP.^[2] Na verdade, estruturas idênticas de SIP provavelmente abordam os mesmos temas^[3] e também são susceptíveis de interessar ao visitante. Bill Carr, vice-presidente executivo de mídia digital da Amazon, enfatiza que o sistema de reconciliação destaca livros que seriam difíceis de encontrar sem ele, como parte da cauda longa catálogo^[4]

A utilidade desse recurso para os visitantes não se sabe com certeza.^[5] Benjamin Vershbow, pesquisador do Instituto para o Futuro do Livro, vê um equivalente a etiquetas automatizadas (Tag) que, são a base da Web 2.0, mas acredita que o sistema funcione melhor para o trabalho de não-ficção e romance^[6].

Amazon está a considerar várias outras maneiras de colocar esta ferramenta para uma boa utilização, por exemplo, integrando o sistema de recomendação que já existe, ou para responder a perguntas usando textos de autoridade no campo. Além disso pesquisadores propuseram uma aplicação deste sistema para MEDLINE.^[7]

Ver também

Hápax
Tf–idf

Referências

↑ (em inglês) « What are Statistically Improbable Phrases? », sur Amazon.com. Consultado em 21 de julho de 2008
↑ (em inglês) William Cleland, Best Practices in Digital Asset Management for Electronic Texts in Academic Research Libraries, Graduate College of Bowling Green, août 2007, p. 20, p. 68
↑ (em inglês) « Making Data Work Harder », sur Amazon.com. Consultado em 21 de julho de 2008
↑ (em inglês) « Judging a Book by Its Contents », sur Amazon.com. Consultado em 21 de julho de 2008
↑ (em inglês) « Steve Weber, Plug Your Book : Online Book Marketing for Authors, Weber Books, 2007, p. 128–129», sur Amazon.com. Consultado em 21 de julho de 2008
↑ (em inglês) « Judging a Book by Its Contents », sur Amazon.com. Consultado em 21 de julho de 2008
↑ (em inglês) « Identifying duplicate content using statistically improbable phrases », sur Amazon.com. Consultado em 21 de julho de 2008

Amazon

Pessoas

Atuais	Jeff Bezos Doug Gurr Tony Hsieh Werner Vogels
Antigos	Rick Dalzell Paul Davis Brian McBride Christopher North Nadia Shouraboura Ram Shriram Tom Szkutak Brian Valentine

Instalações

Lista de instalações da Amazon.com
Doppler
Day 1
HQ2
Spheres
Bellevue 600

Produtos
e
serviços

Subsidiaras	A9.com AbeBooks Alexa Internet Amazon Game Studios Lab126 Amazon Robotics Annapurna Labs Audible.com Blink Home Book Depository BookFinder ComiXology Digital Photography Review Fresh Goodreads Graphiq IMDb Box Office Mojo Withoutabox PillPack Ring Inc. Shopbop Souq.com Twitch Woot.com Zappos
Computaçãoem nuvem	Web Services AMI Amazon Aurora Beanstalk CloudFront DynamoDB EBS EC2 EFS ElastiCache EMR Glacier Lambda Lightsail MTurk Neptune Product Advertising API RDS Redshift Rekognition Route 53 S3 SageMaker SES SNS SimpleDB SQS VPC
Serviços	Amazon.com China Alexa Appstore Digital Game Store Drive Fire OS Payments Prime Key Prime Music Prime Now Prime Pantry Prime Video Kindle Store Marketplace Music Silk Storywriter Wireless
Dispositivos	Cloud Cam Echo Show Echo Buds Fire Fire HD Fire HDX Fire TV Stick Kindle
Tecnologia	1-Click Dynamo Obidos Lumberyard
Mídia	Amazon Publishing Amazon Studios Breakthrough Novel Award Best Books of the Year Kindle Direct Publishing YES Network (15%)
Varejo	Amazon Books Amazon Go Treasure Truck Whole Foods Market
Logistica	Amazon Air Amazon Prime Air
Encerrados	43 Things Askville Amapedia Amie Street (Songza) CDNow Dash buttons Dash wand Diapers.com Endless.com Fire Phone Lexcycle Liquavista LivingSocial LoveFilm Mobipocket PlanetAll Reflexive Entertainment Double Helix Games Sellaband Shelfari TenMarks